谷歌 i o 大 会即将重磅来袭,网传要推出全新 omni ai 模型,直接把 gemini 从普通聊天助手升级成全模态超级生产力入口告别依赖外部模型, gemini 或将原声支持视频生成, 文字图片、视频创作一键打通。同时, gemini 三点二、三点五正在内测,主打极速推理,更低能耗 ultra 版本,深耕超长上下门技艺,能自主完成多步骤复杂任务。未来 ai 比拼不再只看跑分,一个入口搞定,写作、出图、做视频,全链路内容生产彻底被颠覆。
粉丝1899获赞9948

兄弟们,沉寂已久的谷歌终于来炸街了,就在刚刚结束的谷歌 i o 大 会上,发布了天花乱坠的各种 ai 产品,但真正重点就两个,一个是独一档的多模态能力和超强的 ag 能力。 先来看个最狠的,谷歌发布了全新的世界模型 jimmy nike omni。 你 可以将任何形态的文件作为输入,比如文字、视频、图片、音频一起发给他。 jimmy nike omni 能以任何你要求的形式输出给你, 从此 p 视频就像 p 图一样简单。但如果说 omni 是 无敌的感官,那么同时发布的 jimmy nike 三点五 flash 就是 专为代码和 ag 的 优化的, 它的输出速度达到了同类前沿模型的四倍,每秒狂飙一千五百个 token。 谷歌在现场用全新的 ai 开发平台 anti gravity 二点零展示了它有多逆天。 杰米奈三点五 flash 仅仅持续工作了十二个小时,就从零首写出了一个完整的操作系统内核。它在开发时,后台自动派生出了九十三个 ai 子代理,总 token 成本低于一千美元。而同类型的任务如果交给人类团队,至少需要数月的时间。 更硬核的是这个首出的操作系统,既然能直接加载毁灭战士 doom, 现场就玩起来了。 随后谷歌顺势推出了 gemini spark, 你 可以理解,它是谷歌为你远程部署了一台七乘二十四小时,搭载了 gemini 全套能力的服务器。它能跨越应用,直接打通各种第三方软件。你只要给他一个目标,他自己就能拆解,步骤全自动帮你搞定。 比如自动检查信用卡账单里的隐藏订阅费,把货一记录整理成文档,然后群发等等。最后还有压轴亮相的谷歌智能眼镜,戴上它, jimmy 奶就变成了你现实世界里的专属管家。路过咖啡店,眼镜自动识别,你只要动动嘴, ai 就 把咖啡给你点, 还能实时 ai 导航和同城传译。从这次 ai 大 会上看得出,谷歌正在疯狂地将 ai 模型的能力产品化,毕竟用户真正需要的是能解决问题的产品,而不是 ai 模型本身。第二呢,谷歌之前明显在多模态发力过猛,在 ag 能力方面有点落后于 antropics 和 open ai, 现在眼看 ag 大 爆发,所以他就奋起直追。但即便是刚刚发布的 gmi 三点五 flash, 也依然和这两个头部公司的模型有差距。那么 gmi 三点五 pro 会不会惊艳全场呢?大家可以期待一下。好了,我是阿朱,关注我,让我们一起在 ai 潮头冲浪!

笔画完全跟随动作,写出来的公式也完全正确。谷歌全新 ai 视频引擎金布莱奥米首爆视频版香蕉来了!谷歌这次是瞄准了 siri 下架窗口搬上来的新品。 那么面对一代视频强者,七代是二点零,又有怎样的表现呢?两分钟带你了解这个即将上线的全新 ai。 首先,奥米到底是什么模型?在哪用? 目前它正处于大规模推送或内测阶段。如果你是 g m 两高级定员用户,可能会看到推荐使用选项,这是别向大众发布,应该在五月的谷歌 i o 大 会后就能看到了。为什么要叫它视频版香蕉?因为它继承了当年 nano banana 那 种即插即用,极度精准理解人话的特质。以前出片结果还是抽盲盒,全看概率。 在奥尼,标志着 ai 视频进入了逻辑生产时代,他不再是单纯的在模拟像素,而是在模拟这个世界的运行逻辑。大家最近可能在网上刷到了谷歌爆出的几个演示视频,教授在黑板上写公式和吃意面喝奶油汤。这一段视频展示了奥尼最核心的两个能力,极致的致富精准度和动作逻辑。跟随兄弟们,你们细品 视频里那个老教授在黑板上飞速书写粉笔碎屑、手部关节的自然扭动,甚至写字时的力度感都极其真实。但最让我感到头皮发麻的是,那个公式本身,它是完全正确的。 这种逻辑一致性目前在整个 ai 视频圈是非常领先的。它证明了奥秘不只是在画画,他真的看懂了这段公式。所以,如果你问我,他能带来什么表现?他能让 ai 教学课件复杂的科技演示,精准的产品说明视频从不可能变成一键生成, 但是它并非完美。当设计那种超大幅度极高爆发力的物理动作时,它的表现力确实没有另外两家对手那么激进。 或许你想知道它和苏拉二现在是二点零上比到底谁更强?首先是 opalion 的 苏拉二,它的强项在于它的物理引擎画面冲击力依然是很强悍的,但现在关闭了使用,无论是网页应用还是 a p i 都没法调用了。 然后字节的吸氮是二点零。他最强的地方在于他的饮用系统和角色一致性。你给他一张照片,他能保证在深层的视频里人脸几乎不崩,这对于短视频博主和短剧团队来说是非常棒的。在动作的表现上来说,我们也有目共睹,虽然还没有正式发布调用价格,但目前测试段效果非常恐怖。 正式价格让我们拭目以待吧。以前我们或许觉得 ai 视频就是图个娱乐,但 jamie 阿莫里告诉我们, ai 已经可以处理极其严肃的内容了。虽然他在动作爆发力上还有提升空间,但这种极致的准确性,这是目前专业创作者最缺的东西。那么问题来了,面对这个不仅会拍片,还会算微积分的视频相交,你会用它来做什么呢?

谷歌的欧米尼视频生成模型上线了,我们可以在这个 flow 平台上进行体验,同时 flow 平台也上线了很多的视频和图片编辑小工具, 那么本期视频我就给大家测试体验一下欧米尼模型还有这些小工具。首先我进行测试的时候,模型只开放了 fresh 模型, 目前最高能生成七二零 p 十秒的视频,每个视频消耗三十个点数, umi pro 会员一共有一千个 ai 点数,而且我在使用的时候,它的首帧参考功能还没有上线,所以我就简单测试了几个纹身视频的例子, i will send you back to the dark abyss。 好,提示词所要求的东西都有,但是动作,电影质感还有音效都差很多,可以看一下 c 带是二点零的, 而且在 flow 这个平台,我们可以在下面这里输入提示词,直接对视频进行二次编辑。比如我直接输入一条金枪鱼跳上船,我们来看一下效果, i will send you back to the dark abyss。 他 这添加的内容太生硬了,几乎是不可用的。当然有可能他是 fresh 模型的原因。我们再多看几个例子, 这条视频的话,飞机驾驶是还不错,女主的紧张感和节奏也还行,但最后飞机仪表盘反向了,而且多了一个人。下一个我们试一下著名 ip 加想象力 why won't this stupid code work? 暂停一下,这里电脑里表现的内容太棒了,连代码的说尽都像那么回事。 i refuse to do this? 直接切镜头换风格 anymore why won't 他 这条真人路飞生成的其实挺棒的,这是就中间莫名其妙多出来一个动漫风格的镜头,下一个是变形金刚的镜头, 这个表现就太差了,别说跟 c 站十二点零比了,连快乐马都比不过。 下面是一个著名 ip 加动漫风格, anya will defeat all the villains, 这个表现其实还算可以了,介于 first 和 cds 二点零完全体之间, 下一个是香港电影。如果记忆是一个管头,我希望他永远不回国。起 这个案例就表现的很差了,无论是中文音还是镜头都不符合要求。如果记忆是一个罐头,我希望它永远不会过期。来一个九比十六的变身镜头, 那就再来一次, 感觉能比快乐马好上一些,但是这种动作和特效还是 c 大 师您的拿手好, 再试一下科幻镜头, 这个表现太拉胯了,完全没有电影质感,比快乐马都差远。 总结一下就是 omni, 它的表现肯定是不如 cds 二点零的,但它毕竟还是 flash 模型,不知道它有没有正式版,如果有正式版还是未来可期的。它还有一个优点就是足够的便宜,性价比还是很高的,目前生产速度也快,而且目前还 现那些著名的 ip。 今天除了欧莫尼这个更新之外, pro 这个平台还上线了巨多的图像编辑和视频编辑小工具, 我也帮大家测试了一下,总结一下就是很鸡肋,就是看起来很厉害,实际上就是一些常见的开源项目整合而成的图像和视频编辑工具, 比如说编辑文字动画的呀,还有说像什么手绘转图片,从各个仕图和角度去查看原始的图片,这个就是千问的技术吧,我记得还有什么视频跟随音乐动起来,这样的就适合整活。 还有一个是上传三 d 模型,然后再转化为二 d 平面图片, 它的视频小工具还有一个印象比较深刻的是一个抽帧加抠图加重叠的技术, 其他的图像小工具的话,要不然就见太多了,要不然就完全没什么意义。总结一下的话就是 omni 未来可期,图像工具的话作用不大。 那么以上就是 jimmy 在 本次 flow 上的更新的测试结果了,我个人是比较失望的。好,如果本期视频对你有帮助的话,麻烦帮我点个赞。

没有啊,朋友们,谷歌更新了一大波东西,今年呢,我们也派出了我们团队的小伙伴去到了美国的 i o 现场,并且第一时间全部上手实测。然而,我们掏出了你真正最关心,真正有用的东西, 当然,想知道它全部更新的朋友,我也做成了一张 html, 分 别列出了它的更新点,使用条件,上线时间,另外也整理了免费的使用渠道。也感谢抖音科技、抖音精选和谷歌的邀请,来点好收藏关注、赞,我们直接上效果, 输入视频文字,再让它改一改,这就是谷歌发的第一个大货,欧米全模态模型。 全模态的意思就是你可以输入包括文字、图片、视频、音频的各种模态,他也可以生成这些模态的内容。听着很猛啊,不过大家肯定还是想知道,所以跟 cds 二点零比起来怎么样呢? 来同样的一个现场摇滚演唱会的一个提示词,纹身视频的效果,欧米是这样的, 它做到了生化同步,而且最长十秒时长,运动起来看起来也比较自然。不过我们再看 cds 二点零, 它的人物状态和画面真实感更自然,尤其是摄影机的这种手持运动,现场感会更强,光影和美学整体的氛围都更好。 what? 怎么回事?这也是我的第一反应,但是我发现它俩还不能这么比。 cds 二点零呢,是强在纹身图 omni 呢,更像能够输入任何东西进行编辑和生成的一种多功能编辑模型, 并且一致性保持的很好,他就有点像视频版的 nano banana pro。 所以呢,我们就发现了一个有意思的方向,实拍结合,这是原视频,给他加一段提示词,他就噔 以及再给他加特效加元素,换镜头都非常稳定。再比如这种修仙剧的制作, 或者给你的 vlog 加上特效跟踪,效果很好吧,这才是欧米尼正确的打开方式,所以它就非常适合那些有拍摄技巧和导演思维的创意小天才们。第二,闪电侠 jimmy 三点五 flash, 它是谷歌这次更新的一个主力模型,主打 a 阵的能力和快,并且呢,作为 flash 版本,编码能力已经超越了上一代的三点一 pro, 但是 我们不管它是 flash 还是 pro, 只要你是新模型,我就得拿你跟最好的比对吧?所以呢,我也直接拿它跟 gpt 五点五做了实测对比,没有想到它还是有点能打 的。那这是我让 jimmy 和 gpt 五点五分别出的五十个电商网站的 svg 图标,并且要求它生成出来的这个应用我们是可以直接下载 svg 的, 然而结果是 g p t 的, 这个是不能下载的。但是 jimmy 的 网站图标效果你看其实也很不错,最关键的是它可以下载。 然后第二个我做了一个换装应用,要求呢,可以一键试穿不同朝代的这个传统服饰搭配妆容。那 jimmy 的 效果呢,就是真的可以把用户上传的照片它作为内联数据传进去,然后可以真的帮我们生成,效果也在这个范围内吧。 那 gpt 呢,基本上是只做了个样子,没有任何的图片功能,而且在 gemini 里面还有一个好处是它跟 youtube 的 联动,那这是我让他们生成。根据我上一期 codex 那 个 youtube 视频生成的教程交互网站 gemini 三点五 flash 生成的效果还是不错的, 那 g p t。 五点五生成的样子也不错,但由于它没有办法真的看 youtube 内容,所以拉了。不过这次 jammin 三点五 flash 的 世界知识和抽象推理明显就弱了一档。比如说我问了一个人类为什么会需要音乐这个问题,三点五 flash 的 回答明显要更加刻板一点, 而且它最终还要问我们倾向于什么。而 gpt 五点五非常流畅的列出了各种典故的同时,抽象出了音乐本质上是一种情绪编程语言,总结出语言负责传递信息,而音乐让人类进入同一种状态。 所以三点五 flash 相当于降了一定的智慧。但是呢,它提高了干活的能力和效率,我将其称为最快打工仔。 如果大家想要更强的智力,只有期待一下三点五 pro 了。想当年二点五 pro 的 智慧也是非常让人惊叹的。当然要看他的 a 帧的能力,还得让他在 a 帧的场景里用 anti gravity。 新发布的 anti gravity 其实分成了两个产品,变成了跟 codex 非常类似的这种独立桌面应用,以对话框和这个多个 a 政的任务的管理为主。它没有那个编辑器了,原来带编辑器的那个 ide 拆出来了,叫做 anti gravity ide, 所以新版呢,也更适合普通用户来用了。它里面既有 cloud 四点六,也有最新的三点五 flash。 那 我呢,测试了一个需要读取本地的客服聊天数据,然后做一个分析,生成图表,最终再生成报告和培训 ppt 的 一个案例。 antigravity 是 真的快,这好几个产物的任务它只花了不到四分钟。那最后快速聊聊,国内暂时用不着,但我觉得挺有用的小功能。 第一,谷歌地图可以自然语言来问路了,那第二, youtube 可以 自然语言来问答案,并且帮你找到视频对应的那一段,那第三,谷歌搜索的 ai 模式更好用了,还能帮你直接出一个互动应用。第四, java 的 auto 会员会自带一个云端龙虾画的 agent jack。 与此同时,我们的小伙伴也在旧金山达到了无人驾驶的出租车,威猛没有辅助的司机。而且比较好的是它内部的交互都是可以用中文完成的,据说感受还是比较神奇的。好了,那总之,这是一个 a 证的时代, 关于怎么用 a 证的帮你干活,我们也会继续出实用教程,记得点赞收藏关注,还有在抖音精选 app 点点推荐,我们下次见了。

谷歌最新的视频生成模型 omni flash 已经上线了,现在你在 flower 里面已经可以使用它了,那么它最后生成出来的效果到底怎么样?能不能撼动 c 但是二点零的王座? 我们一起来看一下。现在 flower 里面也是支持自定义角色形象了,你可以通过 nano banana 直接生成一个角色的形象,并且可以给他选定与和自定义语音啊。那么比较有意思的地方呢,是它这个有个角色个性的动作啊,它的这个文本呢,就会帮助模型去 呃决定这个角色的这个行为啊。好,那我们废话不多说,我们就来直接测试一下 omni flash 的 这个能力啊。首先我在 type n 里找到了一些案例啊,我用相同的提示词和相同图片去生成这个案例中的这种视频,接下来我就放出前后对比啊, for the empire we will not be defeated。 可以看到跟国内的模型对比其实现在还是有差距的啊,那么谷歌到底是不是在憋个大的,它的 v u 四能不能让它重返这个视频生成的宝座啊?那么这个就是后话了啊。关注我,带你看更多 ai 测试!

朋友们,今天凌晨,谷歌扔出了一枚深水炸弹。就在刚刚结束的 google i o 二零二六大会上,谷歌宣布推出 gemini 三点五 flash 模型,并且向全球所有用户免费开放。这不是阉割版,不是试用版,而是谷歌宣称的迄今为止最快、最有效的模型。 它可以接受任何形式的输入文字、图片、音频、视频,用户甚至可以用自然语言直接编辑视频。谷歌在现场算了一笔账,对于头部企业来说,如果把大部分工作负债切换到 flash 系列模型,每年节省的成本可能高达十亿美元级别。免费开放多模态视频编辑,年省十亿, 这不仅是模型升级,这是全球 ai 巨头在用极致性价比重构竞争格局。很多人可能对三点五 flash 这个命名没概念,我帮你翻译一下。 第一,速度快得离谱。谷歌表示, g m 三点五 flash 在 输出令牌速度上是其他前沿模型的四倍,而在优化平台上的版本,速度还能再提升到十二倍。什么概念?你以前问 ai 一个问题,等三秒才有回复,现在一秒不到答案就出来了。第二,性能不降反升。你可能会想,速度快是不是牺牲了智能? 恰恰相反, gemini 三点五 flash 在 多项精准测试中,超越了四到五个月前的旗舰模型。在代理式 ai 能力、代码编辑、多模态理解等关键维度上,三点五 flash 都达到了前沿级别的水平。用谷歌的话说,性能是旗舰级,成本只有三分之一到一半。第三,真正的多模态来了。 gemini 三点五 flash 可以 接受任何形式的输入文本、图片、音频、视频。更炸裂的是,用户可以用自然语言直接编辑视频。你说把这段视频中的夕阳调亮一点, ai 立刻执行, 不像是模型升级,更像是人机交互方式的彻底重构。第二部分,谷歌的阳谋,用极致性价比打一场价格战。很多人问谷歌为什么要免费开放,低价收费?难道做慈善?答案很简单,抢市场、抢用户、抢生态。第一, ai 的 竞争已经从参数竞赛转向成本竞赛。谷歌现场算了一笔账, 目前头部企业每天在谷歌云上处理海量 token, 如果把大部分工作负债切换到 flash 系列模型,每年节省的成本是十亿美元级别。 对于正在烧钱搞 ai 的 企业来说,成本就是生死线,谁能在保证性能的前提下把价格压到最低,谁就能抢走对手的客户。第二,谷歌要用免费圈住十亿用户。 gemini 应用的月活用户已经超过九亿,一年前这个数字只有四亿。谷歌搜索 ai 模式的月活用户也在一年内突破了十亿。策略很清晰,用免费的 flash 模型留住 c 端用户,用低价的 a p i 吸引弊端开发者。当所有人都习惯了 gemini 生态,谷歌的 ai 收入就会像当年的搜索广告一样源源不断。 第三,谷歌有降维打击的底气。自研芯片,谷歌使用的是自研 p p u, 而不是像其他厂商那样采购英伟达 g p u。 自研芯片意味着更低的单位算力成本、更高的利率。二零二六年,谷歌预计资本支出将达到一千八百亿至一千九百亿美元,六倍于二零二二年的三百一十亿美元。 这种不计成本的投入,就是在为未来五年的 ai 算力霸主地位铺路。谷歌 ai 大 模型升级,最直接的受益者不仅是谷歌自己,还有整条 ai 算力产业链,大模型训练和推理需要海量算力。 杰米尼三点五 flash 的 免费开放,意味着全球用户的使用量将暴增,直接拉动 ai 服务器需求。据产业链消息,谷歌 tpu 机柜总数量预计将从二零二六年的约六万柜,快速成长到二零二七年的约十点五万柜,年增幅高达百分之七十五。工业复联 ai 服务器代工龙头,深度绑定英伟达、谷歌等大客户直接受益。 互电股份 ai 服务器 pcb 核心供应商、 pcb、 数据中心等领域的订单持续增长,大模型参数越大,数据传输需求越高。 光模块是 ai 算力集群的神经系统中继续创全球光模块龙头。一点六 t 光模块已批量交付。谷歌 gemini 流量增长将直接拉动八百 g 一 点六 t 需求。 天福通信一点六 t 光引擎规模量产,深度绑定海外头部大客户业。三点五 flash 的 免费开放受益于 ai 数据中心互联需求。 gemini 三点五 flash 的 一大亮点是端侧轻量化,让更多中低端设备也能流畅运行本地 ai 功能。瑞生科技向 ai 手机 x 二可穿戴设备输出光波导、高端散热系统等感知方案。康奈特光学、夸克 ai 眼镜独家镜片供应商受益于 ai 端侧设备放量。当然,话要说回来, 第一, gemini 三点五 flash 的 免费策略可能会引发整个 ai 行业的价格战,如果竞争对手被迫跟进降价,整个行业的利率可能被压缩。 第二,谷歌 tpu 供应链相关标的近期已有较大涨幅,工业复联中继续创等估值处于历史高位,短期追高需谨慎。第三,谷歌的资本支出虽然庞大,但能否持续产生回报,还需要看 ai 应用的商业化落地节奏。 总之, gemini 三点五 flash 免费开放是谷歌在 ai 成本占中的一次亮剑,它的意义不亚于当年安卓系统免费开放。 用极致性价比抢下生态入口,再用生态反捕算力投入工业复联在造服务器中继续创。在铺光模块,天府通信在生产光引擎,瑞生科技在布局端测硬件。当谷歌用十亿用户、万亿 toker 向全球宣告 ai 不 再是奢侈品时,中国算力产业链上的卖产人正在闷声发大财,这个赛道的故事正在翻开新的一章。 好,这个话题就聊到这。以上内容和提到的公司是基于公开信息的逻辑梳理与产业推演,不构成任何投资建议。市场有风险,投资需谨慎。

谷歌 i o 大 会上发布的全新 omni 模型真的太萌了!这次活动之前,外界就一直有声音在猜测 jammer 今年会拿出什么杀手锏。而当我看完了发布会,特别是 demo 的 视频后,我脑袋瓜子真的嗡嗡作响。 虽然我不知道这背后的技术门槛有多高,但我能直观的看到它的效果有多好。每一帧画面都像是经费在燃烧, 不像这之前的 ai 视频,只是让人觉得画面动了起来。 omni 的 视频给的感觉就是电影级的 cg 特效。 还有个好消息是,对于 jammer 的 付费用户来说,新版本将升视频额度放宽到了五个小时的对话上下文窗口内。未来欧米尼的升视频能力还会接入 youtube shots 中,以后的创作者们都要杀疯了!

全网都在吹的谷歌 jam 四开源大模型啊,到底是个啥东西?今天呢,我就用三分钟把它给你讲透,顺带啊,让你知道开源闭源到底有啥区别,值不值得普通人上手。先纠正一个最常见的误区啊,开源呢,不等于免费 闭源啊,也不等于要花钱,这两的核心区别从来都不是钱,而是你对这个 ai 模型到底有没有说了算的权利。我们先来说说闭源模型啊,就是最核心代码完全不对外开放, 我们只能通过呢官方的网页,官方的接口去调用,不能修改,不能本地部署。像 g p t jammin, 还有我们国内的豆包 kimi, 全部都是币源的。那这一类模型呢,大多都有充足的免费额度,日常的使用啊,基本上是不用花钱的。 币源的好处很多啊,点开就能用,没有门槛,不用懂电脑配置,不用去折腾安装调试。官方呢,全程维护更新,日常里写文案,做脚本,拆数据,只要会写提示词,给足参考素材,基本上的需求都能够满足。 当然了,短板呢,也很明显,必须联网才能用,没网的话直接用不了。内容呢,要传到官方的服务器敏感信息啊,有泄露隐私的风险。大批量的高频调用呢,不仅要花钱,还有额度的上限。那搞懂的闭源啊,开源模型就很好理解了, 就是核心代码呢,全部或者部分对外开放,我们可以免费下载,本地部署,二次微调,甚至是合规的商用。最近呢,全网刷屏的 jam 四, m 三,还有国内的 deepsea 微三,都是典型的开源模型。 这里啊,必须要提醒大家一句啊,不是所有的开源模型都能够随意商用的,用之前呢,一定要看清楚官方规则,别到时候侵权了。那开源模型的优势啊,也是闭源模型比不了的,可控性强,定制化上限高, 本地运行呢,数据不外传,隐私更安全,长期大批量使用呢,成本低,无调用额度限制,支持完全离线使用。像杰玛斯的轻量化版啊,甚至可以装在手机里,没网没信号都能用。但是呢,短版也特别多,对设备配置啊有要求。就算是开源模型支持本地部署, 大参数的版本呢,普通家用电脑基本上也带不动,动则需要专业级的显卡,而且全程要自己安装调试维护,纯电脑小白啊,很难上手。所以啊,对大部分的普通人来说呢,开源模型并不如闭源模型来的方便。 那聊完了开源闭源的核心区别,我们再来说一下爆火的 jam 四,他是谷歌四月刚发的开源大模型,最牛的一点呢,就是他和谷歌自家顶流的闭源旗舰 jam 三, 用的是同一套核心底层技术,相当于是把旗舰 ai 的 核心配方啊,直接开源给所有人用。而且呢,他的开源协议很宽松,个人用合规商用基本上都是没限制的。那接下来呢,给大家讲一下他最核心的四个亮点啊。第一, 算力效率高,小参数也能跑出强性能。顶配版呢,在权威开源模型榜单排第三,中配版用更少的参数就能够达到一流的水准。别人要专业设备顶配台式机才能干的活啊,他用普通笔记本就能够搞定,对算力的要求呢,是低了一大截。 第二,原声多模态泥线也能用,全系列是支持图文理解,轻量版呢,自带泥线语音识别,不用联网也能够语音转文字。第三,支持超长内容处理, 他的上下文窗口啊,能够一次喷下二十五万字,几十集的短剧剧本丢进去呢,几秒钟就能给你分析的明明白白。第四啊,设备门槛极低,最小版本呢,仅需二 g b 显存,千元以上的手机啊,就能够泥线运行, 真正是实现了把 ai 装进口袋。那加纳四的发布呢,最大的意义是把 ai 轻量化部署的门槛拉到了前所未有的新地点。 之前只有大公司技术大佬能玩的 ai 定制啊,现在的小团队和有基础的个人呢,都能去尝试,也倒逼着整个行业加速技术开放,让普通人能用上更便宜更方便的 ai 工具。在这个 ai 天天都有新变化的时代啊,这样的技术开放,不管是对 ai 技术的发展还是对我们普通用户都是特别有益的事。 最后啊,我想说,开源模型呢,只适合三类人团队大批量定制化创作的,要处理敏感涉密内容的,必须离线使用的。除此之外啊,真的不建议普通人盲目跟风去部署开源模型, 费时又费力,而且最后大概率呢,还不如闭源模型用的顺手。好了,以上呢,就是本期全部内容了,如果视频有帮助到你,欢迎点赞关注,我是七老,下期见!

谷歌的 omni 模型生成视频效果到底怎么样?经过我们全员的检测呢?先说检测,这个绝对是今年上半年性价比最高的模型,先看视频, 左边是 omni, 右边是 c 点,四二你们自己感受一下,我们给他的提示词呢是一模一样的,这两个模型的效果呢,其实也差不多,所以今天给大家讲一讲我们测试出来最直观的感受啊。首先第一它的整体表现呢,已经可以跟那个快乐马一个梯度的 啊,差不多可以达到这个 sims 二百分之九十的效果,而且他也是这种全模态的参观模型,他可以上传这个文字、图片、视频,包括他的那个声音都是可以的,所以他可以跟那个 sims 二做一个对比。然后第二的话,他特别匹配就做一个生产流程,因为他不是单纯就生成一条视频,他可以不断的去改,不断的去调,去替代, 你们做过的视频你们应该清楚,对吧?我如果想换一个品,想换一个样式,我想换一个模特,我一般都要重新去生成的。但是光比的话,我们可以直接去改变视频里面 的一个元素,这样的话我们可以把我们创作的视频做一些点对点的修改,它会特别的方便。那我们测试的这几天呢,这个点是特别让我们欣慰的,因为其他的模型根本就没有这个功能。然后第三个大点的话,就是它的价格,也就是它的性价比它的区域高, 你去看一下现在国内的模型,包括 c 零十二,包括那个 happy house, 它们的价格对吧?都是一块钱一秒,也甚至有更贵的到幺零八零 p 三四块钱一秒的,这些都有, 但是欧尼的话他让我看到了就像去年下半年那个 solo 的 感觉一样,透视大概还不到我们现有模型十分之一的价格,所以不管是线上线下,我真的很推荐这个新模型啊,大家可以两个去试一下,它是可以真正的把我们的视频生产成本压掉百分之九十的,谁用谁知道。

最近 ai 圈炸了,谷歌直接把他花了几个亿美金搞出来的点击模型干巴士给免费开源了,一分钱不要,协议随便用,这哪 是搞慈善,这是在下大棋。现在 ai 市场其实分为两块,一块币源付费,像 gdp 那 样,你按使用量交钱省事,但是用多了是真烧钱。另一块,开源自建,你自己搭建服务器调模型, 前期麻烦,但是成本能够压的很低,数据还能完全自己掌控。谷歌这一招表面免费送技术,实际上是有三重心思。第一,引流上云,模型免费,但你想顺畅跑起来,尤其是处理公司内部数据,服务大量用户时,大概率得用云服务伽马寺或者 谷歌自驾的云平台。说白了,模型是免费鱼饵吸引你来我的云生态鱼池里面钓鱼,基础设备我按量收费, 抢占地盘。现在很多好用的开源模型,不少来自国内团队。谷歌这一操作,等于在欧美市场列了个技术自主的一个标杆,把那些在技术、隐私和成本上面有顾虑的企业,提前圈到自己的技术体系里, 对币源竞争的对手也是压力。测试,我这边有免费的模型,你的收费服务性价比还香吗?第三,绑定未来。今天用了干妈四练手的年轻开发者,可能就是明天决定公司技术采购的关键人物。谷歌用免费好用工具,提前培养了一代开发者的使用习惯 和情感认同,这一招看的非常长远,所以开源和币源的未来会长期共存,就像手机系统有 ios 和安卓。对于企业来说, 关键不是盲目追哪个模型最牛,而是看清楚你的企业到底适合哪一种模式。如果你的团队小,需求心,偶尔用 ai 生成内容,直接买成熟 a p r 服务,省心省力。但如果你的企业数据敏感, ai 使用大且深,甚至是切入产品底层,那真的认真考虑组建,进入团队研究开模型。谷歌, 对不起,不是简单出手,而是看清了中局。他要在高端市场赚钱,也要在免费工具把未来生态的玩家早早聚拢在自己的棋盘上。 ar 的 竞争早就不是技术的本身了。

今天是二零二六年五月二十六号,让我们随便聊聊上周 ai 圈又发生了什么。 先看谷歌这边,这周它们动静挺大的,连着发了三个底层更新。第一个是正式发布了 gemini 三点五 flash, 而且直接把它设成了谷歌全生态的默认工作底座。这模型的定位很直接,它不是那种拿来陪你闲聊的玩具,而是专门面向能干活的智能体和代码执行任务。 从官方数据看,它在各种复杂的编码和智能体基准上,成绩直接盖过了前代的三点一 pro, 输出速度还提了四倍,算是名副其实的新一代工作码。但大家实际体验反馈并没有它吹的那么好。 然后是视觉这边, deepmind 交出了真正的原声多模太达卷,也就是 jamna omni 家族首发版本 omni flash 已经正式取代了之前的 vivo。 作为视觉创作者,我觉得这东西最硬核的地方在于它不再是拼凑出来的流水线, 而是完全原生的任意道、任意架构、图文音式,全都能混着输进去。你不仅能生视频,还能直接用说话 a 的 方式对最高十秒的视频片段做连续的带状态编辑, 但许多人实测下来,生成效果跟宣传片相差有点远。顺着这个干活的思路呢,谷歌还把桌面的开发中书给重构了, 推出了 anti gravity 二点零,这次比较彻底,直接把传统的代码编辑器界面给扔了,做成了一个支持语音输入的独立桌面平台,核心逻辑就是多智能体编排。新版的反重力跟 codex 简直是一个模子刻出来, 也被许多网友以及 codex 的 开发者吐槽过,额度听说也大大降低了。总之,谷歌发布的三个东西在社区的评价整体都是是偏低的,并没有什么十分惊艳的地方。 得看看他们下个月正式版的 gemini 三点五表现怎么样了。下面来看看字节跳动。他们开源了一个叫浪斯的极致多模态模型,现在市面上的多模态模型其实挺割裂的, 董事觉得不会生成,能生成的做不了剪辑。恋思就是想把这事统一了。 他的激活参数只有三十亿,但用了双流混合专家机制,在同一个维度里并行支持图像和视频的语义推理,画面生成,还有编辑。再看个视频生成相关的新闻,美团龙猫团队把他们的数字人框架更新到了一点五版本并开源了。 这不是那种简单的口型对口型演示,而是偏向商用级别的。新版本把音频编码器换成了大参数的 whisper, 纯行动态和全身动作学同自然了很多。最实用的点是他们用蒸馏技术把原本需要五十步的生成流程硬生生压到了八步。 so the next day i picked her up early from school, and i took her to sally sour cream, and what everyone thinks i am and i suppress my discomfort because i'm worried it makes me look weak, and i want to be strong and i think i'm failing all the time and i only take what you。 接着看两家关于智能体工具的进展。企业落地智能体最怕的就是数据和频剧泄露。 为了治这个痛点,安斯基给他们托管的 cloud 智能体,加上了自托管沙河和私有网络隧道以后,借助 cloud flair 或者 virso 这些底层平台,智能体做决策的脑子虽然还在云端,但跑代码和调工具这些脏活 全都被物理隔离在了企业自己的内网边界里,安全系数确实拉高了不少。另一边,马斯克的 xci 这周也终于杀进了终端编程智能体的赛道, 发了个 grok build 测试版产品,直接对标目前的 cursor 和 cloud code, 重点放在了完整的开发工作流上,有独立的计划模式,每次修改代码前都会被拦截审批。当前入口只对高级订阅用户开放,不仅是写代码要工具, 写代码的规矩也得有人管。平时用 ai 写代码,要是没规矩随性发挥,很容易铲除难以维护的废代码。为了治这个毛病,给 tab 官方开源了一个叫 speckkit 的 工具包, 没几天就狂揽了九万五千多颗星。它强制执行一套标准流程,就是让 ai 动键盘前,必须先定义产品规范,再出技术计划, 接着拆解细分任务,算是把传统软件工程的严谨性重新交给了大模型。最后快速过几条工具和研究方向的短讯面壁,智能开源了端侧小模型 mini c p m 五一 b, 支持十三万一千零七十二的超长上下文和双模式切换,把离线桌面桌面助手的落地门槛又拉低了。 法国初创公司 newmind 开源了四 b 级别的多模态模型 new extract 三,专门用来做文档、 ocr 和结构化数据提取,很适合塞进 reg 的 数据清洗链路里。 cp and ai 推出了一种极低成本的预训练架构, 仅用四百亿 token 和一千五百美元就算出了极高的数学成绩,证明重构循环架构潜力巨大。英伟达为了防范开元脚本后门,正式推出贷房篡改签名机制的官方智能体技能库, 所有接口均强制标配漏洞扫描。斯坦福时政研究指出,只要算力充足,大模型直接用未经过滤的低质量原始数据域训练,反而性能更好,颠覆了业界对纯净数据的执念。麻省理工提出了一种叫 v p o 的 向量策略优化算法, 用向量化奖励强制模型输出多样化解法,在不增加算力成本的情况下,大幅提升了推理搜索通过率。好,以上就是上周的 ai 资讯,接下来看下上周全球前十的生成式 ai 产品访问量排名, 然后再看一下近一年生成式 ai 访问量的变化。 最后再看看本周 hugin face 上热度前十的开源模型有哪些, 这期就这样,感谢收看,觉得有用的话点个赞分享一下,下期见!

一分钟让你搞清楚关于全球最强开源模型 jam 的 一切。最近谷歌开源了 jam 四,我将用四个问题 让你清晰了解关于 jam 的 一切。 jam 各版本的区别,我家的电脑能用吗?模型怎么部署安装?普通人用来干什么?先说他的四个版本,三一 b 直接冲上全球开源 ai 榜第三名,以前要机房才能跑的能力,现在你家里的高端游戏显卡就能搞定。 轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造,性能虽不是最顶级,但是绝对好用够用。而二六 b 猫号称总参数两百六十亿,但实际每次思考只用其中三十八亿个,最相关的效果却能媲美两百六十亿, 能理解超长文章以及视频。简单说,无论你是用手机、笔记本还是高性能电脑, jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上?一张图告诉你 jam 四个版本的最低要求。 对于多数人而言,家用的电脑设部署一二 b 一 四 b 完全够用,基本能满足百分之九十的使用场景。另外两个版本对内存要求较高,但是性能出众,属于好马配好鞍。 再说模型安装,整个过程大概十分钟左右。首先下载 lm studio, 然后打开 opencool 或者 id 工具,让它查找你本地配置,给你推荐安装哪个版本。之后在 lm studio 里下载,运行搜索推荐的模型名点下载,最后接入 opencool 或者 i d e l m studio, 提供 open ai 兼容 api, 在 open 框里把 api 地址改成, h t t p l o c a o s t colon twelve three four slash vivo 就 能用 jama 四驱动你的 ai agent 了。 网上攻略一大堆,这里就不展开了。最后说下所有人最关心的能用 jama 做什么?这里推荐三个场景,可以去试试。第一, 构建本地知识库,把工作和学习相关的文件丢给本地 jama, 让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive, 解锁数据不出本地,安全合规。第二,给家人搭建一个 ai 助手,下载好模型,配个界面,电脑手机都可以直接对话,不花钱不泄露隐私。第三,内容创作 最大优点是无限额度,即便不如部分付费模型,但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗?欢迎在评论区发表你的观点。

这样 gemini 三顺利上线之后, angel 决定离开了待了近十四年的谷歌。 angel 的 结论是,光是大语言模型无法将我们带到 agi。 不 过我们现在看语言模型,它们的 思维链都是用语言做出来的,就包括 gemini、 叉、 gpt 和 cloud, 它们就是觉得这思维链变得越来越长,越来越 diverse, 那 模型就越来越聪明,最后就可以达到 agi。 但是如果你看模型做视觉问题的话,现在这些模型都不会数东西,所以我觉得你光 scale 这个语言这部分还是不够了解我们的世界。另外一个方向就是你说的世界模型这些 lab 都是从计算机视觉部门出来的,就像菲菲和杨乐坤 那他们的想法我觉得是更偏 academic 那 样的想法,就是说,呃,我要做一个新的模型, novelty 很 重要,因为对 academic 你 必须要 novel 才可以发表文章。我觉得他们就是比较相信视觉,最近可能变了,因为 atlamb, 但是我们这个是算一个比较 nice 的 领域。然后这次就是因为很多 researcher, 之前也包括 jeffenten, 他 们就是觉得视觉 is key to intelligence, 但是从语言角度来说,光靠视觉不够有 intelligence, 因为动物、生物它们还可以做,我们现在机器人做不了东西,它们视觉还是比我们现在的模型好。所以我们在我们这个公司,我们就是觉得要把语言推理加上视觉推理才可以做到一个模型 可以帮大家,可以帮所有的行业。你觉得做这个视觉推理的其他公司,大家的竞争优势是什么?因为我看到 deepsea 之前好像推出来一篇文章,好像也是很 similar 的 一些东西,他后来把那个文章给删掉了。对,其实 deepsea 的 想法是跟我们的很像,他们的 path, 呃,有点像我们的 past, 但是其他的 frontier lab, open eye, deepmind 和 anthropic, 我 觉得他们是越来越偏编程的方向,因为编程这个市场很大,他们也是觉得你要做一个很好的编程模型,你就可以有 self improvement, 这个叫 recurrent。 self improvement, 谁先把那个突破,那谁就先 可以达到 agi, 然后这些 frontita 他 们都不想第二,达到 agi 都想第一。所以其实他们有很多压力做一个更好的编程模型,所以因为这个压力他们就不是很看重多模态视觉推理这个问题, 所以我在 gemma 的 时候我就,我就感觉到了这个,所以我就觉得,哦,现在是一个很好的机会做一个多模态推理的模型。所以你觉得 deepsea 会是你们的比较的一个大的竞争对手吗? 可能是,可能是,对,但是我不知道他们为什么把那个文章删了,他们是不是又换了一个方向?

全网都在吹 gemini omni, 但它最诡异的是,没有模型卡,没有 api 文档,没有官方页面,甚至没有像样发布。一个突然出现在 gemini 应用里的名字,反而可能改写 ai 赛道规则, 时间点也很反常。二零二六年五月十一日,媒体写出,离 googleio 二零二六年五月十九日只剩几天。按常时,这种级别的东西应该高调透明,可复现。现在更像谷歌故意把枪藏在衣服里, 把碎片拼起来,你会发现它可能不是新模型发布,而是一次系统级合并,把 ai 竞赛从谁更聪明改成谁更像操作系统。 omni 更像统一入口与体验,而不是凭空冒出的魔法大脑。 关键判断, gemini omni 大 概率是把过去两年谷歌已做出的能力统一打包,统一入口,统一体验。真正的变化,不是能力新增,而是能力被组织成系统。 时间线其实非常连贯。二零二三年末, jammy 推出。二零二四年初一点五上长上下文与 moe。 二零二四年五月 estra show 实时摄像头加语音。二零二四年末二点零, flash 原声多模态。二零二五年 live 摄像头屏幕共享,再到 vo 三、 amneson 和 flow, 把内容生产串起来。 所以你现在看到了 omni 更像谷歌终于承认,我不是做聊天机器人,我是在做通用 ai 助手系统。谷歌最强的也不是单点能力,而是把能力塞进你每天离不开的设备和服务里。 把谷歌这套能力粗暴拆成四层堆站推理层,做长文档代码复杂工具快速层,用 flash 跑便宜快的任务实时层, flash live 做语音加视觉的流逝交互端侧层 nano 在 手机本地跑低延迟数据留在设备 把四层,再加上 vivo 三和 amg, 再统一路由到同一个 gemini 入口。手机、浏览器、电视、车机,甚至未来的眼镜。你会突然意识到,这不是某个模型更强,而是一个系统随时随地在你身边。 更扎心的是你不用等 i o, 它能做的事其实早就能做了,只是分散在不同名字里。手机实物 live、 摄像头与眼镜原型、 vivo 三电影感、视频 flow、 内容流水线都已经出现过。 真正让人背脊发凉的,不是它会不会再多一个功能,而是当谷歌把这些能力装进一个盒子,普通人会第一次感到, ai 不是 工具,是环境。 对开发者来说,信号也很工程化。 live api 支持七十种语言,允许用户打断,支持函数调用,能接搜索,还有客户端安全用的短期 token。 这些细节不像舞台花活,更像冲着大规模上线去的。 那模型本身到底行不行,看公开基准,百分之四十四点四 h l e 无工具百分之七十七点一 a r c a k i 二,百分之九十四点三 g p q a diamond 百分之八十点六 s w e bench verified 百分之六十八点五 terminal bench 百分之八十点五 m m m u pro 二千八百八十七楼 labco bench 这已经是前沿圈子, 但比赛不止拼分数, gbt 四 o 的 端到端语音体验仍强,还公开过延迟,最低二百三十二毫秒,平均三百二十毫秒,谷歌没给同级实时延迟。 antropica 在 高端代码与企业推理能打 metahot 走开放权重多模态路线, 更准确的结论是,谷歌未必宣布自己赢了,但他把能力加入口加分发面凑齐了。真正让对手难受的是 android、 chrome tv、 车机、 workspace。 这些默认入口一旦统一成一个助手层,竞争维度就变了。 风险也必须说,幻觉率没有官方统一数字。我们已知的是 simple key verified 里 jama 二点五, pro 拿到五十五点六, f 一, gpt 五是五十二点三, gpt 四 o 是 三十九点九,这说明短事实,问答更准,但不等于实时视频,助手不会看错。 更现实的是隐私与安全,全能助手能看你所看,听你所听,跨绘画记忆在应用里替你操作,还能生成以假乱真的媒体。若进入常开摄像头加麦克风的眼镜形态,隐私就不只是你一个人的问题。 数据保留也不是一句话能概括。 workspace gemini 据说不用于训练且不人工审查。 cloud 有 零保留选项,但消费及 gemini 策略不同,部分数据可能保留长达三年。同一个 gemini, 不 同入口规则完全不同。 回到竞争格局, openai 有 每周九亿活跃用户的 chat gpt, 但谷歌不需要你装新应用,它已经在安卓、 chrome、 google tv、 车机、 workspace 里。如果谷歌拿下默认助手, ai 就 从你打开的应用变成你生活的基础设施, 结尾留给你。你更想要这种随时随地的全能助手,还是更怕它太懂你?当 ai 从工具变成环境,选择权,默认设置和退出机制可能比下一次模型发布更重要。


谷歌最想看的模型街马四他来了,那他到底能用来做什么呢?他能看图,写代码,听音频,最重要的是完全免费。这条视频带你从认识到安装再到上手。车料我已经打包好了,那我们发车吧, 我们先认识一下杰玛四是什么。你可以理解成谷歌免费的把自家的核心配方和后厨工具一起打包给你,你可以自己开火,自己调味,甚至自己开店。那我们想要知道的工具就是自己的 ai 应用。首先我们要先部署, 打开浏览器,搜索欧娜玛,点击右上角的 download, 选择系统并确认。下载好后点击安装。 打开我们的欧娜玛,点击这里,选择刚下好的模型,然后开始跟他对话,这里我给了他一道题目,测他的逻辑能力。可以看到这种比较绕人的问题他两次都能抓住,交易的本质还是很不错的。再给他一张图片,让他描述一下细节,这里他把人物姿态、环境、背景、光线氛围都形容的非常细致, 甚至还把我这张图里面的小人印也识别出来了。安装好之后,我们可以进入小龙虾或者其他可以进入本地的模型,实现真正的偷啃自由。我是晨晨,关注我,带你了解更多 i a 知识!

很多人都忽略了谷歌放的这个大福利了,只关注谷歌的新视频模型奥尼尔了,虽然实测拉完了,但是当你打开 flow 后,你会发现,现在的香蕉模型,不管是香蕉二还是 pro, 目前身图都是完全免费的,不管是给漫剧做个分镜还是设计点其他的,一分钱都不用花了。谷歌这波真是太给力了,赶紧去用起来吧!

谷歌刚刚在 i o 大 会上直接扔下了一颗核弹,我们来看一组足以让整个行业窒息的恐怖数据。两年前,谷歌所有服务每个月的掏根处理量是九点七万亿,去年这个数字是四百八十万亿, 而现在,这个数字突破了三千两百万亿,两年暴涨了三百多倍。与此同时, jimmy 独立 app 的 月活在短短一年内翻倍直接冲到了九个亿,这标志着 ai 再也不是什么小众产品, 大厂的主流话收割正在我们眼前发生。紧接着,谷歌发布了全新的 jimmy 的 三点五系列,最让人震惊的是打头阵的 jimmy 的 三点五 plus, 他 直接撕掉了低配廉价的标签,直接在同行面前掀桌子 来看硬核跑分。在编码精准测试中,他直接把自家的三点一 pro 掀翻在地上。在多项推理和代码测试中, 他已经开始贴身肉搏,甚至反超了 openai 尚未发布的 gpt 五点五以及 cologne 四点七 ops 最绝的是什么?它的速度是那些顶级 ai 的 四倍,它的输出速度接近每秒两百八十个逃分,而对手只有六七十个,用着行业第一梯队的智商, 却享受着轻量模型才有的极速披。宅哥在现场算了一笔账,如果一家顶级企业每天出力一万亿淘粉,只要把百分之八十的工作迁移到三点五 plus 上,每年能直接省下超过十亿美元,这直接把 ai 的 性价比卷到了极致。 但真正的重头戏是谷歌首次批落的全新产品线 jimmy, 谷歌称它为真正的世界模型。 哈萨比斯更是直言,这是人类迈向通用人工智能的关键一步,它跟以前的 ai 视频完全不是一个维度,以前的工具只是在视觉上缝合像素,而 jimmy 欧米尼在底层把文本、音频、图像、视频四种模态同时进行原声训练的。 也就是说,它不仅懂画面,它连物理学和声音规律都懂,弹珠下落符合地心引力,树叶扫过树形,声音和震动完美同步。 甚至他的视频编码能力极其野蛮,你可以直接传一段你拍的视频,通过聊天让他往背景里加一座活火山,甚至精准修改里面某个人的衣服颜色,画面和角色绝对不会闪烁和穿帮。有同学要问了,如果别人拿 ai 骗我怎么办?这不用担心, 谷歌这次联手了 openai、 伊莱文 lab 和英伟达,将谷歌的隐形水印,也就是一种 id 推成了全行业的通用标准。也就是说,未来所有的 ai 视频和音频都有据可查。 目前 jimmy 的 omni 已经开始向付费会员陆续推送,而且本周晚些时候还会直接免费内置到 youtube 的 短视频里。整个 ai 行业已经从陪你聊天彻底转向了二十四小时在后台帮你干活、帮你拍大片的智能体时代, 留给传统剪辑师和特效师的时间真的是越来越少了。你觉得这次谷歌能靠三点五 plus 和 omni 成功先翻 openai 吗?欢迎在评论区聊聊你的看法。关注我,我是喜子,我们下期再见!