有好多人在喷美国豆包啊,也就是珍妮奶昨天发布的那个欧米尼的模型又拉垮了。实际上我觉得你可能是,呃,没研究好啊,它还是很强的,给大家看一下它的用途,我觉得是大家用错了啊,这原视频,然后我上传了我的产品图啊,我的产品图, 我上传了我的产品图,然后呃,换了一个模特,你看一下,直接一一句话跟他说,换一个产品,换一个模特,他就可以直接生生出来了,看见没?一件复刻爆款视频呀,这不就是 能理解吗?这还不强吗?这这已经不是那个即墨的那种动作变更的,能理解吗?那个动作变更他可能是用那个 ctrl u i 去做那个那个什么做出来的效果啊,这个就是他这个世界模型,我直接把原视频里的产品和人物一键就替换了呀,那我以后去复刻爆款视频的时候, 就不需要像传统的大家去用那个什么呃,先上传爆款视频,然后给真皮奶或者豆包去用多肽的模型去分析他的脚本啊,然后你去从零开始生成,现在我直接把人家的爆款视频上传给他, 加一个自己的产品或者模特啊,他不就直接出来成品了吗?这才是就是史诗级的这个更新啊。
粉丝3854获赞1.3万

兄弟们,沉寂已久的谷歌终于来炸街了,就在刚刚结束的谷歌 i o 大 会上,发布了天花乱坠的各种 ai 产品,但真正重点就两个,一个是独一档的多模态能力和超强的 ag 能力。 先来看个最狠的,谷歌发布了全新的世界模型 jimmy nike omni。 你 可以将任何形态的文件作为输入,比如文字、视频、图片、音频一起发给他。 jimmy nike omni 能以任何你要求的形式输出给你, 从此 p 视频就像 p 图一样简单。但如果说 omni 是 无敌的感官,那么同时发布的 jimmy nike 三点五 flash 就是 专为代码和 ag 的 优化的, 它的输出速度达到了同类前沿模型的四倍,每秒狂飙一千五百个 token。 谷歌在现场用全新的 ai 开发平台 anti gravity 二点零展示了它有多逆天。 杰米奈三点五 flash 仅仅持续工作了十二个小时,就从零首写出了一个完整的操作系统内核。它在开发时,后台自动派生出了九十三个 ai 子代理,总 token 成本低于一千美元。而同类型的任务如果交给人类团队,至少需要数月的时间。 更硬核的是这个首出的操作系统,既然能直接加载毁灭战士 doom, 现场就玩起来了。 随后谷歌顺势推出了 gemini spark, 你 可以理解,它是谷歌为你远程部署了一台七乘二十四小时,搭载了 gemini 全套能力的服务器。它能跨越应用,直接打通各种第三方软件。你只要给他一个目标,他自己就能拆解,步骤全自动帮你搞定。 比如自动检查信用卡账单里的隐藏订阅费,把货一记录整理成文档,然后群发等等。最后还有压轴亮相的谷歌智能眼镜,戴上它, jimmy 奶就变成了你现实世界里的专属管家。路过咖啡店,眼镜自动识别,你只要动动嘴, ai 就 把咖啡给你点, 还能实时 ai 导航和同城传译。从这次 ai 大 会上看得出,谷歌正在疯狂地将 ai 模型的能力产品化,毕竟用户真正需要的是能解决问题的产品,而不是 ai 模型本身。第二呢,谷歌之前明显在多模态发力过猛,在 ag 能力方面有点落后于 antropics 和 open ai, 现在眼看 ag 大 爆发,所以他就奋起直追。但即便是刚刚发布的 gmi 三点五 flash, 也依然和这两个头部公司的模型有差距。那么 gmi 三点五 pro 会不会惊艳全场呢?大家可以期待一下。好了,我是阿朱,关注我,让我们一起在 ai 潮头冲浪!

笔画完全跟随动作,写出来的公式也完全正确。谷歌全新 ai 视频引擎金布莱奥米首爆视频版香蕉来了!谷歌这次是瞄准了 siri 下架窗口搬上来的新品。 那么面对一代视频强者,七代是二点零,又有怎样的表现呢?两分钟带你了解这个即将上线的全新 ai。 首先,奥米到底是什么模型?在哪用? 目前它正处于大规模推送或内测阶段。如果你是 g m 两高级定员用户,可能会看到推荐使用选项,这是别向大众发布,应该在五月的谷歌 i o 大 会后就能看到了。为什么要叫它视频版香蕉?因为它继承了当年 nano banana 那 种即插即用,极度精准理解人话的特质。以前出片结果还是抽盲盒,全看概率。 在奥尼,标志着 ai 视频进入了逻辑生产时代,他不再是单纯的在模拟像素,而是在模拟这个世界的运行逻辑。大家最近可能在网上刷到了谷歌爆出的几个演示视频,教授在黑板上写公式和吃意面喝奶油汤。这一段视频展示了奥尼最核心的两个能力,极致的致富精准度和动作逻辑。跟随兄弟们,你们细品 视频里那个老教授在黑板上飞速书写粉笔碎屑、手部关节的自然扭动,甚至写字时的力度感都极其真实。但最让我感到头皮发麻的是,那个公式本身,它是完全正确的。 这种逻辑一致性目前在整个 ai 视频圈是非常领先的。它证明了奥秘不只是在画画,他真的看懂了这段公式。所以,如果你问我,他能带来什么表现?他能让 ai 教学课件复杂的科技演示,精准的产品说明视频从不可能变成一键生成, 但是它并非完美。当设计那种超大幅度极高爆发力的物理动作时,它的表现力确实没有另外两家对手那么激进。 或许你想知道它和苏拉二现在是二点零上比到底谁更强?首先是 opalion 的 苏拉二,它的强项在于它的物理引擎画面冲击力依然是很强悍的,但现在关闭了使用,无论是网页应用还是 a p i 都没法调用了。 然后字节的吸氮是二点零。他最强的地方在于他的饮用系统和角色一致性。你给他一张照片,他能保证在深层的视频里人脸几乎不崩,这对于短视频博主和短剧团队来说是非常棒的。在动作的表现上来说,我们也有目共睹,虽然还没有正式发布调用价格,但目前测试段效果非常恐怖。 正式价格让我们拭目以待吧。以前我们或许觉得 ai 视频就是图个娱乐,但 jamie 阿莫里告诉我们, ai 已经可以处理极其严肃的内容了。虽然他在动作爆发力上还有提升空间,但这种极致的准确性,这是目前专业创作者最缺的东西。那么问题来了,面对这个不仅会拍片,还会算微积分的视频相交,你会用它来做什么呢?

谷歌的欧米尼视频生成模型上线了,我们可以在这个 flow 平台上进行体验,同时 flow 平台也上线了很多的视频和图片编辑小工具, 那么本期视频我就给大家测试体验一下欧米尼模型还有这些小工具。首先我进行测试的时候,模型只开放了 fresh 模型, 目前最高能生成七二零 p 十秒的视频,每个视频消耗三十个点数, umi pro 会员一共有一千个 ai 点数,而且我在使用的时候,它的首帧参考功能还没有上线,所以我就简单测试了几个纹身视频的例子, i will send you back to the dark abyss。 好,提示词所要求的东西都有,但是动作,电影质感还有音效都差很多,可以看一下 c 带是二点零的, 而且在 flow 这个平台,我们可以在下面这里输入提示词,直接对视频进行二次编辑。比如我直接输入一条金枪鱼跳上船,我们来看一下效果, i will send you back to the dark abyss。 他 这添加的内容太生硬了,几乎是不可用的。当然有可能他是 fresh 模型的原因。我们再多看几个例子, 这条视频的话,飞机驾驶是还不错,女主的紧张感和节奏也还行,但最后飞机仪表盘反向了,而且多了一个人。下一个我们试一下著名 ip 加想象力 why won't this stupid code work? 暂停一下,这里电脑里表现的内容太棒了,连代码的说尽都像那么回事。 i refuse to do this? 直接切镜头换风格 anymore why won't 他 这条真人路飞生成的其实挺棒的,这是就中间莫名其妙多出来一个动漫风格的镜头,下一个是变形金刚的镜头, 这个表现就太差了,别说跟 c 站十二点零比了,连快乐马都比不过。 下面是一个著名 ip 加动漫风格, anya will defeat all the villains, 这个表现其实还算可以了,介于 first 和 cds 二点零完全体之间, 下一个是香港电影。如果记忆是一个管头,我希望他永远不回国。起 这个案例就表现的很差了,无论是中文音还是镜头都不符合要求。如果记忆是一个罐头,我希望它永远不会过期。来一个九比十六的变身镜头, 那就再来一次, 感觉能比快乐马好上一些,但是这种动作和特效还是 c 大 师您的拿手好, 再试一下科幻镜头, 这个表现太拉胯了,完全没有电影质感,比快乐马都差远。 总结一下就是 omni, 它的表现肯定是不如 cds 二点零的,但它毕竟还是 flash 模型,不知道它有没有正式版,如果有正式版还是未来可期的。它还有一个优点就是足够的便宜,性价比还是很高的,目前生产速度也快,而且目前还 现那些著名的 ip。 今天除了欧莫尼这个更新之外, pro 这个平台还上线了巨多的图像编辑和视频编辑小工具, 我也帮大家测试了一下,总结一下就是很鸡肋,就是看起来很厉害,实际上就是一些常见的开源项目整合而成的图像和视频编辑工具, 比如说编辑文字动画的呀,还有说像什么手绘转图片,从各个仕图和角度去查看原始的图片,这个就是千问的技术吧,我记得还有什么视频跟随音乐动起来,这样的就适合整活。 还有一个是上传三 d 模型,然后再转化为二 d 平面图片, 它的视频小工具还有一个印象比较深刻的是一个抽帧加抠图加重叠的技术, 其他的图像小工具的话,要不然就见太多了,要不然就完全没什么意义。总结一下的话就是 omni 未来可期,图像工具的话作用不大。 那么以上就是 jimmy 在 本次 flow 上的更新的测试结果了,我个人是比较失望的。好,如果本期视频对你有帮助的话,麻烦帮我点个赞。

dance 二点零这次终于有对手了!谷歌刚刚发布的视频模型 omni 到底行不行,我们一试便知。先来看 omni 强在哪里?首先是视频编辑能力, omni 能够在改变画面元素的同时,保持角色和场景的一致性,比如把现实中的雕塑变成泡泡,一触即破, 把自拍里的镜子变成液态,让人碰到就变成终结者。或者是把小提琴手从音乐厅挪到草地上,再变换一个拍摄角度,不过他好像忘记把琴带出门了,真是尴尬。其次是物理引擎更加精准,那说人话就是重力、速度和碰撞之类的效果更加真实。 另外,奥尼也拥有了全能参考的能力,除了能够参考图像、视频和音频合成最终效果之外呢,还能给视频加上指定的特效包装。正为我的动销同事捏一把汗, 那接下来我们看看同框对比 omni 和 c dance 二点零谁的效果更好呢?实测下来, omni 的 物理效果确实更加优秀啊,画面风格也更加丰富多变,但中文能力就远远不如国产模型 c dance 了,这些有机材料就能自醒发光,而且 c dance 的 人物位置更加稳定,画面更有影视风格。 目前这面的 omni flash 模型已经正式上线,不过每天只能生成三条视频,你觉得 omni 能够和 c dance 一 战吗?来评论区咱们接着聊。

炸裂就在刚刚,谷歌发布了 gmm 模型,它是全球首个真正原生全模态生成模型,文字、图片、音频、视频任意输入,任意输出。你拍了一段自拍视频,用一句话就能换掉背景, 改变风格,同步音效,一张草图秒变完整影片。更可怕的是,它内置了 jimmy 的 推理引擎,真正理解你的创作意图,物理规律、历史背景、文化语境, 全部融合在每一帧画面里,而不是生硬的堆积像素,这是迈向世界模型的关键一步。好了,关注我,每天都有 ai 新体验!

兄弟们,今天谷歌 gemini 生成视频发布了,给大家做个测试,看看效果怎么样。我做的三个主题分别是机械战士打斗仙侠人物打斗迪士尼皮克斯三 d 动画。想通过这三个场景来看 gemini 模型视频能力。接下来我们来看看这两个模型最终的表现,大家各自打分吧。 有请三位选手依次登场。 i don't want to go to school, but it's time to get up sleepyhead fine, i'm going! 各位看官,你觉得哪个好?

谷歌终于摊牌了,它的终极愿景就是实现 agi。 而实现 agi 最重要的里程碑就是做出世界模型。就在刚刚,他们发布了最新的 gemini omni, 这个号称懂物理世界,用任何东西创作任何东西的新模型。一段画面可以继续改镜头、改角色、改环境, 雕塑能变成泡泡,镜面能像液体一样,公寓楼的灯光还能跟着音乐节奏依次亮起。这意味着 ai 视频开始从出一条结果进入,沿着创作者的想法不断向前推,你给他素材,也给他方向,他帮你把脑子里的动态画面逐步做出来。更重要的是,谷歌正在补视频最难的一块对物理世界的理解。弹珠推动连锁反应、 黏土定格、动画解释蛋白质折叠。他追求的不只是好看,还要让动作更可信,表达更清楚。再看 google pics, ai 图片终于开始像设计稿一样能被精修了。 你可以删掉合照中的路人,换个更好的构图,甚至直接修改图片里的文字和语言,同时尽量保留原本的设计风格。获取深图最难受的地方往往就是大体对了,细节改不动。 pix 解决的正是这个卡点,它让图片生成从灵感草图往可交付内容更近了一步。 sd 处理的是界面和产品设计,你只要用自然语言描述想法,它就能在一张自由画布上不断铺开页面组建和交互方案。你可以边看边改,随时补一击需求,让设计继续生长,重排收束。它把原本很重的界面搭建,变成了一种更接近说出来就开始成型的创作过程。最后是 flow, 它更像一位随时待命的智能片场搭档,项目推进后,还能一次做出多个版本,批量改素材、整理资源,帮你管理创作。更有意思的是 web coding 创意工具, 你可以直接用自然语言在 flow 里搭建自己的创意工具,图片编辑器、视频比例转换器、文字叠加工具、特效工具,都能按你的工作流去做。把这些放在一起看,谷歌这次讲的已经不是一个个孤立的功能。阿莫尼负责把任何素材变成视频, pix 负责改造图片细节, stitch 负责把设计流程实时化, follow 负责把创意编辑、写作和工具搭建串起来,这才是 create anything from anything 的 真正分量。谷歌想做的是把创作门槛一层层压低,你会更容易把想法变成作品,也能把能力放的更大。

大家五二零快乐哎,就在今天凌晨呢, google 的 二零二六年年度开发者大会如期而至,这次的发布会呢,包含了很多的产品,那其中呢,在视频的生成领域也是大家比较期待的, gemini 也是正式上线了, 那这期视频呢,来带大家客观的感受一下这个视频模型的特点,以及他未来的潜力如何。 ok, 那 我们先上官方的样片, 那我们继续来看啊,官网对于这个模型的一些介绍,它是一款能够根据任何输入 啊创建任何内容的一个全新意义上的多肽模型。那这个特殊的点在哪里呢?因为去年纳诺布达纳它是属于将这未来的智能技术去应用到图像生成和图像编辑领域了。 那 google 一 开始呢,其实他们就将这未来作为构建原生多肽的这个底层的架构,所以今天推出的这未来的推理能力和创造能力应用在了全领域上, 我们可以将图像、音频、视频组合作为输入来生成基于这未来真实世界知识的高质量视频。 那目前呢,推出的首款产品是这未来 omni flash, 在 未来的话,他们也将支持图像和音频等格式的输出。所以在开这个发布会之前,很多人猜测 呃他会发布的是 v e o 的 新版本。那这次的 omega 模型呢?它并不是呃 v e o 模型简单的换壳,而是底层的架构都已经完全更新掉了,我们可以理解为 v e o, 它本质上就是一个呃视频的生成模型。 但是 omni 呢?呃这个单词在拉丁语的意思是全部的意思,也被 google 定义为世界模型,这个模型它直接生长在这面代的主架构上,所以它继承了这面代这种极强的逻辑推理能力和现实的常识。那甚至我们可以更大胆的去 理解,去想象一下, omni 呢,是一个全模态的这样一个模型,那刚刚也提到了它未来也会支持图像的输出,那它跟 banana 之间的差别又在哪里呢?那其实可以理解为 banana 是 单纯的图像模型, v o 是 单纯的视频模型, 但 omni 它可以基于任何模态的输入,做到任何模态的输出。虽然我们当前接触到的这是第一个版本,观感上给人的感觉并没有那么惊艳,但是在目前这个架构继续生长的话, 那未来它将跟 banana 和 vivo 完全都不是在同一个维度上的东西,所以这个是我从这次发布会里面理解到的。呃,我觉得一个它比较值得期待的点。 ok, 那 接下来我们就来看一下啊官网上对于这个模型的一些能力的介绍。那首先呢,就是可以通过对话来编辑我们的视频,通过我们的自然语言就可以完成我们对视频的编辑,改变视频里面发生的事情,包括编辑动作,添加角色或者物体,这都是可以做到的。 类似像这种,一个人在拉小提琴,然后通过我们的自然语言去可以把它的背景更换掉,然后可以把它的小提琴消失掉, 当然也可以改变它的角度。那视频的编辑这件事情上,呃,我们之前出现过的其他模型也都是可以做到的,并没有让人觉得很惊艳,那这位呢? omni 呢?在现实世界的逼真场景的构建上做的还是不错的,比如说这个视频 一颗弹珠在连锁的这种反应式轨道上滚动,对吧?包括这个玻璃球跟其他各种东西触碰时的这一些物理的反应,给人的感觉还是非常真实的, 它能创造出来比较精准的这种物理的引擎的视觉效果。那同时它也可以将这面的知识,包括语言、图像 和一些你文字里面没有提到的东西,他会进行思考,然后生成在视频里面。比如说就像这个桌面上会有二十六个字母的物品,他只给了这三个,其他的都是他基于这杯奶能查找到的知识去自己生成的。 同时他也可以呃,基于一个比较简单的这种解释词,去生成一个能够分解复杂概念的这样的一个视觉图像。那比如说是用黏土动画去解释蛋白质的折叠过程。 在后面呢,是一些啊,类似于我们之前 cds 二点零里面 可以利用多模态的一个输入,比如说这个它是基于这张图一去做啊,动态科幻电影风格的视频。视频的元素呢,会像第二个视频一样,这个灯光去亮起,然后再跟第三个音频当中的这种音乐节拍去同步,包括这个也是。 那这个视频呢,是将图一变成图二的风格,然后应用第三个音乐作为背景音乐来生成视频, 当然也可以做这种呃角色的替换。 这个应用呢,是让图一的这个画面里面的主体不变,但是把图二的这种特效加到图一的视频里面, 也可以把一个视频里面的主体去更换他的材质,更换他的背景,同时去操作。 那我这边呢也测试了几个案例,我给大家放一下。那首先第一个是我让他基于这个分镜去跑了一个建筑的漫游动画, 他目前生成视频的时长只能是十秒钟,然后有横竖两个比例,九比十六的和六比十九的,然后分辨率是七二零 p 的, 目前没有其他的规格可以选择。那这个呢,是我让他用黏土动画去解释现代建筑的建造过程, 首先用黏土挖出深坑,接着我们要绑扎钢筋并浇注混凝土,随后柱子和楼板会筑成搭接起来,最后安上好墙体和玻璃。 那也可能是因为十秒钟的时间太短了,他并不能把这件事情说的很清楚,但整个画面的感觉是没有什么问题的。然后还有一个,这个生成了一个美漫, 这个是我没给他任何提示词的,这个是他官方模板,他就自动给我做了一个这个东西。那这个呢?是我基于官网那个案例,就是他不是有二十六个字母生成二十六个物品吗?我 让它是用十二个星座,然后对应十二个不同的这个狗狗的品种,然后去做了这样一个实验,我觉得这个效果还可以, 那目前总的来看呢?呃,效果确实没有让人很惊艳,大家可能对于它的期望值太高了,大家都在希望它呢可以给 c 弹三点零制造一些压力。 那我倒是觉得呢,我们可以从其他的视角呃来客观的看一下这件事,从他的多模态的输入到输出, 或者说基于这面代的这个架构呢?他未来的一个发展还是很有前景的。那正如谷歌他们自己也意识到这件事情,呃,这条路其实是比较艰难的,但是他们也正在目前的这个架构上 啊,去获得了一些回报了啊。那目前大家可以去这边的网页端啊,包括桌面的应用去体验一下这个模型, 后续的话他也会开放 pro 的 版本,这个我们可以一起来期待一下未来的一个版本吧。 ok, 那 今天的视频就跟大家分享这些内容,记得给我点赞,我们下次再见,拜拜。

家人们,谷歌这次真杀疯了,专门拿姚明,这是要直接掀了视频生存领域的天花板啊!以前做视频跟搭乐高似的,得一块一块慢慢拼,现在他直接给了你一座会思考的乐高魔法工厂。你就跟他正常聊天,他就能懂物理、历史、生物、 文化这些现实世界的东西,然后直接生成或者编辑任何视频有五个最炸裂的功能,你现在就能用一懂真实物理,玻璃弹珠碰撞、旋转、反弹,完全符合现实。二、人脸永不崩坏定义一次 角色就能把它放到任何场景,做任何动作。三、像编辑拆解 g p t 一 样编辑视频,一句话,换背景换人物加特效。 四、上传图片,应用任何风格做成黏土动画,模拟蛋白质折叠,只要你能想到。五、视频不再是死文件,聊天就能改角度、光线、物体,甚至故事情节。这是世界模型第一次真正进入消费级产品,它不是在真诚像素,它是在模拟一个连贯的、有物理逻辑和语义的世界。现在就打开 jimmy 应用试试奥秘 flash, 快 去试试,你会回来,谢我的!

google 开始挑战 sedance 了!在今年 google i o 二零二六上, google 正式发布了 gemini omni, 官方的核心方向非常直接, any input to any output, 也就是任何输入生成任何输出。这里是 co 科技日记,带你看懂 ai。 根据报道, gemini omni 可以 基于自拍视频图片,已有视频素材继续生成新的风格化内容,甚至还能把真人素材重新编辑成不同风格的视频。 它已经不只是生成视频,而是在网理解视频加编辑视频加重做视频。比如你拍一段普通自拍视频以后,可能直接一句话帮我改成电影感,改成赛博朋克风,重新剪成短视频节奏,帮我生成另一个场景版本,然后 ai 自己完成。 而且 google 这次还推出了 omni flash, 它现在已经开始向部分订阅用户开放,并接近 gemini app flow 和 youtube shorts。 这其实很关键,因为以前很多 ai 视频工具更像独立软件,但 google 现在想做的是直接把 ai 视频生成塞进自己的生态搜索 youtube、 android gemini shorts 以后可能全都能直接调用 amni。 而这背后,其实也是 ai 视频行业正在发生的一个变化。以前大家比的是谁的视频更长,谁的画面更真实,但现在开始变成谁更懂真实世界里的视频素材。这也是为什么最近越来越多人开始讨论 citizen's、 happy horse val、 gemini amni 这些新一代视频模型。 当然,现在 gemini omni 也还远没到完全替代真人剪辑、复杂剧情、长视频人物一致性,目前依然是行业难点。但有一点已经很明显, ai 视频生成正在从做一个视频变成理解现实素材,然后重新创作。而 google 现在真正想做的也不只是一个视频模型,它想做的是一个能理解文字、图片、 声音、视频和现实世界的多模态 ai。 所以 这次 gemini 真正值得关注的不是 google 又发了一个 ai 视频工具,而是 google 开始认真下场争下一代 ai 视频入口。最后问你一句,你觉得未来 ai 视频最先冲击到的会是短视频剪辑、广告宣传,还是影视后期评论区?说说你的看法。

今天呢, omni 刚发布,直接放话要做全球最强 ai 视频生存模型,摆明了要抢 cds 的 位置。哎,那以后是不是做视频终于可以换个便宜好用的了?先别急着换,我烧了一整天的额度,实测完评论就一句话, omni 还真不一定打得过啊,谷歌又翻车了。嗯,这么说吧,现在升 ai 视频贵的离谱,大家都盼着来个便宜好用的提神。 我测了两个 ai 视频最有痛点的场景,发现它的优势点都很明显。哪两个场景?第一个,欧米尼画面里出现的文字确实是清晰易懂,有逻辑,不会再有那种乱码鬼画符。那这里就对了,我之前生成视频的时候出现文字的地方头疼的要死,但是还是有点小瑕疵,仔细看,粉笔还没有动字就出来了,他在一转头之后呢,钢笔的框就又没了啊,这 算了,一点小瑕疵,可以用的可以用。还有呢,还有呢,他有两个最大的优点,第一个就是不卡真人脸,二视频支持在线编辑,哪里不对,直接改,不像之前生存的视频,如果有瑕疵的话,你只能选择重生了,省了很大一笔费用。不卡脸确实救命, 过了连审核都卡死多少人了。还有呢,还有呢,重点来了, ai 视频最考验的东西就是打斗戏。做过 ai 视频的都知道,打斗戏是最能看出模型好坏的,那奥比尼的打斗怎么样? 千万不能打架,一打架画面就崩,动作一复杂,甚至还会出现穿模现象啊,这可不行,那剧本里有点打斗戏,那不全废了?但欧米尼还有几个很活能上传你的自拍视频,脑洞魔改,更觉得是内置的 agent, 丢个想法进去,他就能直接帮你完成分镜和脚本。 这功能有点香。香是香,但你生成的视频人物真实感,画面质感还是差了点味道。还有个音,中文配音还是很奇怪,听着像外国人在讲中文。做口播视频的直接劝退啊。这配音都这样的话,那我还是用 cds 吧。 欧米尼真的用不了分场景做电商营销,做科普教学的。那欧米尼画面干净有清晰文字,还支持在线编辑物品和环境的展示,欧米尼还是非常好用的。但做短频,做剧情,做人物互动, c d 三二零还是首选,欧米尼目前还是做不了。那你这额度烧的值不值?心疼,但还是帮你们踩坑了。如果是你的话,你选哪个?

谷歌 gemini 奥秘翻车,实测拉垮,不如国产 cds 二点零?今天凌晨相信大家都在蹲 google 二零二六发布会,尤其是 gemini 奥秘 flash 那 个号称世界模型的全新视频模型, 纸面上看确实炸裂,原声多模态输入图片加音频加视频,混着位都能用,还能聊天式动态编辑视频。官方宣称在重力动能、流体力学等物理理解上大幅提升,但目前实测已经陆续出来了,结论很统一,期待越高,失望越大。 最大槽点, james 艾奥米 flash 生成的视频质量真的很一般,画面细节和流畅度完全对不起谷歌憋了这么久的大招,对比下来的结论非常尴尬。 同为多模态,参考国产的字节, cds 二点零明显吊打他,目前已经有好几个注做了详细实测对比,差距真的肉眼可见,这门莱昂米 flash 目前绝对达不到 cds 二点零的那种工业交付水准。

朋友们,昨天的谷歌 i o 大 会你们看了吗?我早上起来刷他的新闻,好像没什么波澜啊,但是有另一个新闻,然后我一下就清醒了, codex 的 额度又重置了警感信,而且 sam 奥特曼的推写的特别漫不经心, 让我隐约觉得谷歌这场大会肯定是有点料的。所以我用了一早上,仔仔细细看完了,也分析了,果然让我发现了三条重要的线索。当然,我还是建议大家完整的看一下这场发布会,我觉得料特别多,然后再结合我给的三条线索,看看你们有没有收获。 这场大会简而言之,没有什么创新,但是非常的务实,他发了很多东西, google omni, 一个可以从任意输入到任意输出的世界模型 gimna, 三点五 flash, 质量超越了三点一 pro, 当然价格也差不多,速度飞快。还有一个全面向 codex 的 ui 靠拢的 anti gravity, 二点零, 一个和 ospec 命名完全一致的 managed agents api, 一个叫做 german spark 的 谷歌版小龙虾,还有七十二小时在后台帮你搜索的 google search agent。 最后还有一个不知道多少场都已经发布过的仅有语音版的智能眼镜。因为都是产品发布会啊,所以就信息特别的零散, 但是呢,我是能看到有几个非常清晰的大方向的。我先说第一条啊, gemini omni, 这是一个号称能从任意输入产生任意输出的世界模型, 虽然看大家测试的结果啊,视频生成效果比不上 cds 二点零,但是如果从 word model 的 角度看,它可能还真的有点特殊意义。你想象这么一个画面啊,就你站在一条河边,左边有一条断掉的独木桥,地上有一根木棍, 上方呢,垂下来一根细细的藤蔓,右边还有一条破了洞的小船。这如果是真实世界,你打算要怎么去过河? 所以,不管你选择哪条路,我相信你在你的脑海里一定都会闪过每一条路径的预演画面。但是如果是未来的机器人呢?也是一样,他应该不只能看见这些东西,他必须在脑子里先模拟走断桥的时候会不会塌, 木棍能不能当支撑,藤腕能不能承重,破船漏水的速度够不够撑到对岸。如果未来我们要进入一个机器人时代,我们就必须有一个阶段,需要一个模型来生成符合物理世界规则的内容,让机器人去学习。这就叫 word model。 在一个给定的物理体系里,不是要画的像,而是要符合规则。前两天我看了一个演讲,是英伟达的金饭在红杉资本分享会上的一个演讲,他讲了一个很关键的路线,叫 real to seem to real 什么意思呢?就是先把真实世界扫描进来,变成一个可交互的仿真环境,然后在仿真里大规模生成变化的内容,训练机器人的策略,最后再把训练好的能力迁移回真实的机器人。这其实就是在复制大语言模型的成功路径啊。 大元模型是预测下一个 token, 而在机器人世界,要预测的是物理世界的下一个状态。未来真正关键的就是能不能把真实的世界变成可训练、可推力、可交互的模拟世界。 这就是为什么我觉得 omni 这条线非常重要?如果 jamming omni 真的 能做到任意输入到任意输出,并且能保证物理的一致性,那它就不是普通的视频模型了,而是迈向巨深智能训练闭环的关键基础设施。 它的价值就远不止发布会上那些整活的视频。当然,我的设想的场景还太遥远了。只是举个例子,我用 c 氮二点零是完全没法过河的, 但是我用了 gpt image 二,它就能想象出多种场景,并且推演出最符合逻辑的过河方式。虽然这不是视频,但似乎有那么点味道了。 于是我又用了一张迷宫的图交给他,他也能正确生成走出迷宫的路径。我用了很多视频模型都去尝试,答案不意外,没有任何一个能做到。 很可惜啊, api 还没开放,我无法访问 gemini omni。 但是如果它能做到,那它的价值就不可小觑了,就不应该再把它和 cds 做比较,而是把它放在更重要的位置去看。所以,这就是第一条线索,谷歌很可能向世界模型迈出了一大步。 那第二条线索呢?是我看到了交互方式正在飞速的演进。你们还记得吗?去年这个时候,大部分的人应该已经开始从科斯转到 cloud code 的 这种终端交互的形式了吧。 但是我相信现在很多人的主力应该已经切换到 codex 的 桌面版了吧?为什么呢?因为命令行输出的文字界面里,大部分其实都是我们不关心也看不懂的信息。 但桌面版它的右边就可以弹浏览器啊,也可以弹 preview 啊,可以有更丰富的表达和交互。 anti gravity 现在就是在走向这种眼镜,它把以前的 id 已经藏起来了,给了一个和 codex 基本上差不多的一个工作台。 它不再强调你去点目录,读文件,手动改代码,它强调的是 agent first。 谷歌用了一个词叫 mission control。 这句话很准确啊,未来的 agent 的 控制面不是让你盯着代码细节的,而是让你看清更多的 agent 的 状态,谁在做网站,谁在做素材,谁在规划架构,哪个任务需要批准,哪个任务可以接管,哪个 agent 跑偏要暂停,这才是桌面版 codex anti gravity 这类界面真正适合做的事儿 就是变成一个多 agent 的 状态,面板和指挥台。我们现在再来看 ai studio 的 一个 demo, 它是一个电台演示的 demo。 谷歌说了一句很关键的话,这句话的中文含义是生成式的 u x。 举个例子就是 ai 在 运行过程中生成小组件来和人类交互。 前段不是有一种讨论在说让 ai 生成 html 比生成 markdown 更好,因为人类很快就能看懂网页,而看 markdown 就 很费劲。说就是这个道理。 u i 和 u x 的 作用现在变了,它们不再是为人类的体验服务了,而是让人类更快的去确认结果。那为什么不用更加动态更丰富的表现来提高人类的效率呢?所以相信我, generative u x 由 ai 实时生成的交互在未来的几个月十分重要。我不知道是几个月啊,因为实在是发展的太快了。而后面的语音部分更加精彩了,这是谷歌的拿手好戏。谷歌的实时语音我不知道大家用过没,非常强, 演示者直接用语音,让 antigravity 去微调 gem 四音频模型,能听懂 lara 这种专业词。 agent 接着生成实现计划,写代码,跑训练。这不是语音输入法,这也不是 tts, 不是 asr, 这是语音直接指挥 agent 端到端的语音。 如果再结合发布会后面提到的 x r 眼镜,把航班、酒店、旅行信息用特殊的卡片实时显示到眼镜前,那就让这条路线更清楚了。 现在是 codex 式的控制台,还有输入框,未来会不会直接是语音输入了?会不会连电脑屏幕也不需要了?手表、眼镜、手机是不是都是可以交互可以确认结果的设备?那我现在正在做的多一阵系统正在策划做语音的部分。 我每年暑假都会带女儿去三亚冲浪,如果能在路上用语音麦克风来输入车机的屏幕来确认工作结果,让 agent 随时都在家里的服务器里干活,这是我非常向往的场景,我现在正在为他努力,而且我也相信这就是未来的 agent 的 交付方式。 所以一个核心的洞察就是,如果要做产品,绝对不能再停留于 chat 这样的交互了,我们脑洞应该开的更大一点,想的更远一点。 那第三条线索就是谷歌也搞了一个 open crawl, 而且可以多 a 着呢,和谷歌最擅长的搜索一起交互。 openclaw 当时最吸引人的就是它通过心跳或者说定时任务,可以二十四小时不间断地干活。要知道真实世界的行动是不是都是信息驱动的,比如说金融信息、地缘政治,还有突发的信息都会影响我们的决策,所以谷歌做了一件很务实的事, 他把搜索能力塞进了能七成二十四小时后台运行的 agent 里。谷歌在发布会上把它叫 search agents, 他 们不是等你搜索,而是你设好目标,他们就在后台一直盯着。 这里的重点不只是持久,他甚至还可以同时有多个 a 阵的为你服务,时刻盯着不同维度的信息源。而且他有多 a 阵的来解决信号产生时的动作。我们不再是搜索一个答案了,而是 a 阵时刻发现我们想要的答案,然后把方案做好。给我们 发布会里举了几个例子,比如说你关注某类生物科技的股票,他就会接入实时的金融数据库, 市场一动就会给你综合的更新。如果你在找房,他就会扫全网社交平台和论坛,如果你喜欢球鞋,他就会盯着运动员联名的发售动态。这个功能叫 germanspark, 更像是一个入口,而 search agent 是 一个触发器,多 agent 提供了解决方案, 所以这一整套就串起来了。那顺便提一句, gmail api 里也出现了一个 managed agents, 看我前几期视频,应该听着很耳熟吧,最早是 onslap 提出的,现在谷歌也复刻了一套, 一个 api 调用就能拉起无数个带沙箱环境的云端 agents。 这说明谷歌啊,不只是想让 agent 来陪你聊天儿,它是在补执行层面的东西。 这就是第三条线索。我认为很快云端随时待命的大量 agent 呢,都不会是稀奇的事了。而发生什么样的信号,产生什么样的行动,依然需要我们去定义。 我很感慨啊,前不久我还在思考什么样是一个好的架构,一转眼人家成熟的方案已经摆在眼前了。所以总结一下,如果只是从产品看,这些都没啥新意,不是谷歌独创的。但是如果按这三条线索看,就会发现他在顺应一些时代的方向, 世界模型的方向,交互方式的进化,云端二十四小时不停歇的多 agent, 而这些越来越强大,越来越成熟的基础设施,怎么样才能进入我们的生活,这依然是最难的问题。 谷歌的大部分服务我都无法访问,我相信你们肯定也是一样,但用不了。谷歌不是重点,重点是国产玩家有没有在做同样的事,他们能不能追上。 所以呢,下一期我想继续顺着这个线索聊,我们怎么样国产变得更好。好了,以上就是本期的全部内容了,谢谢大家。

这次谷歌 i o 大 会刚结束,全网最出圈的一句评价来自富盛,谷歌这次直接拉完了!结合整场发布会、硅谷舆论、人才动向再复盘。你会发现,这场看似重磅的发布会,一边是巨头试图稳住 ai 王座,一边是漏洞百出争议不断。而真正的行业真相是, ai 竞赛早已从模型内卷彻底转向生态组织效率的终极战争。很多人只盯着 gemini 三点五、 flash 两款新模型,却没看懂谷歌当下最尴尬的处境。 富盛直言,拉完了并不是随口吐槽,而是精准戳中核心痛点。谷歌本次仅发布 gemini 三点五 flash 视频模型, 在纯视觉效果、短视频流畅度、镜头表现上,普遍被认为连 cds 二点零都赶不上。就连谷歌内部工程师都承认,模型开发长期受版权合规束缚,数据定位模糊,分不清到底是做电影级质感还是短视频爆款,内容市场更是普遍看衰,预测 pro 版本提升空间有限, 这已经不是技术问题,而是谷歌在视频赛道上的战略失误。但有意思的是,一边是视频模型被中国团队反超,另一边谷歌却在悄悄完成一场更恐怖的变更。传统谷歌搜索正在彻底消亡, ai 操作系统正式上位。十年前搜索靠关键词,五年前靠语义理解, 现在谷歌直接把 gmi 嵌入搜索框,实现文本、图片、视频、文件、浏览器、标签页全模态输入, ai 自动推理,直接给出答案,帮你完成任务。 谷歌喊出一句最关键的话, google search is i search! ai 钙览覆盖二十五亿用户, ai 模式月活突破十亿,这不是实验室功能,是全球互联网底层入口的重构。 谷歌最大的护城河从来不是单点模型,而是海量真实世界数据加全球分发能力,这是创业公司短期内无法企及的壁垒。而争议最大的 gemini, 很多人误解成普通纹身视频工具,谷歌真正想做的是世界模型, 核心逻辑,任意输入生成,任意输出。它最大亮点不是画质,而是解决行业最大痛点,可控性支持角色替换、元素修改、镜头调整、对话式迭代,让 ai 视频从抽卡式娱乐走向工业化生产,适配广告、影视、动画、游戏全场景, 同时快速接入 gemini app, youtube shorts workspace, 巨头的生态整合能力依旧碾压对手。可谷歌的问题从来不是单点技术,而是庞大帝国式的组织病。最能印证这一点的就是轰动硅谷的卡帕西跳槽事件,前特斯拉 ai 总监 andry karpacei 宣布加入 anthropic, 一条推文热度直接碾压整场谷歌 i o 发布会。 antropic 只有三千人,谷歌有数万 ai 研发人员,可如今定义行业方向,实现技术突破的,反而是这些小而精的创业公司。 原因非常现实,谷歌多部门并行,开源,视频代码搜索团队各自为战,部门强邻立,资源分散向晚清百万大军人多却调不动。 而创业公司极致单点突破,没有历史包袱,迭代速度一蹶绝尘。放到全球格局,中美 ai 差距正在快速反转。美国巨头曾经在视频代码领域全面领先,如今已经被中国模型反超。 cds 二点零,依靠抖音 tiktok 成熟数据闭环,在短视频生成、迭代效率上遥遥领先。 谷歌受合规组织层级束缚,动作迟缓,创新受阻。 ai 原生时代比拼的不再是研发人数,而是组织敏捷度。 想要破局,谷歌必须重构整套体系,用 ai 量化员工协调能力,缩短决策链,放弃大而全路线建立数据产品闭环,否则再强的技术储备都会被低效组织消耗。市场已经用脚投票,谷歌 io 当天股价下跌百分之二点零九, 投资者对其 ai 变现速度、创新效率信心不足。整个行业清晰看到 ai 已经进入颠覆性创新阶段。创业公司负责定义技术标准, antropics、 cds 这类团队在单点赛道快速突破。而谷歌、微软这类传统巨头,要么成为高校跟随者,要么彻底重构组织 dna, 否则只会一步步掉队。回到附上那句,拉完了,其实说的一针见血, 谷歌不是没有技术,而是巨头惯性太重,合规枷锁太多,组织效率太低,在需要极致敏捷的 ai 时代,正在被小团队快速追赶甚至反超。谷歌 io 二零二六本质就是一场时代分水岭,过去大家卷模型、卷参数,未来比拼生态落地、组织能力、用户价值。 巨头有体量,创业公司有速度,美国有底层优势,中国有场景效率。 ai 战争才刚刚开始,谁能打破制谷快速迭代,把技术变成普通人的日常价值,谁才能真正笑到最后。

谷歌发布了 gemini omni, 很多人第一反应是 cdenis 二点零是不是要被取代了?首先,整体成片稳定性这一块, cdenis 二点零目前还是更稳,画面连贯,动态效果一致性。日常做短视频,它依然是更省心的选择。但 omni 并不是全面碾压,它藏在两条很具体的线, 一条是视频编辑,一条是物理模拟。先说视频编辑,你可以上传自拍或者任意素材,然后用自然语言多轮改改风格加元素换材质。官方演示里手摸镜子那段很典型,人物动作基本保留镜子和手臂材质,按指令替换,而且每一轮指令会接着上一轮结果继续生成。人物和环境上下文尽量保持一致,这更像可控剪辑,不是整段童话。再说物理模拟, 这是奥秘技术含量更高的部分。比如弹珠在轨道上滚动,字母表对应奇怪物体,还要卡节奏、字幕量式、帧数和收尾。它要把语言、图像和意义一起对齐,不只是看起来像。从能力结构看,奥秘是把文字、图像、视频、音频放进同一个生成框架,背后整合了图像、视频和世界模型。 所以它能做教学动画,也能做交互式仿真。输入可以很复杂,输出也可以很复杂,但理性一点看,也有几个限实现制。第一,它不是所有场景都赢,网友实测里, cintens 整体更稳, omni 在 特定镜头更强。第二,算力和配额不便宜, pro 用户每天有生成次数限制。第三,谷歌给生成视频加了三 c d 水印, 真实人脸,还有额外规则,说明他也在防滥用。所以怎么选?如果你要稳定出片,批量做内容,优先看 c 跟 c 二点零。如果你要改已有素材,多轮精修,还要物理逻辑更靠谱, omni 更值得试。最后一句结论,这不是谁彻底取代谁,而是 ai 视频进入分工阶段,一个偏稳定量产,一个偏可控编辑和物理理解,创作者按任务选择合适的工具。

谷歌今日凌晨发布了 gemini, 在 底层逻辑上简直就是一次史诗级的进化,瞬间引发了轰动,我们一起来看看实际的测试效果吧。哈喽,各位小伙伴们大家好,今天给大家演示一下最新的视频模型 omni flash 的 使用方法。 好,这个的话呢,它支持使用十秒啊,然后三十个积分这种方式操作好,那么怎么来操作呢?假如说我们要做这样的一个漫剧效果 好,那么首先第一个我们可以使用分镜啊,这个是我之前做的分镜。好,那么我直接把这个分镜的话呢,放到我的这个提示词里边啊,那么我可以直接到这里艾特一下就可以了。好,我艾特一下分镜,点击确认。好,然后的话呢,我可以直接说 啊,使用啊,根据分镜,或者我把它删掉啊,根据分镜生成动画。 好,然后我艾特一下这个分镜,这个分镜好,可以了。好,然后人物参考,使用这一个人物。好,然后场景参考,场景参考, 再使用一下这个场景。哎,我的场景也有了。好,这样子的话呢,那么就直接就 ok 了啊,然后我们直接来生成好生,呃,动画流畅,然后运镜流畅 就可以了。好,那么就直接点击生成好,这个的话呢,大家就可以看到一条非常运镜流畅的,并且呢有音效的这样的一个画面呢,就可以展示。 嗯,而且它的准确度是非常高的啊,就是没有脱离我们的这一个分镜,所以的话呢,这个是一个非常好用的功能。

最近呢谷歌发布了全新的 ai 视频生成大模型,也就是 jimmy 欧米尼是这样的一个模型,那么在官方的宣传页面里面可以看到这个模型呢,它的生成效果是非常好的,包括各种的动作, 各种的物体的稳定性都是非常好的。今天呢来实际测试一下它究竟具体的一个效果怎么样啊?我们呢可以先看一下别人制作的一个关于大模型对比的一个效果, 使用的呢就是谷歌新发布的这个欧米尼模型,跟我们国产的这个 c 弹子二点零的一个对比, c 弹子二点零呢是目前来说全世界范围内啊,它的效果是最好的。 然后呢我们来进行一个对比,看一下它的效果,究竟它的距离啊有多少?大家看一下这个整个的一个视频,那么上面呢是谷歌的模型,下面呢是 c 弹子二点零的,咱们看一下它跳水的这样的一个动作啊,非常的不自然,好再看一遍, 好看到这里啊已经落水了,然后呢他又重新回到半空中,并且呢这个人物的整个的一个姿势啊,非常的怪异啊,跟我们的 c 弹 z 二点零是完全没有办法比的,可以说在人物动态上, c 弹 z 二点零可以说非常的真实和非常自然。下面呢还有更多的一个案例,比如说像这种 双人就是两个角色进行一个大范围的移动啊,很明显的可以看到 c 弹子二点零呢,他的整个的一个环绕运镜和慢动作,对吧?和一个细节的整个的一个姿势啊,动态非常的流畅自然。上面呢就不用说了,非常的死板,其他的包括还有这种运动镜头的 啊,一样的运动镜头的 c 弹子二点零呢,同样的大家可以看到非常的自然,对吧?上面呢 整个的你看整个的动作,整个的非常的怪异,这个呢是网上别人的进行的一个对比,那么基本上不用咱自己的测试啊,非常明显可以看到 这个谷歌的模型完全跟这个 c 档三点零完全没有办法比,所以说呢 c 档三点零虽然说现在啊价格比较贵,但是贵有它的贵的一个道理啊,它的效果确实非常好的。那么下面呢给大家说一下咱们如何去 使用这个谷歌的新的大模型,现在呢谷歌模型咱们可以免费去用,这个呢,虽然说他效果没有那么好,但是啊他免费用咱们是可以去用一下的,咱们在这个谷歌呢直接搜索这个 flow, 在 这个平台呢咱们直接可以免费去用的,咱们直接打开一下,来到他的一个账号的这个页面主页,大家呢可以去登录一下,登录一下之后呢咱们可以看到在这里啊去选择这个具体的创作模式啊, 它默认呢是这个图片模式,大家可以看到,那么咱们把它选择视频模式,然后在下面呢就有这个具体的整个的模型的一个选择,那么谷歌的模型呢是 vivo, vivo 就是 vivo 三点一的模型,那么最新的就是最上面这个呢就是最新的欧米尼 flash 这样的一个模型啊,咱们可以直接去选择,那下面呢秒数啊,最长是十秒钟,上面呢这个生成的比例选择,这个九比十六 真和素材是什么意思呢?比如说你上传一个素材呢,上传一个图片,让他模仿这个图片里面的人物的长相啊之类的,这个真呢就是首尾针,对吧?首尾针去生成中间动态的一个视频。 好,咱们选择素材就可以了,这里呢选择好之后直接去书写咱们的题词,直接去发送。那么我之前呢也给大家做好了一个这个视频,这个视频呢就是一个女孩在滑板,就是在场地去做滑板滑板动作这样的一个视频啊,大家可以看一下整个的动作,我感觉啊 非常幅度非常的小,而且他的一个整个的动作非常的不自然,所以说呢还是大家呢可以去试一下生成一些动画动作幅度比较小的这种视频还是还是可以的,但是呢像这种大范围的动作 确实啊是不太适合的,在这个 flow 里面呢,大家直接可以免费的去生成,那么现在呢他是有送的,有这个积分。好,大家可以去测试一下。