粉丝789获赞2.0万

兄弟们,沉寂已久的谷歌终于来炸街了,就在刚刚结束的谷歌 i o 大 会上,发布了天花乱坠的各种 ai 产品,但真正重点就两个,一个是独一档的多模态能力和超强的 ag 能力。 先来看个最狠的,谷歌发布了全新的世界模型 jimmy nike omni。 你 可以将任何形态的文件作为输入,比如文字、视频、图片、音频一起发给他。 jimmy nike omni 能以任何你要求的形式输出给你, 从此 p 视频就像 p 图一样简单。但如果说 omni 是 无敌的感官,那么同时发布的 jimmy nike 三点五 flash 就是 专为代码和 ag 的 优化的, 它的输出速度达到了同类前沿模型的四倍,每秒狂飙一千五百个 token。 谷歌在现场用全新的 ai 开发平台 anti gravity 二点零展示了它有多逆天。 杰米奈三点五 flash 仅仅持续工作了十二个小时,就从零首写出了一个完整的操作系统内核。它在开发时,后台自动派生出了九十三个 ai 子代理,总 token 成本低于一千美元。而同类型的任务如果交给人类团队,至少需要数月的时间。 更硬核的是这个首出的操作系统,既然能直接加载毁灭战士 doom, 现场就玩起来了。 随后谷歌顺势推出了 gemini spark, 你 可以理解,它是谷歌为你远程部署了一台七乘二十四小时,搭载了 gemini 全套能力的服务器。它能跨越应用,直接打通各种第三方软件。你只要给他一个目标,他自己就能拆解,步骤全自动帮你搞定。 比如自动检查信用卡账单里的隐藏订阅费,把货一记录整理成文档,然后群发等等。最后还有压轴亮相的谷歌智能眼镜,戴上它, jimmy 奶就变成了你现实世界里的专属管家。路过咖啡店,眼镜自动识别,你只要动动嘴, ai 就 把咖啡给你点, 还能实时 ai 导航和同城传译。从这次 ai 大 会上看得出,谷歌正在疯狂地将 ai 模型的能力产品化,毕竟用户真正需要的是能解决问题的产品,而不是 ai 模型本身。第二呢,谷歌之前明显在多模态发力过猛,在 ag 能力方面有点落后于 antropics 和 open ai, 现在眼看 ag 大 爆发,所以他就奋起直追。但即便是刚刚发布的 gmi 三点五 flash, 也依然和这两个头部公司的模型有差距。那么 gmi 三点五 pro 会不会惊艳全场呢?大家可以期待一下。好了,我是阿朱,关注我,让我们一起在 ai 潮头冲浪!

笔画完全跟随动作,写出来的公式也完全正确。谷歌全新 ai 视频引擎金布莱奥米首爆视频版香蕉来了!谷歌这次是瞄准了 siri 下架窗口搬上来的新品。 那么面对一代视频强者,七代是二点零,又有怎样的表现呢?两分钟带你了解这个即将上线的全新 ai。 首先,奥米到底是什么模型?在哪用? 目前它正处于大规模推送或内测阶段。如果你是 g m 两高级定员用户,可能会看到推荐使用选项,这是别向大众发布,应该在五月的谷歌 i o 大 会后就能看到了。为什么要叫它视频版香蕉?因为它继承了当年 nano banana 那 种即插即用,极度精准理解人话的特质。以前出片结果还是抽盲盒,全看概率。 在奥尼,标志着 ai 视频进入了逻辑生产时代,他不再是单纯的在模拟像素,而是在模拟这个世界的运行逻辑。大家最近可能在网上刷到了谷歌爆出的几个演示视频,教授在黑板上写公式和吃意面喝奶油汤。这一段视频展示了奥尼最核心的两个能力,极致的致富精准度和动作逻辑。跟随兄弟们,你们细品 视频里那个老教授在黑板上飞速书写粉笔碎屑、手部关节的自然扭动,甚至写字时的力度感都极其真实。但最让我感到头皮发麻的是,那个公式本身,它是完全正确的。 这种逻辑一致性目前在整个 ai 视频圈是非常领先的。它证明了奥秘不只是在画画,他真的看懂了这段公式。所以,如果你问我,他能带来什么表现?他能让 ai 教学课件复杂的科技演示,精准的产品说明视频从不可能变成一键生成, 但是它并非完美。当设计那种超大幅度极高爆发力的物理动作时,它的表现力确实没有另外两家对手那么激进。 或许你想知道它和苏拉二现在是二点零上比到底谁更强?首先是 opalion 的 苏拉二,它的强项在于它的物理引擎画面冲击力依然是很强悍的,但现在关闭了使用,无论是网页应用还是 a p i 都没法调用了。 然后字节的吸氮是二点零。他最强的地方在于他的饮用系统和角色一致性。你给他一张照片,他能保证在深层的视频里人脸几乎不崩,这对于短视频博主和短剧团队来说是非常棒的。在动作的表现上来说,我们也有目共睹,虽然还没有正式发布调用价格,但目前测试段效果非常恐怖。 正式价格让我们拭目以待吧。以前我们或许觉得 ai 视频就是图个娱乐,但 jamie 阿莫里告诉我们, ai 已经可以处理极其严肃的内容了。虽然他在动作爆发力上还有提升空间,但这种极致的准确性,这是目前专业创作者最缺的东西。那么问题来了,面对这个不仅会拍片,还会算微积分的视频相交,你会用它来做什么呢?

谷歌的欧米尼视频生成模型上线了,我们可以在这个 flow 平台上进行体验,同时 flow 平台也上线了很多的视频和图片编辑小工具, 那么本期视频我就给大家测试体验一下欧米尼模型还有这些小工具。首先我进行测试的时候,模型只开放了 fresh 模型, 目前最高能生成七二零 p 十秒的视频,每个视频消耗三十个点数, umi pro 会员一共有一千个 ai 点数,而且我在使用的时候,它的首帧参考功能还没有上线,所以我就简单测试了几个纹身视频的例子, i will send you back to the dark abyss。 好,提示词所要求的东西都有,但是动作,电影质感还有音效都差很多,可以看一下 c 带是二点零的, 而且在 flow 这个平台,我们可以在下面这里输入提示词,直接对视频进行二次编辑。比如我直接输入一条金枪鱼跳上船,我们来看一下效果, i will send you back to the dark abyss。 他 这添加的内容太生硬了,几乎是不可用的。当然有可能他是 fresh 模型的原因。我们再多看几个例子, 这条视频的话,飞机驾驶是还不错,女主的紧张感和节奏也还行,但最后飞机仪表盘反向了,而且多了一个人。下一个我们试一下著名 ip 加想象力 why won't this stupid code work? 暂停一下,这里电脑里表现的内容太棒了,连代码的说尽都像那么回事。 i refuse to do this? 直接切镜头换风格 anymore why won't 他 这条真人路飞生成的其实挺棒的,这是就中间莫名其妙多出来一个动漫风格的镜头,下一个是变形金刚的镜头, 这个表现就太差了,别说跟 c 站十二点零比了,连快乐马都比不过。 下面是一个著名 ip 加动漫风格, anya will defeat all the villains, 这个表现其实还算可以了,介于 first 和 cds 二点零完全体之间, 下一个是香港电影。如果记忆是一个管头,我希望他永远不回国。起 这个案例就表现的很差了,无论是中文音还是镜头都不符合要求。如果记忆是一个罐头,我希望它永远不会过期。来一个九比十六的变身镜头, 那就再来一次, 感觉能比快乐马好上一些,但是这种动作和特效还是 c 大 师您的拿手好, 再试一下科幻镜头, 这个表现太拉胯了,完全没有电影质感,比快乐马都差远。 总结一下就是 omni, 它的表现肯定是不如 cds 二点零的,但它毕竟还是 flash 模型,不知道它有没有正式版,如果有正式版还是未来可期的。它还有一个优点就是足够的便宜,性价比还是很高的,目前生产速度也快,而且目前还 现那些著名的 ip。 今天除了欧莫尼这个更新之外, pro 这个平台还上线了巨多的图像编辑和视频编辑小工具, 我也帮大家测试了一下,总结一下就是很鸡肋,就是看起来很厉害,实际上就是一些常见的开源项目整合而成的图像和视频编辑工具, 比如说编辑文字动画的呀,还有说像什么手绘转图片,从各个仕图和角度去查看原始的图片,这个就是千问的技术吧,我记得还有什么视频跟随音乐动起来,这样的就适合整活。 还有一个是上传三 d 模型,然后再转化为二 d 平面图片, 它的视频小工具还有一个印象比较深刻的是一个抽帧加抠图加重叠的技术, 其他的图像小工具的话,要不然就见太多了,要不然就完全没什么意义。总结一下的话就是 omni 未来可期,图像工具的话作用不大。 那么以上就是 jimmy 在 本次 flow 上的更新的测试结果了,我个人是比较失望的。好,如果本期视频对你有帮助的话,麻烦帮我点个赞。

用 ai 做带货视频啊,昨天谷歌更新了啊,新更新的那个视频模型是那个欧米,然后呢,今天我们测了一下,测下来啊,他应该是也是拉了多大的,他就是怎么说呢,他只有 c 档三点零百分之七十的能力吧,七十到八十左右我觉得。然后呢,他整体做下来,做一些简单的,其实也还行啊,他唯一的优点就还是那句话,还是那个优点,就是便宜啊, 别的优点好像也没见到啊,怎么说呢,看来看来,将来啊,将来有可能真的是 c 档三点零一家独大。本来我想的说的是,你只要是能关键你这次更新也就算了,你只更新个十秒的,你好歹更新个十五秒的,最长十秒的,如果去发墨西哥和巴西也够用啊。我说实话真的够用,因为今天我测了几套题石模板, 但是就是确实挺让人失望的啊,真的是拉了一坨大的。大家看一看他做的视频啊,做的视频其实还行,肯定是不如 c 档子啊,就是说的过去,主播是期望太高了啊。

哥发布了一个新模型,感性叫 jamie omni, 这颜值视频版香蕉来,先看官方演示。这是 omni 生成的一段视频,教授在黑板前写数学公式,人物公式,光线都很真实。你注意看粉笔灰,它是真的会往下掉的, 有重力有惯性,不会随机飘,既没有手部变形,也不会画面闪烁,画面连贯,特别的稳定。然后是第二个小球跟随轨道往下滑落。这个视频真的能感受到是重力在作用,不像其他视频模型就有种说不上来的奇怪。现在市面上那些 ai 视频工具, space dance, 阿克林他们做的视频是深沉的,你给提示词,他出视频 出来不满意我们去抽卡 jimmy 米不一样,他就可以边生成边编辑的上传一段已有的视频,直接跟他说需求可以摆很多轮。这个逻辑跟其他工具是不是你可以对话了?一个剪辑老师,他能做到这样的事情,是因为他真的懂这个世界, 懂重力,懂历史,所以粉底会掉渣,小头滑落才这么形象。真实的视频更真实。现在 gemini omni flash 已经上线了,订阅了 pro 的 用户可以直接去 gemini 里面使用。

dance 二点零这次终于有对手了!谷歌刚刚发布的视频模型 omni 到底行不行,我们一试便知。先来看 omni 强在哪里?首先是视频编辑能力, omni 能够在改变画面元素的同时,保持角色和场景的一致性,比如把现实中的雕塑变成泡泡,一触即破, 把自拍里的镜子变成液态,让人碰到就变成终结者。或者是把小提琴手从音乐厅挪到草地上,再变换一个拍摄角度,不过他好像忘记把琴带出门了,真是尴尬。其次是物理引擎更加精准,那说人话就是重力、速度和碰撞之类的效果更加真实。 另外,奥尼也拥有了全能参考的能力,除了能够参考图像、视频和音频合成最终效果之外呢,还能给视频加上指定的特效包装。正为我的动销同事捏一把汗, 那接下来我们看看同框对比 omni 和 c dance 二点零谁的效果更好呢?实测下来, omni 的 物理效果确实更加优秀啊,画面风格也更加丰富多变,但中文能力就远远不如国产模型 c dance 了,这些有机材料就能自醒发光,而且 c dance 的 人物位置更加稳定,画面更有影视风格。 目前这面的 omni flash 模型已经正式上线,不过每天只能生成三条视频,你觉得 omni 能够和 c dance 一 战吗?来评论区咱们接着聊。

全网都在吹 gemini omni, 但它最诡异的是,没有模型卡,没有 api 文档,没有官方页面,甚至没有像样发布。一个突然出现在 gemini 应用里的名字,反而可能改写 ai 赛道规则, 时间点也很反常。二零二六年五月十一日,媒体写出,离 googleio 二零二六年五月十九日只剩几天。按常时,这种级别的东西应该高调透明,可复现。现在更像谷歌故意把枪藏在衣服里, 把碎片拼起来,你会发现它可能不是新模型发布,而是一次系统级合并,把 ai 竞赛从谁更聪明改成谁更像操作系统。 omni 更像统一入口与体验,而不是凭空冒出的魔法大脑。 关键判断, gemini omni 大 概率是把过去两年谷歌已做出的能力统一打包,统一入口,统一体验。真正的变化,不是能力新增,而是能力被组织成系统。 时间线其实非常连贯。二零二三年末, jammy 推出。二零二四年初一点五上长上下文与 moe。 二零二四年五月 estra show 实时摄像头加语音。二零二四年末二点零, flash 原声多模态。二零二五年 live 摄像头屏幕共享,再到 vo 三、 amneson 和 flow, 把内容生产串起来。 所以你现在看到了 omni 更像谷歌终于承认,我不是做聊天机器人,我是在做通用 ai 助手系统。谷歌最强的也不是单点能力,而是把能力塞进你每天离不开的设备和服务里。 把谷歌这套能力粗暴拆成四层堆站推理层,做长文档代码复杂工具快速层,用 flash 跑便宜快的任务实时层, flash live 做语音加视觉的流逝交互端侧层 nano 在 手机本地跑低延迟数据留在设备 把四层,再加上 vivo 三和 amg, 再统一路由到同一个 gemini 入口。手机、浏览器、电视、车机,甚至未来的眼镜。你会突然意识到,这不是某个模型更强,而是一个系统随时随地在你身边。 更扎心的是你不用等 i o, 它能做的事其实早就能做了,只是分散在不同名字里。手机实物 live、 摄像头与眼镜原型、 vivo 三电影感、视频 flow、 内容流水线都已经出现过。 真正让人背脊发凉的,不是它会不会再多一个功能,而是当谷歌把这些能力装进一个盒子,普通人会第一次感到, ai 不是 工具,是环境。 对开发者来说,信号也很工程化。 live api 支持七十种语言,允许用户打断,支持函数调用,能接搜索,还有客户端安全用的短期 token。 这些细节不像舞台花活,更像冲着大规模上线去的。 那模型本身到底行不行,看公开基准,百分之四十四点四 h l e 无工具百分之七十七点一 a r c a k i 二,百分之九十四点三 g p q a diamond 百分之八十点六 s w e bench verified 百分之六十八点五 terminal bench 百分之八十点五 m m m u pro 二千八百八十七楼 labco bench 这已经是前沿圈子, 但比赛不止拼分数, gbt 四 o 的 端到端语音体验仍强,还公开过延迟,最低二百三十二毫秒,平均三百二十毫秒,谷歌没给同级实时延迟。 antropica 在 高端代码与企业推理能打 metahot 走开放权重多模态路线, 更准确的结论是,谷歌未必宣布自己赢了,但他把能力加入口加分发面凑齐了。真正让对手难受的是 android、 chrome tv、 车机、 workspace。 这些默认入口一旦统一成一个助手层,竞争维度就变了。 风险也必须说,幻觉率没有官方统一数字。我们已知的是 simple key verified 里 jama 二点五, pro 拿到五十五点六, f 一, gpt 五是五十二点三, gpt 四 o 是 三十九点九,这说明短事实,问答更准,但不等于实时视频,助手不会看错。 更现实的是隐私与安全,全能助手能看你所看,听你所听,跨绘画记忆在应用里替你操作,还能生成以假乱真的媒体。若进入常开摄像头加麦克风的眼镜形态,隐私就不只是你一个人的问题。 数据保留也不是一句话能概括。 workspace gemini 据说不用于训练且不人工审查。 cloud 有 零保留选项,但消费及 gemini 策略不同,部分数据可能保留长达三年。同一个 gemini, 不 同入口规则完全不同。 回到竞争格局, openai 有 每周九亿活跃用户的 chat gpt, 但谷歌不需要你装新应用,它已经在安卓、 chrome、 google tv、 车机、 workspace 里。如果谷歌拿下默认助手, ai 就 从你打开的应用变成你生活的基础设施, 结尾留给你。你更想要这种随时随地的全能助手,还是更怕它太懂你?当 ai 从工具变成环境,选择权,默认设置和退出机制可能比下一次模型发布更重要。

刚刚结束的 google i o 大 会可以说投下了一枚真正的震撼弹。如果说之前大模型的竞争还在文字和语音层面,那么 google 寄出的这个终极大杀器,绝对会让你对人工智能的未来有一个全新的认知。 deepmind 的 掌门人 dimis hazzavis 在 大会上激动地宣布, 距离真正的通用人工智能,也就是 agi, 我 们只有几年的时间了,而他们手里最重要的一张王牌,就是今天重磅发布的全新模型, gemini omni。 什么是 gemini omni? 简单来说,它不仅仅是一个聊天机器人,它是 google 迈向世界模型的跨越性一步。 什么是世界模型?就是让 ai 真正能够理解并且模拟我们所在的物理世界。过去的大模型更多的是在玩概率游戏,他们通过算法预测下一个词或者下一个像素。但是 gemini omni 彻底改变了游戏规则,它结合了 gemini 极其强大的逻辑推理能力, 以及 google 最顶尖的生成式媒体大模型技术,能够从任何形式的输入创造出任何形式的输出。 最让人觉得不可思议的是, omni 居然掌握了直观的物理法则。大家知道,以前的 ai 很 难理解什么是重力,什么是动能生成的视频,经常会出现物体穿模违背物理常识的诡异画面。但 omni 不 同, 在大会的演示中, google 骄傲的展示了它是如何在视频生成中完美模拟物理引擎的,它甚至能把复杂的科学知识直接转化成高度精确的视频。 比如你只要对他说给我做一个关于蛋白质折叠的粘土动画讲解,他就能瞬间生成一段极其专业准确,而且连粘土质感和光影都完美无瑕的动画视频。不仅如此,奥尼还带来了一种革命性的视频创作方式,对话式迭代编辑。 过去我们做视频后期需要逐帧抠图调整特效,复杂的让人头秃。而现在,你只需要动动嘴皮子,想象一下,你上传一段自己散步的视频,然后对欧米尼说,在这个空地上加一个黑洞。神奇的事情发生了, 不仅视频里会凭空出现一个极其逼真的黑洞,而且连周围环境的光影,甚至地面积水的倒影,都会根据这个新加入的物理运算和自动更新。 你的每一句话都在改变视频里的现实。在过去,我们想要创造一个逼真的虚拟世界,需要庞大的好莱坞特效团队和几个月的渲染。而现在,任何文字、任何图片,任何视频,都能成为你创造全新现实的画布。

炸裂就在刚刚,谷歌发布了 gmm 模型,它是全球首个真正原生全模态生成模型,文字、图片、音频、视频任意输入,任意输出。你拍了一段自拍视频,用一句话就能换掉背景, 改变风格,同步音效,一张草图秒变完整影片。更可怕的是,它内置了 jimmy 的 推理引擎,真正理解你的创作意图,物理规律、历史背景、文化语境, 全部融合在每一帧画面里,而不是生硬的堆积像素,这是迈向世界模型的关键一步。好了,关注我,每天都有 ai 新体验!

今天凌晨一点, jammy 迎来更新,主播也是熬夜蹲着直播,看看官方这次有哪些重大更新。 jammy 这次发布了三点五 flash, 同时发布了一个新的视频模型 omni, 那 么主播也是在更新的第一时间进行了使用,可以看到在福楼页面中增加了 omni 的 模型,同时推出了 flow agent, 能够围绕我们输入的初步想法,自主拆解并规划复杂的创作工作流。 那么主播接下来进行初步的演示效果,进入页面输入我们的指令,同时上传所需的图片,选择我们的奥秘。接下来效果展示。 对于 flow 中的更新还有很多,比如人物角色的替换,人物一致性、动作流畅度等等,那么后续主播会对 flow 的 更新进行一一的讲解,帮助大家更好地应用到跨境电商视频制作当中。关注加收藏,获得最新消息!

谷歌今日凌晨发布了 gemini, 在 底层逻辑上简直就是一次史诗级的进化,瞬间引发了轰动,我们一起来看看实际的测试效果吧。哈喽,各位小伙伴们大家好,今天给大家演示一下最新的视频模型 omni flash 的 使用方法。 好,这个的话呢,它支持使用十秒啊,然后三十个积分这种方式操作好,那么怎么来操作呢?假如说我们要做这样的一个漫剧效果 好,那么首先第一个我们可以使用分镜啊,这个是我之前做的分镜。好,那么我直接把这个分镜的话呢,放到我的这个提示词里边啊,那么我可以直接到这里艾特一下就可以了。好,我艾特一下分镜,点击确认。好,然后的话呢,我可以直接说 啊,使用啊,根据分镜,或者我把它删掉啊,根据分镜生成动画。 好,然后我艾特一下这个分镜,这个分镜好,可以了。好,然后人物参考,使用这一个人物。好,然后场景参考,场景参考, 再使用一下这个场景。哎,我的场景也有了。好,这样子的话呢,那么就直接就 ok 了啊,然后我们直接来生成好生,呃,动画流畅,然后运镜流畅 就可以了。好,那么就直接点击生成好,这个的话呢,大家就可以看到一条非常运镜流畅的,并且呢有音效的这样的一个画面呢,就可以展示。 嗯,而且它的准确度是非常高的啊,就是没有脱离我们的这一个分镜,所以的话呢,这个是一个非常好用的功能。

jamael 阿米这次最值得看懂的不是它又能生成多炫的视频,而是谷歌正在把 ai 视频从凭空生成一个假画面,往改造真实素材这个方向推。这俩听着差不多,其实差别很大。你看啊,过去很多 ai 视频模型,核心玩法是,你给一句提示词,它从零生成一段视频。 这个方向当然很猛,但他有个天然问题,越像凭空造出来的东西,观众越容易不信。尤其是做内容、做短视频、做商业视频的人。很多时候,你要的不是一个完全虚构的世界, 你要的是真实的人还在,真实的动作还在,真实的场景还在。但我能不能在这个基础上加一层更有创意、更有表现力的东西? jamaican omni 这次有意思的地方就在这儿。比如官方演示里,一段真人坐在椅子上说话的视频,加一张卡通人物图,它可以把视频里的人变成这个卡通角色。注意,它不是凭空生成一个卡通片,它 是在保留原视频的动作、节奏、声音和镜头关系的基础上,换掉人物形象。再比如,一只手掌打开,本来就是一个普通实拍镜头, 你给他一张科技感参考图,他就能让一个三 d 建筑从手掌里长出来。还有,画一只鸟,再画一个飞行路线,他就能让鸟按照草图在树林里飞。这说明什么? 说明 ai 视频开始不只是帮你造一个画面,而是开始理解你的素材、你的草图、你的参考图、你的音乐、你的分镜,然后帮你把它们组合成一个视频结果。 这对创作者的影响,可能比单纯纹身视频更实际,因为大多数创作者的真实工作流,不是每天坐在那幻想一句神级提示词,而是我已经拍了一段东西,我想把它做的更有意思。我已经有一个人物,我想换一种表达方式。我已经有一个分镜,我想先看看它动起来是什么感觉。 我已经有一个普通镜头,我想加一点特效,但不想为一个五秒镜头花很高成本。这就是 gemini 更接近真实创作场景的地方, 它不是让你别拍了,恰恰相反,它可能让拍下来这件事更重要,因为你拍到的真实素材,会变成后续 ai 改造的底子。这也是我觉得所有视频都完全由 ai 生成,其实不一定是最好的方向。 拍视频这件事,不完全是功利性的结果,交付真实生活里的经历,工作里的现场拍摄过程中的体验,这些东西本身就是内容的一部分,尤其是商业视频,如果全都是虚构的 ai 画面,短期看可能很炫,但长期很容易让消费者反感。因为观众会问,你这个产品真的存在吗? 这个人真的用过吗?这个场景真的发生过吗?所以更合理的方向,可能不是 ai 替你生成一切,而是 真实素材打底, ai 帮你扩展表达。 youtube 这次把 gemini 接近 shorts remix, 也是在往这个方向走一条。已有 shorts 可以 被 remix 成八 beat, 游戏风格可以加进,新人物可以连续改背景、改角色、改风格,这就不是单纯生成视频了, 这是把平台里的原始视频变成可以再创作的素材。当然,这里也有一个很容易被忽略的问题,工具门槛降低了,这是把平台里的原始视频变成可以再创作的素材。当然,这里也有一个很容易被忽略的问题,工具门槛降低了,是因为创意本身就够好。 同样是改一个视频,有人只能说,帮我变酷一点。有人能想到,用草图控制鸟的运动,用音乐控制灯光节奏,用分镜控制故事顺序。差距还在,甚至创意的重要性会更高。因为当制作成本下降之后,真正稀缺的就变成,你到底想让它变成什么? 还有一个绕不开的问题是内容真实性。如果视频 remix 和人物替换变得太容易,虚假视频、低质量 ai 流水线、未经授权的二创一定会变多。所以你会看到 google 和 open ai 都在补内容溯源这件事。水印原数据、 c r p a sense、 id 验证工具听起来都很技术,但背后解决的是同一个问题, 当视频越来越容易被 ai 改造,观众怎么知道他从哪儿来?改过什么?谁该负责? youtube 这次也说,用 gemini remix 的 shorts 会带数字水印和识别原数据,还能回练原石,视频原作者也可以选择退出视觉 remix。 这说明 ai 视频要真的进入创作者工作流,不能只拼生成能力, 还得有授权标记、溯源和原作者控制权。所以 gemini 这次真正值得创作者关注的,不是他能不能替我做视频, 而是他把一个新的创作路线摆出来了。先有真实素材,再用 ai 扩展表达。先有人现场和经历,再用模型做风格化、特效化、分镜化、二创化。它降低的是制作成本,不是创意成本,它放大的是表达空间,也会放大信任问题。 如果你是做内容的,接下来真正要练的可能不是怎么拍下值得改造的真实素材,怎么设计值得执行的创意,怎么让 ai 加分但不让内容失真。

cds 二点零相同提示词对比新模型 gemina omni。


家人们,谷歌这次真杀疯了,专门拿姚明,这是要直接掀了视频生存领域的天花板啊!以前做视频跟搭乐高似的,得一块一块慢慢拼,现在他直接给了你一座会思考的乐高魔法工厂。你就跟他正常聊天,他就能懂物理、历史、生物、 文化这些现实世界的东西,然后直接生成或者编辑任何视频有五个最炸裂的功能,你现在就能用一懂真实物理,玻璃弹珠碰撞、旋转、反弹,完全符合现实。二、人脸永不崩坏定义一次 角色就能把它放到任何场景,做任何动作。三、像编辑拆解 g p t 一 样编辑视频,一句话,换背景换人物加特效。 四、上传图片,应用任何风格做成黏土动画,模拟蛋白质折叠,只要你能想到。五、视频不再是死文件,聊天就能改角度、光线、物体,甚至故事情节。这是世界模型第一次真正进入消费级产品,它不是在真诚像素,它是在模拟一个连贯的、有物理逻辑和语义的世界。现在就打开 jimmy 应用试试奥秘 flash, 快 去试试,你会回来,谢我的!

大家五二零快乐哎,就在今天凌晨呢, google 的 二零二六年年度开发者大会如期而至,这次的发布会呢,包含了很多的产品,那其中呢,在视频的生成领域也是大家比较期待的, gemini 也是正式上线了, 那这期视频呢,来带大家客观的感受一下这个视频模型的特点,以及他未来的潜力如何。 ok, 那 我们先上官方的样片, 那我们继续来看啊,官网对于这个模型的一些介绍,它是一款能够根据任何输入 啊创建任何内容的一个全新意义上的多肽模型。那这个特殊的点在哪里呢?因为去年纳诺布达纳它是属于将这未来的智能技术去应用到图像生成和图像编辑领域了。 那 google 一 开始呢,其实他们就将这未来作为构建原生多肽的这个底层的架构,所以今天推出的这未来的推理能力和创造能力应用在了全领域上, 我们可以将图像、音频、视频组合作为输入来生成基于这未来真实世界知识的高质量视频。 那目前呢,推出的首款产品是这未来 omni flash, 在 未来的话,他们也将支持图像和音频等格式的输出。所以在开这个发布会之前,很多人猜测 呃他会发布的是 v e o 的 新版本。那这次的 omega 模型呢?它并不是呃 v e o 模型简单的换壳,而是底层的架构都已经完全更新掉了,我们可以理解为 v e o, 它本质上就是一个呃视频的生成模型。 但是 omni 呢?呃这个单词在拉丁语的意思是全部的意思,也被 google 定义为世界模型,这个模型它直接生长在这面代的主架构上,所以它继承了这面代这种极强的逻辑推理能力和现实的常识。那甚至我们可以更大胆的去 理解,去想象一下, omni 呢,是一个全模态的这样一个模型,那刚刚也提到了它未来也会支持图像的输出,那它跟 banana 之间的差别又在哪里呢?那其实可以理解为 banana 是 单纯的图像模型, v o 是 单纯的视频模型, 但 omni 它可以基于任何模态的输入,做到任何模态的输出。虽然我们当前接触到的这是第一个版本,观感上给人的感觉并没有那么惊艳,但是在目前这个架构继续生长的话, 那未来它将跟 banana 和 vivo 完全都不是在同一个维度上的东西,所以这个是我从这次发布会里面理解到的。呃,我觉得一个它比较值得期待的点。 ok, 那 接下来我们就来看一下啊官网上对于这个模型的一些能力的介绍。那首先呢,就是可以通过对话来编辑我们的视频,通过我们的自然语言就可以完成我们对视频的编辑,改变视频里面发生的事情,包括编辑动作,添加角色或者物体,这都是可以做到的。 类似像这种,一个人在拉小提琴,然后通过我们的自然语言去可以把它的背景更换掉,然后可以把它的小提琴消失掉, 当然也可以改变它的角度。那视频的编辑这件事情上,呃,我们之前出现过的其他模型也都是可以做到的,并没有让人觉得很惊艳,那这位呢? omni 呢?在现实世界的逼真场景的构建上做的还是不错的,比如说这个视频 一颗弹珠在连锁的这种反应式轨道上滚动,对吧?包括这个玻璃球跟其他各种东西触碰时的这一些物理的反应,给人的感觉还是非常真实的, 它能创造出来比较精准的这种物理的引擎的视觉效果。那同时它也可以将这面的知识,包括语言、图像 和一些你文字里面没有提到的东西,他会进行思考,然后生成在视频里面。比如说就像这个桌面上会有二十六个字母的物品,他只给了这三个,其他的都是他基于这杯奶能查找到的知识去自己生成的。 同时他也可以呃,基于一个比较简单的这种解释词,去生成一个能够分解复杂概念的这样的一个视觉图像。那比如说是用黏土动画去解释蛋白质的折叠过程。 在后面呢,是一些啊,类似于我们之前 cds 二点零里面 可以利用多模态的一个输入,比如说这个它是基于这张图一去做啊,动态科幻电影风格的视频。视频的元素呢,会像第二个视频一样,这个灯光去亮起,然后再跟第三个音频当中的这种音乐节拍去同步,包括这个也是。 那这个视频呢,是将图一变成图二的风格,然后应用第三个音乐作为背景音乐来生成视频, 当然也可以做这种呃角色的替换。 这个应用呢,是让图一的这个画面里面的主体不变,但是把图二的这种特效加到图一的视频里面, 也可以把一个视频里面的主体去更换他的材质,更换他的背景,同时去操作。 那我这边呢也测试了几个案例,我给大家放一下。那首先第一个是我让他基于这个分镜去跑了一个建筑的漫游动画, 他目前生成视频的时长只能是十秒钟,然后有横竖两个比例,九比十六的和六比十九的,然后分辨率是七二零 p 的, 目前没有其他的规格可以选择。那这个呢,是我让他用黏土动画去解释现代建筑的建造过程, 首先用黏土挖出深坑,接着我们要绑扎钢筋并浇注混凝土,随后柱子和楼板会筑成搭接起来,最后安上好墙体和玻璃。 那也可能是因为十秒钟的时间太短了,他并不能把这件事情说的很清楚,但整个画面的感觉是没有什么问题的。然后还有一个,这个生成了一个美漫, 这个是我没给他任何提示词的,这个是他官方模板,他就自动给我做了一个这个东西。那这个呢?是我基于官网那个案例,就是他不是有二十六个字母生成二十六个物品吗?我 让它是用十二个星座,然后对应十二个不同的这个狗狗的品种,然后去做了这样一个实验,我觉得这个效果还可以, 那目前总的来看呢?呃,效果确实没有让人很惊艳,大家可能对于它的期望值太高了,大家都在希望它呢可以给 c 弹三点零制造一些压力。 那我倒是觉得呢,我们可以从其他的视角呃来客观的看一下这件事,从他的多模态的输入到输出, 或者说基于这面代的这个架构呢?他未来的一个发展还是很有前景的。那正如谷歌他们自己也意识到这件事情,呃,这条路其实是比较艰难的,但是他们也正在目前的这个架构上 啊,去获得了一些回报了啊。那目前大家可以去这边的网页端啊,包括桌面的应用去体验一下这个模型, 后续的话他也会开放 pro 的 版本,这个我们可以一起来期待一下未来的一个版本吧。 ok, 那 今天的视频就跟大家分享这些内容,记得给我点赞,我们下次再见,拜拜。

今晚 omni 的 发布,一定又有一大帮声音设计师,天有他了,设计行业又要洗牌了,设计师又要失业了。但是经过一晚上实测以后,我发现,以前呢,做一组 ai 设计案例,最难的不是身,而是同一空间的一致性。 墙面变了,家具跑了,灯光乱了,前后完全接不上。但现在 omni 最强的地方,就是把空间一致性这件事情变简单了,你只需要点一下,你就能得到同一空间的不同视角, 上传一张全景图,通过格式化调整,就能生成一次性的局部超清大图,甚至一张单式图也可以往全景图方向去延展。以前你要做一个爆款案例,可能需要找参考、剪辑视频、 反复习稿,过程是相当痛苦,但现在可以快速延展。也就是说, ai 生产设计内容的门槛正在被打到冰点。但这也提醒所有的设计同行, 以后好看的 ai 案例将越来越不稀奇。真正值钱的,是你能不能趁现在把它运用到新媒体获客里。谁先用 ai 低成本起号,持续发内容,拿到精准咨询,谁就能先吃到这一波红利。

gemini 也出桌面端了,我用它做了动画,开发了游戏,还尝试了一系列的常用功能,还真有点平替 codex 的 意思了。就在昨天 google i o 开发者大会上,发布了一系列面向模型搜索、开发者工具和多模态创作的一整套 ai 更新, 有新一代基础模型 gemini 三点五,有融合了 nano、 banana 和 vivo 等模型能力的多款桌面端 agent 的 重度用户。 我们也终于等来了 google 版的 codex itigraphy 二点零,我已经迫不及待想上手玩一玩了,那么话不多说,马上实测。嗨,这里是头哥不请自来的 ai 频道,我们先来看一下它的界面,如果不仔细看,我真的以为自己打开的是 codex。 左边是项目和对话任务,右边是主要的对话窗口,对用过 codex co work 或者其他桌面端 a 阵的工具的朋友来说,基本没有任何的学习门槛。这里可以看到, atigraphy 已经把刚刚发布的 gemini 三点五 flash 集成到了模型列表中, 而且之前 it gravity ide 版本里已经支持的模型也被保留了下来,比如 cloud sonic 四点六,还有 cloud ops 四点六。光是模型种类这一点, it gravity 就 比 codex 丰富了不少。 所以接下来我们就通过几个案例详细盘一盘 it gravity 的 能力到底怎么样。第一个案例当然是制作我们熟悉的 remotion 动画视频,之前的节目里,我们已经详细介绍过如何使用 codex 配合插件市场中自带的 remover 插件制作像这样的动画效果。但 itagraft 有 一个很明显的区别,它并没有自带的技能库和插件市场,所以这里我们先要安装下这个技能。 我们先新建一个项目,然后把 remotion 最佳实践这个 scale 手动安装到项目的点 a 阵子文件夹中。接下来我们就直接输入这段指令,使用 remotion 制作一个介绍 it graffiti 二点零的动画视频,要求浅色主题,将 logo 与 logo 的 配色融入到视频风格中。 输入完成后, a 阵的没有马上开始写代码,而是先开始分析我们的需求以及当前项目里这个 remote skill 的 能力。然后他先给我们生成了一版详细的实施计划。 这一点就和 codex 的 工作方式有着明显区别,因为我们一开始并没有主动开启 autograph 的 计划模式, 但他仍然先进入了计划阶段。从体验上来看, itgraphy 这一点很打动我,所以这里我先检查了一下他的实施计划, 确认整体思路没有问题之后,就让 agent 继续执行,并自动渲染出了视频文件,你看效果是不是还不错?第二个案例我想稍微上一点难度,我们让 agent 使用 react 加 three 点 gs 开发一个三 d 太空设计游戏。 这一次我们直接开启 atigraphy 的 计划模式,先不让它马上写代码,而是让 agent 先和我们讨论具体要做成什么样子。这点就很像 codex 里的计划模式, agent 会一步一步向用户确认游戏细节,比如核心玩法是什么, 是固定视角还是第三人称视角,有没有剧情模式,有没有关卡推进等等。待所有细节都确认完成以后, agent 就 会生成一个详细版的实时计划,确认没有问题,我们就让 agent 继续执行。 经过几分钟的开发,一款打开浏览器就能玩的三 d 太空设计游戏就搞定了。到目前体验下来,我们的感觉是, atigraphy 并不是只把 codex 的 界面复刻了一遍。像这种面对复杂任务时停下来先把任务规划清楚,再一步一步执行的能力, 是现代 a 阵的终端里最重要的能力之一。最后,我们再来测试一些平时经常会用到的场景,比如 codex 里的自动化功能, 它可以让 a 阵子定时执行一条指令,每天帮你检查信息、整理资料或者生成固定格式的简报。而在 atigraphy 里,这个能力叫做定时任务, 它提供了几乎相同的能力,比如,我们可以指定一个每天都要执行的指令,每天早上九点检查 github training 里推荐的热门开源项目并输出中文总结。 创建方式也很简单,你可以像这样在定时任务菜单里直接添加,也可以在聊天窗口里通过杠 schedule 加上这段自然语言描述,直接创建定时任务。 这样一来,它就不只是一个你输入才会工作的工具。甚至在一些固定的标准任务上,它已经几乎可以替代像 openclaw 这样的常驻智能笔了。 下面我还想测一下 itigraphy 能不能生成图片。在 itigraphy 里, agent 也同样继承了自家的 nano banana 生图模型,我们只需要在提示词里明确要求它生成图片, agent 就 可以直接完成图片创作,这个能力对内容创作者很有帮助。 最后, ideography 还带来了动态 sub agents 功能,就是一个主 agent 带领一群专业的子 agent 一 起完成复杂任务。我们可以直接在体脂词里指定使用 dynamic sub agents 创作多个子智能体。 然后 atigraphy 就 会自动启动紫 a 阵特并行处理每项工作。展开右侧边栏,可以看到每一个子 a 阵特都在并行工作中。把复杂任务拆分成多个紫 a 阵特之后,每个紫 a 阵特只需要专注于一个非常垂直的小领域,它的 目标更清楚,上下文更集中,出错概率也就更低。这次体验下来,不敢说全新的上下文更集中,出错概率也就更低。这次体验下来,不敢说全新的 atigraphy 可以 平替 code, 但确实值得你认真尝试一下。 桌面端 a 阵子越来越卷,可实用的工具也越来越多,希望朋友们都可以用上能力更强,成本更低的好工具。智能指手段,人类才是答案。这里是头哥不请自来,我们下期再见,拜拜!

这两天最值得关注的信号不是又一个模型更强,而是代理式工作流正在被推程默认入口这 mini 三减五 plus 这也更新,把重点放在速度、成本和工具调用的可用性上,让你更容易把 ai 接近真实流程里,而不只是聊天窗口里。 来源是 google 官方关于致命三年五的更新说明,以及媒体对从聊天到代理的解读。我们只抓三个问题,第一,能力点到底落在哪?第二,谁最先受影响。第三,落地的门槛从哪开始变了? flash 的 意义不是更会说,是更像一个能用的零件、更低延迟、更可供成本、更稳定的工具跳跃路径,以及更清晰的开发者入口。 对团队来说,这决定了它能不能进入日常的自动化批量处理、总结规章啊,剪辑比对,再把结果会写到你的系统里。 聊天机器人擅长回答一次问题,但屡入口要解决的是把任务跑完。前者是对话体验,后者是工作流。能拆任务、能调用工具,能保存中间状态,能把结果写回去。 你会发现,大家越来越在意的不是单次回答多漂亮,而是这条链路能不能稳定附用。 真正落地时,你可以把代理理解成四步,第一步,明确目标和验收标准。第二步,把任务拆成可执行的小步。第三步,用工具完成每一步,解锁表格、代码、邮件、公单都算。第四步,人类在关键节点审批,最后把结果会写到系统。 flash 这类更新价值就在第三步的。能不能跑通,左边是能力蓄势,右边是入口蓄势。能力决定上限,入口决定扩散速度。 很多团队并不缺一个聪明的回答,缺的是一条稳定的入口权限怎么管跳用怎么记账,失败怎么兜底,结果怎么会写?入口一旦统一扩散会非常快, 接下来门槛会发生迁移。过去你只要会写 prompt, 就 能做出 demo。 现在你得把流程做成可附用的跑法,延迟是否可接受,单词成本是否稳定?权限与审计能否闭环失败重试和人工兜底怎么设计能把这些跑通的团队 才会真正吃到红利。受影响最早的往往不是研究团队,而是流程重的岗位。客服与运营、市场与内容、数据分析与报告、研发里的重复性脚手架。他们的工棚点是用物可拆、可验证、能接入工具链。 一旦入口和成本稳定下来,这些场景会率先被代理施工作坊改造。这条更新背后的信号是, 竞争从谁更强开始,转向谁更省心。当模型变得更快、更便宜、工具调用更顺滑时,决定胜负的就不是单件能力,而是你能不能把它变成默认入口,让团队愿意天天用、反复用、稳定用。 值得追的不是某个参数,而是你能不能把代理链路跑起来。先从一个可验收的小流程开始,输入清晰, 处处可检查,能回血,能审计、能跑通,一次就能复制十次。复制的越快,优势就越早变成壁垒。