随意变换眼镜款式, 根据路线生成视频 变换场景, 把动画场景。 i still think dreams is kind of underestimated it actually works so incredibly well especially when you pair it with gen ai 把写实场景变动画。
粉丝547获赞1.1万

没有啊,朋友们,谷歌更新了一大波东西,今年呢,我们也派出了我们团队的小伙伴去到了美国的 i o 现场,并且第一时间全部上手实测。然而,我们掏出了你真正最关心,真正有用的东西, 当然,想知道它全部更新的朋友,我也做成了一张 html, 分 别列出了它的更新点,使用条件,上线时间,另外也整理了免费的使用渠道。也感谢抖音科技、抖音精选和谷歌的邀请,来点好收藏关注、赞,我们直接上效果, 输入视频文字,再让它改一改,这就是谷歌发的第一个大货,欧米全模态模型。 全模态的意思就是你可以输入包括文字、图片、视频、音频的各种模态,他也可以生成这些模态的内容。听着很猛啊,不过大家肯定还是想知道,所以跟 cds 二点零比起来怎么样呢? 来同样的一个现场摇滚演唱会的一个提示词,纹身视频的效果,欧米是这样的, 它做到了生化同步,而且最长十秒时长,运动起来看起来也比较自然。不过我们再看 cds 二点零, 它的人物状态和画面真实感更自然,尤其是摄影机的这种手持运动,现场感会更强,光影和美学整体的氛围都更好。 what? 怎么回事?这也是我的第一反应,但是我发现它俩还不能这么比。 cds 二点零呢,是强在纹身图 omni 呢,更像能够输入任何东西进行编辑和生成的一种多功能编辑模型, 并且一致性保持的很好,他就有点像视频版的 nano banana pro。 所以呢,我们就发现了一个有意思的方向,实拍结合,这是原视频,给他加一段提示词,他就噔 以及再给他加特效加元素,换镜头都非常稳定。再比如这种修仙剧的制作, 或者给你的 vlog 加上特效跟踪,效果很好吧,这才是欧米尼正确的打开方式,所以它就非常适合那些有拍摄技巧和导演思维的创意小天才们。第二,闪电侠 jimmy 三点五 flash, 它是谷歌这次更新的一个主力模型,主打 a 阵的能力和快,并且呢,作为 flash 版本,编码能力已经超越了上一代的三点一 pro, 但是 我们不管它是 flash 还是 pro, 只要你是新模型,我就得拿你跟最好的比对吧?所以呢,我也直接拿它跟 gpt 五点五做了实测对比,没有想到它还是有点能打 的。那这是我让 jimmy 和 gpt 五点五分别出的五十个电商网站的 svg 图标,并且要求它生成出来的这个应用我们是可以直接下载 svg 的, 然而结果是 g p t 的, 这个是不能下载的。但是 jimmy 的 网站图标效果你看其实也很不错,最关键的是它可以下载。 然后第二个我做了一个换装应用,要求呢,可以一键试穿不同朝代的这个传统服饰搭配妆容。那 jimmy 的 效果呢,就是真的可以把用户上传的照片它作为内联数据传进去,然后可以真的帮我们生成,效果也在这个范围内吧。 那 gpt 呢,基本上是只做了个样子,没有任何的图片功能,而且在 gemini 里面还有一个好处是它跟 youtube 的 联动,那这是我让他们生成。根据我上一期 codex 那 个 youtube 视频生成的教程交互网站 gemini 三点五 flash 生成的效果还是不错的, 那 g p t。 五点五生成的样子也不错,但由于它没有办法真的看 youtube 内容,所以拉了。不过这次 jammin 三点五 flash 的 世界知识和抽象推理明显就弱了一档。比如说我问了一个人类为什么会需要音乐这个问题,三点五 flash 的 回答明显要更加刻板一点, 而且它最终还要问我们倾向于什么。而 gpt 五点五非常流畅的列出了各种典故的同时,抽象出了音乐本质上是一种情绪编程语言,总结出语言负责传递信息,而音乐让人类进入同一种状态。 所以三点五 flash 相当于降了一定的智慧。但是呢,它提高了干活的能力和效率,我将其称为最快打工仔。 如果大家想要更强的智力,只有期待一下三点五 pro 了。想当年二点五 pro 的 智慧也是非常让人惊叹的。当然要看他的 a 帧的能力,还得让他在 a 帧的场景里用 anti gravity。 新发布的 anti gravity 其实分成了两个产品,变成了跟 codex 非常类似的这种独立桌面应用,以对话框和这个多个 a 政的任务的管理为主。它没有那个编辑器了,原来带编辑器的那个 ide 拆出来了,叫做 anti gravity ide, 所以新版呢,也更适合普通用户来用了。它里面既有 cloud 四点六,也有最新的三点五 flash。 那 我呢,测试了一个需要读取本地的客服聊天数据,然后做一个分析,生成图表,最终再生成报告和培训 ppt 的 一个案例。 antigravity 是 真的快,这好几个产物的任务它只花了不到四分钟。那最后快速聊聊,国内暂时用不着,但我觉得挺有用的小功能。 第一,谷歌地图可以自然语言来问路了,那第二, youtube 可以 自然语言来问答案,并且帮你找到视频对应的那一段,那第三,谷歌搜索的 ai 模式更好用了,还能帮你直接出一个互动应用。第四, java 的 auto 会员会自带一个云端龙虾画的 agent jack。 与此同时,我们的小伙伴也在旧金山达到了无人驾驶的出租车,威猛没有辅助的司机。而且比较好的是它内部的交互都是可以用中文完成的,据说感受还是比较神奇的。好了,那总之,这是一个 a 证的时代, 关于怎么用 a 证的帮你干活,我们也会继续出实用教程,记得点赞收藏关注,还有在抖音精选 app 点点推荐,我们下次见了。

谷歌的欧米尼视频生成模型上线了,我们可以在这个 flow 平台上进行体验,同时 flow 平台也上线了很多的视频和图片编辑小工具, 那么本期视频我就给大家测试体验一下欧米尼模型还有这些小工具。首先我进行测试的时候,模型只开放了 fresh 模型, 目前最高能生成七二零 p 十秒的视频,每个视频消耗三十个点数, umi pro 会员一共有一千个 ai 点数,而且我在使用的时候,它的首帧参考功能还没有上线,所以我就简单测试了几个纹身视频的例子, i will send you back to the dark abyss。 好,提示词所要求的东西都有,但是动作,电影质感还有音效都差很多,可以看一下 c 带是二点零的, 而且在 flow 这个平台,我们可以在下面这里输入提示词,直接对视频进行二次编辑。比如我直接输入一条金枪鱼跳上船,我们来看一下效果, i will send you back to the dark abyss。 他 这添加的内容太生硬了,几乎是不可用的。当然有可能他是 fresh 模型的原因。我们再多看几个例子, 这条视频的话,飞机驾驶是还不错,女主的紧张感和节奏也还行,但最后飞机仪表盘反向了,而且多了一个人。下一个我们试一下著名 ip 加想象力 why won't this stupid code work? 暂停一下,这里电脑里表现的内容太棒了,连代码的说尽都像那么回事。 i refuse to do this? 直接切镜头换风格 anymore why won't 他 这条真人路飞生成的其实挺棒的,这是就中间莫名其妙多出来一个动漫风格的镜头,下一个是变形金刚的镜头, 这个表现就太差了,别说跟 c 站十二点零比了,连快乐马都比不过。 下面是一个著名 ip 加动漫风格, anya will defeat all the villains, 这个表现其实还算可以了,介于 first 和 cds 二点零完全体之间, 下一个是香港电影。如果记忆是一个管头,我希望他永远不回国。起 这个案例就表现的很差了,无论是中文音还是镜头都不符合要求。如果记忆是一个罐头,我希望它永远不会过期。来一个九比十六的变身镜头, 那就再来一次, 感觉能比快乐马好上一些,但是这种动作和特效还是 c 大 师您的拿手好, 再试一下科幻镜头, 这个表现太拉胯了,完全没有电影质感,比快乐马都差远。 总结一下就是 omni, 它的表现肯定是不如 cds 二点零的,但它毕竟还是 flash 模型,不知道它有没有正式版,如果有正式版还是未来可期的。它还有一个优点就是足够的便宜,性价比还是很高的,目前生产速度也快,而且目前还 现那些著名的 ip。 今天除了欧莫尼这个更新之外, pro 这个平台还上线了巨多的图像编辑和视频编辑小工具, 我也帮大家测试了一下,总结一下就是很鸡肋,就是看起来很厉害,实际上就是一些常见的开源项目整合而成的图像和视频编辑工具, 比如说编辑文字动画的呀,还有说像什么手绘转图片,从各个仕图和角度去查看原始的图片,这个就是千问的技术吧,我记得还有什么视频跟随音乐动起来,这样的就适合整活。 还有一个是上传三 d 模型,然后再转化为二 d 平面图片, 它的视频小工具还有一个印象比较深刻的是一个抽帧加抠图加重叠的技术, 其他的图像小工具的话,要不然就见太多了,要不然就完全没什么意义。总结一下的话就是 omni 未来可期,图像工具的话作用不大。 那么以上就是 jimmy 在 本次 flow 上的更新的测试结果了,我个人是比较失望的。好,如果本期视频对你有帮助的话,麻烦帮我点个赞。

jamn 欧米尼翻车了!就在昨天的 google i o 大 会上,全新的视频模型 jamn 欧米尼正式亮相发布之中呢,所有人都期待他能够创作出超越现有视频模型的作品啊,但现实似乎并没有按照大家想象的方向发展,就连 jamn 欧米尼一直强调的真实世界物理规律,在 cds 面前也毫无还手之力。 无论是画面、构图、分镜,还是单纯的生成效果,都显得一塌糊涂啊。讯息能力似乎与 cds 完全不是一个级别, 但詹姆尼真的很差吗?其实也不完全是啊,在连续编辑上,他的表现反而更加出色。以这段视频为例,将画面中的小提琴手所处的场景更换为草地,人物的动作、神态、表情都完整的保留了下来。 将手中的小提琴给去掉之后呢,仍然能够看出前后非常高的一致性。再看这段发布会上演示过的案例啊,经过欧米尼的多轮编辑后呢,人物会根据不同的设定做出不同的反应, 同时保留出真实的物理效果。由此可见, java omni 并不是专门用来做精美短视频的模型啊,更像是视频版的 nano banana, 它可以精准的根据用户指令修改视频,而不是单纯的创作虚拟型作品。 所以,如果你想通过 ai 一 键成片啊,我想 cds 仍然是现在的第一首选。但如果你追求可控编辑、灵活修改,那么 java omni 无疑更加值得尝试。 比 cds 那 种令人惊讶的视觉效果, jimmy 欧尼更像一个可控的视频工作站,你可以反复修改,局部调整,灵活性远高于 cds, 换句话说,欧尼的价值比生成画质本身更加突出。目前你就可以在 jimmy flow 里进行体验了,赶快试试吧!这是我还推荐第五百四十一个神器,关注我,解锁更多硬核 ai 工具。

dance 二点零这次终于有对手了!谷歌刚刚发布的视频模型 omni 到底行不行,我们一试便知。先来看 omni 强在哪里?首先是视频编辑能力, omni 能够在改变画面元素的同时,保持角色和场景的一致性,比如把现实中的雕塑变成泡泡,一触即破, 把自拍里的镜子变成液态,让人碰到就变成终结者。或者是把小提琴手从音乐厅挪到草地上,再变换一个拍摄角度,不过他好像忘记把琴带出门了,真是尴尬。其次是物理引擎更加精准,那说人话就是重力、速度和碰撞之类的效果更加真实。 另外,奥尼也拥有了全能参考的能力,除了能够参考图像、视频和音频合成最终效果之外呢,还能给视频加上指定的特效包装。正为我的动销同事捏一把汗, 那接下来我们看看同框对比 omni 和 c dance 二点零谁的效果更好呢?实测下来, omni 的 物理效果确实更加优秀啊,画面风格也更加丰富多变,但中文能力就远远不如国产模型 c dance 了,这些有机材料就能自醒发光,而且 c dance 的 人物位置更加稳定,画面更有影视风格。 目前这面的 omni flash 模型已经正式上线,不过每天只能生成三条视频,你觉得 omni 能够和 c dance 一 战吗?来评论区咱们接着聊。

兄弟们,沉寂已久的谷歌终于来炸街了,就在刚刚结束的谷歌 i o 大 会上,发布了天花乱坠的各种 ai 产品,但真正重点就两个,一个是独一档的多模态能力和超强的 ag 能力。 先来看个最狠的,谷歌发布了全新的世界模型 jimmy nike omni。 你 可以将任何形态的文件作为输入,比如文字、视频、图片、音频一起发给他。 jimmy nike omni 能以任何你要求的形式输出给你, 从此 p 视频就像 p 图一样简单。但如果说 omni 是 无敌的感官,那么同时发布的 jimmy nike 三点五 flash 就是 专为代码和 ag 的 优化的, 它的输出速度达到了同类前沿模型的四倍,每秒狂飙一千五百个 token。 谷歌在现场用全新的 ai 开发平台 anti gravity 二点零展示了它有多逆天。 杰米奈三点五 flash 仅仅持续工作了十二个小时,就从零首写出了一个完整的操作系统内核。它在开发时,后台自动派生出了九十三个 ai 子代理,总 token 成本低于一千美元。而同类型的任务如果交给人类团队,至少需要数月的时间。 更硬核的是这个首出的操作系统,既然能直接加载毁灭战士 doom, 现场就玩起来了。 随后谷歌顺势推出了 gemini spark, 你 可以理解,它是谷歌为你远程部署了一台七乘二十四小时,搭载了 gemini 全套能力的服务器。它能跨越应用,直接打通各种第三方软件。你只要给他一个目标,他自己就能拆解,步骤全自动帮你搞定。 比如自动检查信用卡账单里的隐藏订阅费,把货一记录整理成文档,然后群发等等。最后还有压轴亮相的谷歌智能眼镜,戴上它, jimmy 奶就变成了你现实世界里的专属管家。路过咖啡店,眼镜自动识别,你只要动动嘴, ai 就 把咖啡给你点, 还能实时 ai 导航和同城传译。从这次 ai 大 会上看得出,谷歌正在疯狂地将 ai 模型的能力产品化,毕竟用户真正需要的是能解决问题的产品,而不是 ai 模型本身。第二呢,谷歌之前明显在多模态发力过猛,在 ag 能力方面有点落后于 antropics 和 open ai, 现在眼看 ag 大 爆发,所以他就奋起直追。但即便是刚刚发布的 gmi 三点五 flash, 也依然和这两个头部公司的模型有差距。那么 gmi 三点五 pro 会不会惊艳全场呢?大家可以期待一下。好了,我是阿朱,关注我,让我们一起在 ai 潮头冲浪!

笔画完全跟随动作,写出来的公式也完全正确。谷歌全新 ai 视频引擎金布莱奥米首爆视频版香蕉来了!谷歌这次是瞄准了 siri 下架窗口搬上来的新品。 那么面对一代视频强者,七代是二点零,又有怎样的表现呢?两分钟带你了解这个即将上线的全新 ai。 首先,奥米到底是什么模型?在哪用? 目前它正处于大规模推送或内测阶段。如果你是 g m 两高级定员用户,可能会看到推荐使用选项,这是别向大众发布,应该在五月的谷歌 i o 大 会后就能看到了。为什么要叫它视频版香蕉?因为它继承了当年 nano banana 那 种即插即用,极度精准理解人话的特质。以前出片结果还是抽盲盒,全看概率。 在奥尼,标志着 ai 视频进入了逻辑生产时代,他不再是单纯的在模拟像素,而是在模拟这个世界的运行逻辑。大家最近可能在网上刷到了谷歌爆出的几个演示视频,教授在黑板上写公式和吃意面喝奶油汤。这一段视频展示了奥尼最核心的两个能力,极致的致富精准度和动作逻辑。跟随兄弟们,你们细品 视频里那个老教授在黑板上飞速书写粉笔碎屑、手部关节的自然扭动,甚至写字时的力度感都极其真实。但最让我感到头皮发麻的是,那个公式本身,它是完全正确的。 这种逻辑一致性目前在整个 ai 视频圈是非常领先的。它证明了奥秘不只是在画画,他真的看懂了这段公式。所以,如果你问我,他能带来什么表现?他能让 ai 教学课件复杂的科技演示,精准的产品说明视频从不可能变成一键生成, 但是它并非完美。当设计那种超大幅度极高爆发力的物理动作时,它的表现力确实没有另外两家对手那么激进。 或许你想知道它和苏拉二现在是二点零上比到底谁更强?首先是 opalion 的 苏拉二,它的强项在于它的物理引擎画面冲击力依然是很强悍的,但现在关闭了使用,无论是网页应用还是 a p i 都没法调用了。 然后字节的吸氮是二点零。他最强的地方在于他的饮用系统和角色一致性。你给他一张照片,他能保证在深层的视频里人脸几乎不崩,这对于短视频博主和短剧团队来说是非常棒的。在动作的表现上来说,我们也有目共睹,虽然还没有正式发布调用价格,但目前测试段效果非常恐怖。 正式价格让我们拭目以待吧。以前我们或许觉得 ai 视频就是图个娱乐,但 jamie 阿莫里告诉我们, ai 已经可以处理极其严肃的内容了。虽然他在动作爆发力上还有提升空间,但这种极致的准确性,这是目前专业创作者最缺的东西。那么问题来了,面对这个不仅会拍片,还会算微积分的视频相交,你会用它来做什么呢?

今天凌晨,谷歌 i o 二零二六如期而至,随即宣布 gemini omni、 gemini three point five、 flash 等等一系列新产品。 这是什么?硅谷年夜饭?算粒满汉全席。媒体老师也非常懂事,标题直接起飞,谷歌亲手淘汰谷歌 视频版 nano banana, 全能 ai 创作引擎,全场最大的 c 位,毫无悬念给了 gemini omni。 这玩意号称是真正的全能大模型,能吃进任何形式的输入,拉出任何形式的内容。文本、图片、音频、视频,只要你敢喂,他就敢接, 而且首发支持视频输出,江湖人称视频版 nano banana。 你 看这个排面,劈柴哥和哈萨比斯同台登场,大招跟不要钱一样往外扔。他们说 omni 不是 在简单拼接素材, 他是在理解物理世界。以前的 ai 画个物理现象,重力和动能常常让牛顿想从苹果树下爬起来打人。但阿米不一样,哈萨比斯说他实现了阶跃变化, 氨基酸折叠都能给你干成科学准确的定格动画。甚至你拿个手机自拍,手心里画个圈,他就能立刻给你生成一个黑洞。看起来这不仅仅是降维打击,这简直是从四维空间扔了二象薄, 画面太美,数据太狂,狂到让人觉得好莱坞明天就得集体去送外卖。但这还不够刺激,发布会的另一个高潮是 jammer 三点五 flash。 只要你懂点行,你就知道现在的大模型卷速度卷到了什么地步。 三点五 flash 在 精准测试里,把自家前代旗舰 jammer 三点一 pro 按在地上疯狂摩擦,更离谱的是,它的输出速度直接翻倍,对比 gpt 五点五和 opus 四点七,速度快了四倍有余。这什么概念? 你这边的提示词刚敲完回车,他那边的答案已经糊你脸上了。天下武功,唯快不破, ai 界直接来了个闪电侠。 这还没完,谷歌还顺手倒出了一箩筐的重磅炸弹。 anti gravity 二点零桌面应用直接进化成 agent 的 开发平台。 james park, 七乘二十四小时在线的赛博打工仔。不需要五险一金,不需要情绪价值,只要服务器不断电,它就能给你打工到宇宙热季。 顺带把 jimmy 也改版了,代号 neuralexpressive, 改成算力计费。你以为他在做慈善,其实他在教你什么叫资本的洋谋。 甚至连搞了二十五年的谷歌搜索都迎来了史诗级升级。接入三点五 flash 智能搜索框,自动生成小程序。这一套组合拳打下来,干货密度堪称历年之最。大场发力,寸草不生。 那你说这东西真的这么神吗?往往打榜数据越炸裂,发布会的 ppt 越精美,里面的水分往往就越能养活一太平洋的鱼。 我怀着激动颤抖的心,拿着号称能改变世界的 omni 进行了实测。这需求可太真实了。毕竟咱们干自媒体的,天天盯着各种 ai 视频工具找灵感,就指望他们能帮着出大片,但结果给我看笑了。哎, 硅谷的公关稿还是太保守了。这哪里是改变世界,这简直是重新定义了拉胯。宣传片里是好莱坞质感,随手一划就能变黑洞。小提琴手在雪山和赛博朋克之间无缝切换。物理逻辑严丝合缝。 到了我这呢,我输入几段简单的指令,生成出来的视频,当场给我整出了工伤。说好的理解世界呢?服务员你好, 我想要一杯客了!好的,没问题!这一刻,我都怕他给我念出一段大悲咒来超度我的显卡。那些在发布会上惊艳全场的连贯性记忆力和物理法则,在实测面前碎的渣都不剩。 这不叫接月变化,这叫当场火化。网上的各路媒体还在疯狂吹捧热搜,通稿满天飞,但和实际效果一比,简直是截然不同的两个平行宇宙,那还能说啥了?看完这场魔幻的体验,我算是彻底清醒了。 现在的 ai 圈有一种极其不健康的畸形风气,只要打榜厉害,只要 ppt 做的炫,就能吹成天神下凡。 巨头们在台上拿着特供版的 demo 疯狂秀肌肉,底下的信徒们跟着无脑狂欢。 ai 好 不好用?只有我们这些一个个坐在电脑前疯狂敲着键盘,试图用它来铲除实际价值的用户给出的真实反馈才算数, 你数据再炸裂到了用户手里,变成了一坨赛博垃圾,那他就是毫无价值!请这些 ai 公司收起你们的滤镜吧!面对用户的实测反馈,少吹点牛,多打磨点细节,这才是对技术真正的尊重。这里是起点世界,聚焦最新 ai 资讯,我们下期视频不见不散!

谷歌今日凌晨发布了 gemini, 在 底层逻辑上简直就是一次史诗级的进化,瞬间引发了轰动,我们一起来看看实际的测试效果吧。哈喽,各位小伙伴们大家好,今天给大家演示一下最新的视频模型 omni flash 的 使用方法。 好,这个的话呢,它支持使用十秒啊,然后三十个积分这种方式操作好,那么怎么来操作呢?假如说我们要做这样的一个漫剧效果 好,那么首先第一个我们可以使用分镜啊,这个是我之前做的分镜。好,那么我直接把这个分镜的话呢,放到我的这个提示词里边啊,那么我可以直接到这里艾特一下就可以了。好,我艾特一下分镜,点击确认。好,然后的话呢,我可以直接说 啊,使用啊,根据分镜,或者我把它删掉啊,根据分镜生成动画。 好,然后我艾特一下这个分镜,这个分镜好,可以了。好,然后人物参考,使用这一个人物。好,然后场景参考,场景参考, 再使用一下这个场景。哎,我的场景也有了。好,这样子的话呢,那么就直接就 ok 了啊,然后我们直接来生成好生,呃,动画流畅,然后运镜流畅 就可以了。好,那么就直接点击生成好,这个的话呢,大家就可以看到一条非常运镜流畅的,并且呢有音效的这样的一个画面呢,就可以展示。 嗯,而且它的准确度是非常高的啊,就是没有脱离我们的这一个分镜,所以的话呢,这个是一个非常好用的功能。

哥发布了一个新模型,感性叫 jamie omni, 这颜值视频版香蕉来,先看官方演示。这是 omni 生成的一段视频,教授在黑板前写数学公式,人物公式,光线都很真实。你注意看粉笔灰,它是真的会往下掉的, 有重力有惯性,不会随机飘,既没有手部变形,也不会画面闪烁,画面连贯,特别的稳定。然后是第二个小球跟随轨道往下滑落。这个视频真的能感受到是重力在作用,不像其他视频模型就有种说不上来的奇怪。现在市面上那些 ai 视频工具, space dance, 阿克林他们做的视频是深沉的,你给提示词,他出视频 出来不满意我们去抽卡 jimmy 米不一样,他就可以边生成边编辑的上传一段已有的视频,直接跟他说需求可以摆很多轮。这个逻辑跟其他工具是不是你可以对话了?一个剪辑老师,他能做到这样的事情,是因为他真的懂这个世界, 懂重力,懂历史,所以粉底会掉渣,小头滑落才这么形象。真实的视频更真实。现在 gemini omni flash 已经上线了,订阅了 pro 的 用户可以直接去 gemini 里面使用。

兄弟们,今天谷歌 gemini 生成视频发布了,给大家做个测试,看看效果怎么样。我做的三个主题分别是机械战士打斗仙侠人物打斗迪士尼皮克斯三 d 动画。想通过这三个场景来看 gemini 模型视频能力。接下来我们来看看这两个模型最终的表现,大家各自打分吧。 有请三位选手依次登场。 i don't want to go to school, but it's time to get up sleepyhead fine, i'm going! 各位看官,你觉得哪个好?

万众期待的谷歌最新的视频生成工具今天终于在谷歌 i o 大 会上发布,这个工具完全走了和 c dance 二点零 不同的路线。谷歌说在这次的发布中有三个特殊的能力,第一个能力就是跨媒体的创作能力,这个新工具可以接收文本、图像、音频、视频的各种形式的输入,并将它们自由结合,生成全新的内容。第二次的新的工具展示了重点能力,就是替换功能, 用户可以非常精确的修改画面中的特定元素,例如无缝替换场景的角色,调整局部细节,改变整体艺术风格,切换背景环境,甚至转换摄像机的视角。第三就是强大的生存类,谷歌用了构建世界这个词, 这个新的工具可以打破现实界限,生成复杂动态且富有想象力的各种场景。

怎么用上洁面奶?我给你一个简单实操的方法,只需要三步让你搞懂。第一步,打开豆包勾选,深度思考输入 如何在国内用上洁面奶,而且帮我考虑到地区、网络还有账号的各种限制,我是一个智障,请一步一步的教我。第三,根据豆包的回答, 选择你想要的方式,追问豆包把地多少多少点,展开详细讲讲,你一定可以用得上,快去。

google 这次的发布,信息量大到有点像一口气把一整套 ai 工具箱全倒出来,名字也很多, gamini gamini 三点五、 flash、 gamini spark、 google flow 听着就容易混。 先别急,真正值得看的,其实就两件事,一个是视频生成和编辑,另一个是更强的智能体模型。先看最稀奇的 gemini omni, 它不是普通的视频生成模型,而是能把文本图、 图片、视频、音频一起吃进去,再统一生成或修改画面。最直观的感觉就是, ai 不 只是画一段视频,而是开始改一段视频。 比如让人物碰到镜子时,镜面向液体一样泛起涟漪,手臂还变成镜面反射材质,或者直接把人物改成黑白线稿风格。更绝的是,音频也能参与控制, 要让灯光跟着音乐节奏亮起,这已经不是单点生成,而是跨媒体联动了。 jimmy n o n 最有意思的地方是,它不只会变风格,还会改结构,背景能换成公园小提琴能被移除,摄像机角度还能继续调整,而且可以一轮接一轮的改,细节还尽量保持一致。 它甚至能把飞船替换成种子时钟,红色飞盘保留运动轨迹,但把主体语义彻底重写。更适合落地的其实是教育类内容,比如蛋白质折叠的黏土动画解释,或者让字母表每个字母旁边都配上对应物品这类复杂约束它也能处理。 只是客观说, jimmy nome 并没有到碾压级经验的程度,和 clean、 cds、 二点零这类同类模型相比,优势还需要继续观察。另一边的 jimmy 三点五, 走的是完全不同的路线,它不是拼炫技,而是拼速度和执行力。 google 把它定位成更适合 agent 场景的模型,也就是那种要自己规划步骤、调用工具、写代码、检查结果、持续推进任务的 ai。 它还支持文本、图像、视频、音频、文档这些,输入速度据说比其他前沿模型快四倍。这个信号很明确, ai 正在从会回答走向会干活。 而真正决定下一阶段体验的,不只是模型有多聪明,而是它能不能稳定、快速、连续地把事情做完。关注全球 ai 速递,获取更多 ai 前沿资讯!


硬扛 sedance, 谷歌打造视频版 nano banana 时刻发布 gemini omni 主打极速生成,全模态融合,发布不到六小时,首播,内容创作者已经玩出花了,我来给大家盘点一波。首先有人拿一张自己的照片,配合语音指令, 直接生成平行宇宙版的自己场景、动作、光影全部重建,人物一致性拉满,一次出活。还有人展示了他的物理世界理解能力, 让角色动作产生真实后果。环境随事件响应趋势,逻辑自下演进。第三个已经开始走角色 ip 化路线了,定义一次人物形象就能丢进任意场景, 不同地点、不同动作、不同打光脸和特征,丝毫不崩,还能用语言指令随时切换风格、运镜和特效。第四个更狠,直接拿自己拍的原始视频丢进去,一句话让奥秘重新想象,画面换环境加物体,甚至搞出完全意料之外的剧情反转,几轮自然语言微调就成片。

哈喽,早上好,现在是早上的七点,其实我五点钟就起来了,因为今天欧迷你上线,我就想看一下我的账号能不能有幸的去使用上它。在拍这个视频之前我已经嗯简单的探索了一下了, 所以现在的话呢,可以给大家拍一个视频。首先我准备了一段大概十五秒的一个脚本,脚本里面是包含了创意,然后就设计元素,因为早上试的时候呢啊,放了一个真人参考图上去是不过审的,那么我就把这个形象人物形象的 这些描啊特征我都用文字去让 ai 给我描述出来了。我试过有大概两个渠道是可以用上欧迷你的,详细的话我就视频里面不能讲了,你们自己看就好了。然后,呃,然后的话选择十秒,竖屏参数都是一样,然后把这个内容放上去,我们点开始 一次就呃生成两个哈,这一边是 c 档是二点零的,同样的 c 档是二点零,我们选十五秒,这边可以选十五秒哈,哦, ok, 呃,然后欧米尼这边的效果已经出来了,我们看一下哈,唤醒你的不该是喧嚣,而是对深度的渴望,掌管你的种熟时区 deep moment 咖啡。 然后这一次,呃,点进去之后呢,是要有一个像进度条的一样的东西,就是我可以随意拖动,随意拖动到每一帧的一个地方,然后刚刚我尝试一下这个,这个挺有趣的,就是我拖动到男主角的这个地方,然后跟他说把男主角的衣服改成黄色,其他 五遍,然后直接发送给他。这个就有点像我们在啊制作制图的时候啊,对话框的一个形式,告诉他我在哪里修改修改什么地方,然后就跟我昨天发的一个前三是很相似的,哎,你看他就把这个男主角的衣服改成黄色了。这时候我们回去看一看, c 档是二点零的,还在排队。好,现在 c 档是二点零的效果也出来了,我们看一下哈。 唤醒你的不该是喧嚣,而是对深度的渴望,掌管你的专属时区, deep moment 咖啡, 专注每一滴。然后两个模型对比下来的话, c 档子二点零的运镜还是比较优秀的。然后欧米尼的话呢,它就是中规中矩的一个感觉,在实际应用上面的话呢,它的效果也已经不错了。 呃,今天演示的这个还相对比较简单的,动作幅度小,场景简单。呃,那么在后面的话,还会在实际应用上面去看一下动作幅度大,场景切换的比较丰富的情况下,它的一个表现是怎么样。 讲的再好,实际应用上面的体验感是非常重要的。那么在后面的一个广告片的时候,我也会融入到,如果使用 omini 的 话,它的效果会是怎么样?那么我们下期见啦,拜拜。

gemini 也出桌面端了,我用它做了动画,开发了游戏,还尝试了一系列的常用功能,还真有点平替 codex 的 意思了。就在昨天 google i o 开发者大会上,发布了一系列面向模型搜索、开发者工具和多模态创作的一整套 ai 更新, 有新一代基础模型 gemini 三点五,有融合了 nano、 banana 和 vivo 等模型能力的多款桌面端 agent 的 重度用户。 我们也终于等来了 google 版的 codex itigraphy 二点零,我已经迫不及待想上手玩一玩了,那么话不多说,马上实测。嗨,这里是头哥不请自来的 ai 频道,我们先来看一下它的界面,如果不仔细看,我真的以为自己打开的是 codex。 左边是项目和对话任务,右边是主要的对话窗口,对用过 codex co work 或者其他桌面端 a 阵的工具的朋友来说,基本没有任何的学习门槛。这里可以看到, atigraphy 已经把刚刚发布的 gemini 三点五 flash 集成到了模型列表中, 而且之前 it gravity ide 版本里已经支持的模型也被保留了下来,比如 cloud sonic 四点六,还有 cloud ops 四点六。光是模型种类这一点, it gravity 就 比 codex 丰富了不少。 所以接下来我们就通过几个案例详细盘一盘 it gravity 的 能力到底怎么样。第一个案例当然是制作我们熟悉的 remotion 动画视频,之前的节目里,我们已经详细介绍过如何使用 codex 配合插件市场中自带的 remover 插件制作像这样的动画效果。但 itagraft 有 一个很明显的区别,它并没有自带的技能库和插件市场,所以这里我们先要安装下这个技能。 我们先新建一个项目,然后把 remotion 最佳实践这个 scale 手动安装到项目的点 a 阵子文件夹中。接下来我们就直接输入这段指令,使用 remotion 制作一个介绍 it graffiti 二点零的动画视频,要求浅色主题,将 logo 与 logo 的 配色融入到视频风格中。 输入完成后, a 阵的没有马上开始写代码,而是先开始分析我们的需求以及当前项目里这个 remote skill 的 能力。然后他先给我们生成了一版详细的实施计划。 这一点就和 codex 的 工作方式有着明显区别,因为我们一开始并没有主动开启 autograph 的 计划模式, 但他仍然先进入了计划阶段。从体验上来看, itgraphy 这一点很打动我,所以这里我先检查了一下他的实施计划, 确认整体思路没有问题之后,就让 agent 继续执行,并自动渲染出了视频文件,你看效果是不是还不错?第二个案例我想稍微上一点难度,我们让 agent 使用 react 加 three 点 gs 开发一个三 d 太空设计游戏。 这一次我们直接开启 atigraphy 的 计划模式,先不让它马上写代码,而是让 agent 先和我们讨论具体要做成什么样子。这点就很像 codex 里的计划模式, agent 会一步一步向用户确认游戏细节,比如核心玩法是什么, 是固定视角还是第三人称视角,有没有剧情模式,有没有关卡推进等等。待所有细节都确认完成以后, agent 就 会生成一个详细版的实时计划,确认没有问题,我们就让 agent 继续执行。 经过几分钟的开发,一款打开浏览器就能玩的三 d 太空设计游戏就搞定了。到目前体验下来,我们的感觉是, atigraphy 并不是只把 codex 的 界面复刻了一遍。像这种面对复杂任务时停下来先把任务规划清楚,再一步一步执行的能力, 是现代 a 阵的终端里最重要的能力之一。最后,我们再来测试一些平时经常会用到的场景,比如 codex 里的自动化功能, 它可以让 a 阵子定时执行一条指令,每天帮你检查信息、整理资料或者生成固定格式的简报。而在 atigraphy 里,这个能力叫做定时任务, 它提供了几乎相同的能力,比如,我们可以指定一个每天都要执行的指令,每天早上九点检查 github training 里推荐的热门开源项目并输出中文总结。 创建方式也很简单,你可以像这样在定时任务菜单里直接添加,也可以在聊天窗口里通过杠 schedule 加上这段自然语言描述,直接创建定时任务。 这样一来,它就不只是一个你输入才会工作的工具。甚至在一些固定的标准任务上,它已经几乎可以替代像 openclaw 这样的常驻智能笔了。 下面我还想测一下 itigraphy 能不能生成图片。在 itigraphy 里, agent 也同样继承了自家的 nano banana 生图模型,我们只需要在提示词里明确要求它生成图片, agent 就 可以直接完成图片创作,这个能力对内容创作者很有帮助。 最后, ideography 还带来了动态 sub agents 功能,就是一个主 agent 带领一群专业的子 agent 一 起完成复杂任务。我们可以直接在体脂词里指定使用 dynamic sub agents 创作多个子智能体。 然后 atigraphy 就 会自动启动紫 a 阵特并行处理每项工作。展开右侧边栏,可以看到每一个子 a 阵特都在并行工作中。把复杂任务拆分成多个紫 a 阵特之后,每个紫 a 阵特只需要专注于一个非常垂直的小领域,它的 目标更清楚,上下文更集中,出错概率也就更低。这次体验下来,不敢说全新的上下文更集中,出错概率也就更低。这次体验下来,不敢说全新的 atigraphy 可以 平替 code, 但确实值得你认真尝试一下。 桌面端 a 阵子越来越卷,可实用的工具也越来越多,希望朋友们都可以用上能力更强,成本更低的好工具。智能指手段,人类才是答案。这里是头哥不请自来,我们下期再见,拜拜!