就在五月二十号, google deepmind 的 团队宣布发了一个新的模型,叫做 gemini, 这个怎么念呢? omni, omni, 它们号称这是一款迈向万物生万物的模型的第一步,从视频创作开始,将 gemini 的 智能能力与生成式媒体相结合。咱们来看一下,这到底是个什么东西啊? 哎,初步看了一下,是非常酷炫的一些好像,呃,非常遵循生活物理世界里面规律的一一个视频创作。然后呢?哎,我通过 jimmy 去查了一下,它到底是什么意思呢?什么? 到底?什么叫这个万物生万物?它的意思就是传统的模型是单向的固定组合,比如说纹身图,纹身视频,但是他们这个最新的,嗯,这个产品的意图呢是, 呃,可以输入端,可以是文字、图片、音频,一段视频,甚至是一段物理公式的任意组合,然后它在输出端未来也可以是你想要的任何媒体形式。嗯,怎么理解呢?就是从纹身图,纹身视频可能变成了 视频申图,图,申,文字图,申,视频,物理公式申,视频,就是 create anything from input, 嗯,可能这个还蛮厉害的,但是目前还没有让我们真正的用上。然后它主打的呢一个就是模拟真实世界的物理规律,嗯, 不会让我们觉得就是说,哎,你这个东西,你的视觉好归好,但是你可能不是我们违反了我们真实世界物理规律的这么一个事啊,然后也可以实现连续对话的一个编辑,嗯,大概是这样,不知道咱们什么时候能用上吧。
粉丝950获赞4147

谷歌最新的视频生成模型 omni flash 已经上线了,现在你在 flower 里面已经可以使用它了,那么它最后生成出来的效果到底怎么样?能不能撼动 c 但是二点零的王座? 我们一起来看一下。现在 flower 里面也是支持自定义角色形象了,你可以通过 nano banana 直接生成一个角色的形象,并且可以给他选定与和自定义语音啊。那么比较有意思的地方呢,是它这个有个角色个性的动作啊,它的这个文本呢,就会帮助模型去 呃决定这个角色的这个行为啊。好,那我们废话不多说,我们就来直接测试一下 omni flash 的 这个能力啊。首先我在 type n 里找到了一些案例啊,我用相同的提示词和相同图片去生成这个案例中的这种视频,接下来我就放出前后对比啊, for the empire we will not be defeated。 可以看到跟国内的模型对比其实现在还是有差距的啊,那么谷歌到底是不是在憋个大的,它的 v u 四能不能让它重返这个视频生成的宝座啊?那么这个就是后话了啊。关注我,带你看更多 ai 测试!

笔画完全跟随动作,写出来的公式也完全正确。谷歌全新 ai 视频引擎金布莱奥米首爆视频版香蕉来了!谷歌这次是瞄准了 siri 下架窗口搬上来的新品。 那么面对一代视频强者,七代是二点零,又有怎样的表现呢?两分钟带你了解这个即将上线的全新 ai。 首先,奥米到底是什么模型?在哪用? 目前它正处于大规模推送或内测阶段。如果你是 g m 两高级定员用户,可能会看到推荐使用选项,这是别向大众发布,应该在五月的谷歌 i o 大 会后就能看到了。为什么要叫它视频版香蕉?因为它继承了当年 nano banana 那 种即插即用,极度精准理解人话的特质。以前出片结果还是抽盲盒,全看概率。 在奥尼,标志着 ai 视频进入了逻辑生产时代,他不再是单纯的在模拟像素,而是在模拟这个世界的运行逻辑。大家最近可能在网上刷到了谷歌爆出的几个演示视频,教授在黑板上写公式和吃意面喝奶油汤。这一段视频展示了奥尼最核心的两个能力,极致的致富精准度和动作逻辑。跟随兄弟们,你们细品 视频里那个老教授在黑板上飞速书写粉笔碎屑、手部关节的自然扭动,甚至写字时的力度感都极其真实。但最让我感到头皮发麻的是,那个公式本身,它是完全正确的。 这种逻辑一致性目前在整个 ai 视频圈是非常领先的。它证明了奥秘不只是在画画,他真的看懂了这段公式。所以,如果你问我,他能带来什么表现?他能让 ai 教学课件复杂的科技演示,精准的产品说明视频从不可能变成一键生成, 但是它并非完美。当设计那种超大幅度极高爆发力的物理动作时,它的表现力确实没有另外两家对手那么激进。 或许你想知道它和苏拉二现在是二点零上比到底谁更强?首先是 opalion 的 苏拉二,它的强项在于它的物理引擎画面冲击力依然是很强悍的,但现在关闭了使用,无论是网页应用还是 a p i 都没法调用了。 然后字节的吸氮是二点零。他最强的地方在于他的饮用系统和角色一致性。你给他一张照片,他能保证在深层的视频里人脸几乎不崩,这对于短视频博主和短剧团队来说是非常棒的。在动作的表现上来说,我们也有目共睹,虽然还没有正式发布调用价格,但目前测试段效果非常恐怖。 正式价格让我们拭目以待吧。以前我们或许觉得 ai 视频就是图个娱乐,但 jamie 阿莫里告诉我们, ai 已经可以处理极其严肃的内容了。虽然他在动作爆发力上还有提升空间,但这种极致的准确性,这是目前专业创作者最缺的东西。那么问题来了,面对这个不仅会拍片,还会算微积分的视频相交,你会用它来做什么呢?

jamn 欧米尼翻车了!就在昨天的 google i o 大 会上,全新的视频模型 jamn 欧米尼正式亮相发布之中呢,所有人都期待他能够创作出超越现有视频模型的作品啊,但现实似乎并没有按照大家想象的方向发展,就连 jamn 欧米尼一直强调的真实世界物理规律,在 cds 面前也毫无还手之力。 无论是画面、构图、分镜,还是单纯的生成效果,都显得一塌糊涂啊。讯息能力似乎与 cds 完全不是一个级别, 但詹姆尼真的很差吗?其实也不完全是啊,在连续编辑上,他的表现反而更加出色。以这段视频为例,将画面中的小提琴手所处的场景更换为草地,人物的动作、神态、表情都完整的保留了下来。 将手中的小提琴给去掉之后呢,仍然能够看出前后非常高的一致性。再看这段发布会上演示过的案例啊,经过欧米尼的多轮编辑后呢,人物会根据不同的设定做出不同的反应, 同时保留出真实的物理效果。由此可见, java omni 并不是专门用来做精美短视频的模型啊,更像是视频版的 nano banana, 它可以精准的根据用户指令修改视频,而不是单纯的创作虚拟型作品。 所以,如果你想通过 ai 一 键成片啊,我想 cds 仍然是现在的第一首选。但如果你追求可控编辑、灵活修改,那么 java omni 无疑更加值得尝试。 比 cds 那 种令人惊讶的视觉效果, jimmy 欧尼更像一个可控的视频工作站,你可以反复修改,局部调整,灵活性远高于 cds, 换句话说,欧尼的价值比生成画质本身更加突出。目前你就可以在 jimmy flow 里进行体验了,赶快试试吧!这是我还推荐第五百四十一个神器,关注我,解锁更多硬核 ai 工具。

兄弟们,沉寂已久的谷歌终于来炸街了,就在刚刚结束的谷歌 i o 大 会上,发布了天花乱坠的各种 ai 产品,但真正重点就两个,一个是独一档的多模态能力和超强的 ag 能力。 先来看个最狠的,谷歌发布了全新的世界模型 jimmy nike omni。 你 可以将任何形态的文件作为输入,比如文字、视频、图片、音频一起发给他。 jimmy nike omni 能以任何你要求的形式输出给你, 从此 p 视频就像 p 图一样简单。但如果说 omni 是 无敌的感官,那么同时发布的 jimmy nike 三点五 flash 就是 专为代码和 ag 的 优化的, 它的输出速度达到了同类前沿模型的四倍,每秒狂飙一千五百个 token。 谷歌在现场用全新的 ai 开发平台 anti gravity 二点零展示了它有多逆天。 杰米奈三点五 flash 仅仅持续工作了十二个小时,就从零首写出了一个完整的操作系统内核。它在开发时,后台自动派生出了九十三个 ai 子代理,总 token 成本低于一千美元。而同类型的任务如果交给人类团队,至少需要数月的时间。 更硬核的是这个首出的操作系统,既然能直接加载毁灭战士 doom, 现场就玩起来了。 随后谷歌顺势推出了 gemini spark, 你 可以理解,它是谷歌为你远程部署了一台七乘二十四小时,搭载了 gemini 全套能力的服务器。它能跨越应用,直接打通各种第三方软件。你只要给他一个目标,他自己就能拆解,步骤全自动帮你搞定。 比如自动检查信用卡账单里的隐藏订阅费,把货一记录整理成文档,然后群发等等。最后还有压轴亮相的谷歌智能眼镜,戴上它, jimmy 奶就变成了你现实世界里的专属管家。路过咖啡店,眼镜自动识别,你只要动动嘴, ai 就 把咖啡给你点, 还能实时 ai 导航和同城传译。从这次 ai 大 会上看得出,谷歌正在疯狂地将 ai 模型的能力产品化,毕竟用户真正需要的是能解决问题的产品,而不是 ai 模型本身。第二呢,谷歌之前明显在多模态发力过猛,在 ag 能力方面有点落后于 antropics 和 open ai, 现在眼看 ag 大 爆发,所以他就奋起直追。但即便是刚刚发布的 gmi 三点五 flash, 也依然和这两个头部公司的模型有差距。那么 gmi 三点五 pro 会不会惊艳全场呢?大家可以期待一下。好了,我是阿朱,关注我,让我们一起在 ai 潮头冲浪!

谷歌的欧米尼视频生成模型上线了,我们可以在这个 flow 平台上进行体验,同时 flow 平台也上线了很多的视频和图片编辑小工具, 那么本期视频我就给大家测试体验一下欧米尼模型还有这些小工具。首先我进行测试的时候,模型只开放了 fresh 模型, 目前最高能生成七二零 p 十秒的视频,每个视频消耗三十个点数, umi pro 会员一共有一千个 ai 点数,而且我在使用的时候,它的首帧参考功能还没有上线,所以我就简单测试了几个纹身视频的例子, i will send you back to the dark abyss。 好,提示词所要求的东西都有,但是动作,电影质感还有音效都差很多,可以看一下 c 带是二点零的, 而且在 flow 这个平台,我们可以在下面这里输入提示词,直接对视频进行二次编辑。比如我直接输入一条金枪鱼跳上船,我们来看一下效果, i will send you back to the dark abyss。 他 这添加的内容太生硬了,几乎是不可用的。当然有可能他是 fresh 模型的原因。我们再多看几个例子, 这条视频的话,飞机驾驶是还不错,女主的紧张感和节奏也还行,但最后飞机仪表盘反向了,而且多了一个人。下一个我们试一下著名 ip 加想象力 why won't this stupid code work? 暂停一下,这里电脑里表现的内容太棒了,连代码的说尽都像那么回事。 i refuse to do this? 直接切镜头换风格 anymore why won't 他 这条真人路飞生成的其实挺棒的,这是就中间莫名其妙多出来一个动漫风格的镜头,下一个是变形金刚的镜头, 这个表现就太差了,别说跟 c 站十二点零比了,连快乐马都比不过。 下面是一个著名 ip 加动漫风格, anya will defeat all the villains, 这个表现其实还算可以了,介于 first 和 cds 二点零完全体之间, 下一个是香港电影。如果记忆是一个管头,我希望他永远不回国。起 这个案例就表现的很差了,无论是中文音还是镜头都不符合要求。如果记忆是一个罐头,我希望它永远不会过期。来一个九比十六的变身镜头, 那就再来一次, 感觉能比快乐马好上一些,但是这种动作和特效还是 c 大 师您的拿手好, 再试一下科幻镜头, 这个表现太拉胯了,完全没有电影质感,比快乐马都差远。 总结一下就是 omni, 它的表现肯定是不如 cds 二点零的,但它毕竟还是 flash 模型,不知道它有没有正式版,如果有正式版还是未来可期的。它还有一个优点就是足够的便宜,性价比还是很高的,目前生产速度也快,而且目前还 现那些著名的 ip。 今天除了欧莫尼这个更新之外, pro 这个平台还上线了巨多的图像编辑和视频编辑小工具, 我也帮大家测试了一下,总结一下就是很鸡肋,就是看起来很厉害,实际上就是一些常见的开源项目整合而成的图像和视频编辑工具, 比如说编辑文字动画的呀,还有说像什么手绘转图片,从各个仕图和角度去查看原始的图片,这个就是千问的技术吧,我记得还有什么视频跟随音乐动起来,这样的就适合整活。 还有一个是上传三 d 模型,然后再转化为二 d 平面图片, 它的视频小工具还有一个印象比较深刻的是一个抽帧加抠图加重叠的技术, 其他的图像小工具的话,要不然就见太多了,要不然就完全没什么意义。总结一下的话就是 omni 未来可期,图像工具的话作用不大。 那么以上就是 jimmy 在 本次 flow 上的更新的测试结果了,我个人是比较失望的。好,如果本期视频对你有帮助的话,麻烦帮我点个赞。

谷歌的 omni 模型生成视频效果到底怎么样?经过我们全员的检测呢?先说检测,这个绝对是今年上半年性价比最高的模型,先看视频, 左边是 omni, 右边是 c 点,四二你们自己感受一下,我们给他的提示词呢是一模一样的,这两个模型的效果呢,其实也差不多,所以今天给大家讲一讲我们测试出来最直观的感受啊。首先第一它的整体表现呢,已经可以跟那个快乐马一个梯度的 啊,差不多可以达到这个 sims 二百分之九十的效果,而且他也是这种全模态的参观模型,他可以上传这个文字、图片、视频,包括他的那个声音都是可以的,所以他可以跟那个 sims 二做一个对比。然后第二的话,他特别匹配就做一个生产流程,因为他不是单纯就生成一条视频,他可以不断的去改,不断的去调,去替代, 你们做过的视频你们应该清楚,对吧?我如果想换一个品,想换一个样式,我想换一个模特,我一般都要重新去生成的。但是光比的话,我们可以直接去改变视频里面 的一个元素,这样的话我们可以把我们创作的视频做一些点对点的修改,它会特别的方便。那我们测试的这几天呢,这个点是特别让我们欣慰的,因为其他的模型根本就没有这个功能。然后第三个大点的话,就是它的价格,也就是它的性价比它的区域高, 你去看一下现在国内的模型,包括 c 零十二,包括那个 happy house, 它们的价格对吧?都是一块钱一秒,也甚至有更贵的到幺零八零 p 三四块钱一秒的,这些都有, 但是欧尼的话他让我看到了就像去年下半年那个 solo 的 感觉一样,透视大概还不到我们现有模型十分之一的价格,所以不管是线上线下,我真的很推荐这个新模型啊,大家可以两个去试一下,它是可以真正的把我们的视频生产成本压掉百分之九十的,谁用谁知道。

全网都在吹 gemini omni, 但它最诡异的是,没有模型卡,没有 api 文档,没有官方页面,甚至没有像样发布。一个突然出现在 gemini 应用里的名字,反而可能改写 ai 赛道规则, 时间点也很反常。二零二六年五月十一日,媒体写出,离 googleio 二零二六年五月十九日只剩几天。按常时,这种级别的东西应该高调透明,可复现。现在更像谷歌故意把枪藏在衣服里, 把碎片拼起来,你会发现它可能不是新模型发布,而是一次系统级合并,把 ai 竞赛从谁更聪明改成谁更像操作系统。 omni 更像统一入口与体验,而不是凭空冒出的魔法大脑。 关键判断, gemini omni 大 概率是把过去两年谷歌已做出的能力统一打包,统一入口,统一体验。真正的变化,不是能力新增,而是能力被组织成系统。 时间线其实非常连贯。二零二三年末, jammy 推出。二零二四年初一点五上长上下文与 moe。 二零二四年五月 estra show 实时摄像头加语音。二零二四年末二点零, flash 原声多模态。二零二五年 live 摄像头屏幕共享,再到 vo 三、 amneson 和 flow, 把内容生产串起来。 所以你现在看到了 omni 更像谷歌终于承认,我不是做聊天机器人,我是在做通用 ai 助手系统。谷歌最强的也不是单点能力,而是把能力塞进你每天离不开的设备和服务里。 把谷歌这套能力粗暴拆成四层堆站推理层,做长文档代码复杂工具快速层,用 flash 跑便宜快的任务实时层, flash live 做语音加视觉的流逝交互端侧层 nano 在 手机本地跑低延迟数据留在设备 把四层,再加上 vivo 三和 amg, 再统一路由到同一个 gemini 入口。手机、浏览器、电视、车机,甚至未来的眼镜。你会突然意识到,这不是某个模型更强,而是一个系统随时随地在你身边。 更扎心的是你不用等 i o, 它能做的事其实早就能做了,只是分散在不同名字里。手机实物 live、 摄像头与眼镜原型、 vivo 三电影感、视频 flow、 内容流水线都已经出现过。 真正让人背脊发凉的,不是它会不会再多一个功能,而是当谷歌把这些能力装进一个盒子,普通人会第一次感到, ai 不是 工具,是环境。 对开发者来说,信号也很工程化。 live api 支持七十种语言,允许用户打断,支持函数调用,能接搜索,还有客户端安全用的短期 token。 这些细节不像舞台花活,更像冲着大规模上线去的。 那模型本身到底行不行,看公开基准,百分之四十四点四 h l e 无工具百分之七十七点一 a r c a k i 二,百分之九十四点三 g p q a diamond 百分之八十点六 s w e bench verified 百分之六十八点五 terminal bench 百分之八十点五 m m m u pro 二千八百八十七楼 labco bench 这已经是前沿圈子, 但比赛不止拼分数, gbt 四 o 的 端到端语音体验仍强,还公开过延迟,最低二百三十二毫秒,平均三百二十毫秒,谷歌没给同级实时延迟。 antropica 在 高端代码与企业推理能打 metahot 走开放权重多模态路线, 更准确的结论是,谷歌未必宣布自己赢了,但他把能力加入口加分发面凑齐了。真正让对手难受的是 android、 chrome tv、 车机、 workspace。 这些默认入口一旦统一成一个助手层,竞争维度就变了。 风险也必须说,幻觉率没有官方统一数字。我们已知的是 simple key verified 里 jama 二点五, pro 拿到五十五点六, f 一, gpt 五是五十二点三, gpt 四 o 是 三十九点九,这说明短事实,问答更准,但不等于实时视频,助手不会看错。 更现实的是隐私与安全,全能助手能看你所看,听你所听,跨绘画记忆在应用里替你操作,还能生成以假乱真的媒体。若进入常开摄像头加麦克风的眼镜形态,隐私就不只是你一个人的问题。 数据保留也不是一句话能概括。 workspace gemini 据说不用于训练且不人工审查。 cloud 有 零保留选项,但消费及 gemini 策略不同,部分数据可能保留长达三年。同一个 gemini, 不 同入口规则完全不同。 回到竞争格局, openai 有 每周九亿活跃用户的 chat gpt, 但谷歌不需要你装新应用,它已经在安卓、 chrome、 google tv、 车机、 workspace 里。如果谷歌拿下默认助手, ai 就 从你打开的应用变成你生活的基础设施, 结尾留给你。你更想要这种随时随地的全能助手,还是更怕它太懂你?当 ai 从工具变成环境,选择权,默认设置和退出机制可能比下一次模型发布更重要。

如何把谷歌的 gemini 免费的安装到你的电脑手机上,并且呢,不用联网也可以使用,也不用担心数据泄露,也不用支付会员费用,答案就是安装它们的开源模型 gemma。 那 gemma 又是什么呢?和 gemini 虽然是两个名字,但是它们本质上都是同一个东西。 gemma 是 gemini 的 开源模型,也是 gemini 经过简化之后的模型。这里面要讲一个大模型为什么叫 gemini, gemini 经过简化之后的意思。 二零二三年,谷歌为了应对拆 g p t 带来的生存威胁,谷歌合并了内部两大顶级 ai 实验室, 谷歌 brain 和 deep brain, 那 这个就是谷歌 ai 版图上的双子星。其实在拉丁语里面, gemma 就是 gemini 这颗大宝石切下来的一块儿小明珠。打个最简单的比方,网页上那个无比强大的 gemini, 就 像城市里面的中央供水系统, 水流极其的庞大,但是你必须连上水管,也就是连上互联网,并且用多了,人家是要按流量收你费用的。而 gmail 就是 谷歌免费送给你的一台满级配置的高端净水器, 虽然出水量不如水厂大,但是它完全免费,完全是属于你自己的。在最新发布的 jam 四家族里面,同样支持多模态,也就是它既可以看图,也可以听懂声音,还可以写代码。 点到这里,你肯定会问,谷歌是来做慈善的吗?为什么要把一个模型免费放出来呢?那这样子谁还会去充 jamie 的 会员费呢?这个其实是谷歌一个极其高危的羊毛,想象一下,谷歌现在建了一栋无比豪华的写字楼, 如果他把内部的办公空间完全免费开放,让所有的创业者出创公司全部搬进来,表面上看他亏了租金,但实际上呢?当整个商业生态都用他的标准写代码,他就掌握了 规则制定权。等这些小公司项目做大了,需要更强的算力了,自然就会购买谷歌云服务,或者租用顶楼收费的 vip 会所。 另一方面,谷歌面对试图垄断闭源生态的 openai 和开源大户 meta, 如果不把 jama 拿出来免费送,那整个 ai 时代开发者生态就会被别人拿走。所以免费送模型本质上就是为了抢夺未来十年的技术话语权。 那这个免费开源神器到底适合谁呢?首先,对于做科研、商业分析、金融投资的朋友就特别合适,因为自己手里面有大量未公开的研报和财务数据,根本不敢上传到网上的 ai 里。而像 jam 这样部署在本地电脑的开源模型就是他们最好的选择。 而最新发布 jam 四有四个版本,就像小杯、中杯、大杯、特大杯,那到底选哪个好呢?这条视频就直接告诉你答案,手机就直接选小杯,普通电脑选中杯,高端电脑选大杯, 企业级的就选超大杯。如果你不知道你的电脑是什么型号的,那就选中杯。那如何安装这个开源大模型呢?建议去欧拉玛的官网上下载,注意一定要下载带 it 版本的, 它代表了是能够听懂人话的指令微调版,如果你在安装的过程中出现问题,建议搭配豆包使用。这就是本期的视频啊,关注我,带你了解更多 ai 内容!

谷歌今日凌晨发布了 gemini, 在 底层逻辑上简直就是一次史诗级的进化,瞬间引发了轰动,我们一起来看看实际的测试效果吧。哈喽,各位小伙伴们大家好,今天给大家演示一下最新的视频模型 omni flash 的 使用方法。 好,这个的话呢,它支持使用十秒啊,然后三十个积分这种方式操作好,那么怎么来操作呢?假如说我们要做这样的一个漫剧效果 好,那么首先第一个我们可以使用分镜啊,这个是我之前做的分镜。好,那么我直接把这个分镜的话呢,放到我的这个提示词里边啊,那么我可以直接到这里艾特一下就可以了。好,我艾特一下分镜,点击确认。好,然后的话呢,我可以直接说 啊,使用啊,根据分镜,或者我把它删掉啊,根据分镜生成动画。 好,然后我艾特一下这个分镜,这个分镜好,可以了。好,然后人物参考,使用这一个人物。好,然后场景参考,场景参考, 再使用一下这个场景。哎,我的场景也有了。好,这样子的话呢,那么就直接就 ok 了啊,然后我们直接来生成好生,呃,动画流畅,然后运镜流畅 就可以了。好,那么就直接点击生成好,这个的话呢,大家就可以看到一条非常运镜流畅的,并且呢有音效的这样的一个画面呢,就可以展示。 嗯,而且它的准确度是非常高的啊,就是没有脱离我们的这一个分镜,所以的话呢,这个是一个非常好用的功能。

没有啊,朋友们,谷歌更新了一大波东西,今年呢,我们也派出了我们团队的小伙伴去到了美国的 i o 现场,并且第一时间全部上手实测。然而,我们掏出了你真正最关心,真正有用的东西, 当然,想知道它全部更新的朋友,我也做成了一张 html, 分 别列出了它的更新点,使用条件,上线时间,另外也整理了免费的使用渠道。也感谢抖音科技、抖音精选和谷歌的邀请,来点好收藏关注、赞,我们直接上效果, 输入视频文字,再让它改一改,这就是谷歌发的第一个大货,欧米全模态模型。 全模态的意思就是你可以输入包括文字、图片、视频、音频的各种模态,他也可以生成这些模态的内容。听着很猛啊,不过大家肯定还是想知道,所以跟 cds 二点零比起来怎么样呢? 来同样的一个现场摇滚演唱会的一个提示词,纹身视频的效果,欧米是这样的, 它做到了生化同步,而且最长十秒时长,运动起来看起来也比较自然。不过我们再看 cds 二点零, 它的人物状态和画面真实感更自然,尤其是摄影机的这种手持运动,现场感会更强,光影和美学整体的氛围都更好。 what? 怎么回事?这也是我的第一反应,但是我发现它俩还不能这么比。 cds 二点零呢,是强在纹身图 omni 呢,更像能够输入任何东西进行编辑和生成的一种多功能编辑模型, 并且一致性保持的很好,他就有点像视频版的 nano banana pro。 所以呢,我们就发现了一个有意思的方向,实拍结合,这是原视频,给他加一段提示词,他就噔 以及再给他加特效加元素,换镜头都非常稳定。再比如这种修仙剧的制作, 或者给你的 vlog 加上特效跟踪,效果很好吧,这才是欧米尼正确的打开方式,所以它就非常适合那些有拍摄技巧和导演思维的创意小天才们。第二,闪电侠 jimmy 三点五 flash, 它是谷歌这次更新的一个主力模型,主打 a 阵的能力和快,并且呢,作为 flash 版本,编码能力已经超越了上一代的三点一 pro, 但是 我们不管它是 flash 还是 pro, 只要你是新模型,我就得拿你跟最好的比对吧?所以呢,我也直接拿它跟 gpt 五点五做了实测对比,没有想到它还是有点能打 的。那这是我让 jimmy 和 gpt 五点五分别出的五十个电商网站的 svg 图标,并且要求它生成出来的这个应用我们是可以直接下载 svg 的, 然而结果是 g p t 的, 这个是不能下载的。但是 jimmy 的 网站图标效果你看其实也很不错,最关键的是它可以下载。 然后第二个我做了一个换装应用,要求呢,可以一键试穿不同朝代的这个传统服饰搭配妆容。那 jimmy 的 效果呢,就是真的可以把用户上传的照片它作为内联数据传进去,然后可以真的帮我们生成,效果也在这个范围内吧。 那 gpt 呢,基本上是只做了个样子,没有任何的图片功能,而且在 gemini 里面还有一个好处是它跟 youtube 的 联动,那这是我让他们生成。根据我上一期 codex 那 个 youtube 视频生成的教程交互网站 gemini 三点五 flash 生成的效果还是不错的, 那 g p t。 五点五生成的样子也不错,但由于它没有办法真的看 youtube 内容,所以拉了。不过这次 jammin 三点五 flash 的 世界知识和抽象推理明显就弱了一档。比如说我问了一个人类为什么会需要音乐这个问题,三点五 flash 的 回答明显要更加刻板一点, 而且它最终还要问我们倾向于什么。而 gpt 五点五非常流畅的列出了各种典故的同时,抽象出了音乐本质上是一种情绪编程语言,总结出语言负责传递信息,而音乐让人类进入同一种状态。 所以三点五 flash 相当于降了一定的智慧。但是呢,它提高了干活的能力和效率,我将其称为最快打工仔。 如果大家想要更强的智力,只有期待一下三点五 pro 了。想当年二点五 pro 的 智慧也是非常让人惊叹的。当然要看他的 a 帧的能力,还得让他在 a 帧的场景里用 anti gravity。 新发布的 anti gravity 其实分成了两个产品,变成了跟 codex 非常类似的这种独立桌面应用,以对话框和这个多个 a 政的任务的管理为主。它没有那个编辑器了,原来带编辑器的那个 ide 拆出来了,叫做 anti gravity ide, 所以新版呢,也更适合普通用户来用了。它里面既有 cloud 四点六,也有最新的三点五 flash。 那 我呢,测试了一个需要读取本地的客服聊天数据,然后做一个分析,生成图表,最终再生成报告和培训 ppt 的 一个案例。 antigravity 是 真的快,这好几个产物的任务它只花了不到四分钟。那最后快速聊聊,国内暂时用不着,但我觉得挺有用的小功能。 第一,谷歌地图可以自然语言来问路了,那第二, youtube 可以 自然语言来问答案,并且帮你找到视频对应的那一段,那第三,谷歌搜索的 ai 模式更好用了,还能帮你直接出一个互动应用。第四, java 的 auto 会员会自带一个云端龙虾画的 agent jack。 与此同时,我们的小伙伴也在旧金山达到了无人驾驶的出租车,威猛没有辅助的司机。而且比较好的是它内部的交互都是可以用中文完成的,据说感受还是比较神奇的。好了,那总之,这是一个 a 证的时代, 关于怎么用 a 证的帮你干活,我们也会继续出实用教程,记得点赞收藏关注,还有在抖音精选 app 点点推荐,我们下次见了。

家人们,谷歌这次真杀疯了,专门拿姚明,这是要直接掀了视频生存领域的天花板啊!以前做视频跟搭乐高似的,得一块一块慢慢拼,现在他直接给了你一座会思考的乐高魔法工厂。你就跟他正常聊天,他就能懂物理、历史、生物、 文化这些现实世界的东西,然后直接生成或者编辑任何视频有五个最炸裂的功能,你现在就能用一懂真实物理,玻璃弹珠碰撞、旋转、反弹,完全符合现实。二、人脸永不崩坏定义一次 角色就能把它放到任何场景,做任何动作。三、像编辑拆解 g p t 一 样编辑视频,一句话,换背景换人物加特效。 四、上传图片,应用任何风格做成黏土动画,模拟蛋白质折叠,只要你能想到。五、视频不再是死文件,聊天就能改角度、光线、物体,甚至故事情节。这是世界模型第一次真正进入消费级产品,它不是在真诚像素,它是在模拟一个连贯的、有物理逻辑和语义的世界。现在就打开 jimmy 应用试试奥秘 flash, 快 去试试,你会回来,谢我的!

随意变换眼镜款式, 根据路线生成视频 变换场景, 把动画场景。 i still think dreams is kind of underestimated it actually works so incredibly well especially when you pair it with gen ai 把写实场景变动画。

重磅首发谷歌这个新模型大家有没有遇到过?就是你上传一条视频,然后去复刻爆款的时候,他会给你拒绝掉,他会报错,说这个什么什么违反相关规则啊,大家有遇到过吧?我来给大家讲一下这个问题怎么解决,以及是什么什么个情况啊?首先这是当时我在抖音上找的一条这个人家真人实拍的视频啊,然后我去 拿过来复刻,他是正常的去报错吗?你看他真人报错我们我当时就在想是不是因为它里面有这个 字幕啊,他在报错,然后加上有水印什么的,然后就把水印去掉了啊,然后我又试了一下,他不行,结果呢?啊,然后我就找了一条我自己实拍的这个呃,一个一个产品展示的视频吧,然后里面是没有字幕没有水印的啊,就是很正常的手机实拍的,结果他也不给我用,但是我在这个后面再讲啊,然后呢, 不给用之后我又上传了一张我自己的人脸去实拍的视频去让他复刻,他依然是不给用,然后我又去找了一个这个,你看这是我现在复刻的啊,复刻成功的是什么样的?这是原视频,原视频是这样的, 原视频是极梦的,是 cds 二点零做的视频, ai 的 啊,然后我把它复刻一下就成了,我现在这个是可以成功的了, 给大家看一下啊效果,这是我们店里的招牌,要煮二十分钟以后才能吃,这是我们直播间的爆款阿力哥,多个赞吗?谢谢,赶紧吃吧,其实这个生吃才好吃,就像刺身一样。哥,这美女也是我 ai 生成的,效果还不错吧?然后给大家讲一下,呃,大概是个什么意思啊?其实现在意思就是你 胜成失败不是因为你的人脸不支持有什么违规,而是因为你上传的参考视频有问题。谷歌这个更新之后,他仅支持 ai 的 视频去作为一个参考视频。你看我这条成功的就是 ai 的 视频,包括我这是,这是 ai 的 视频啊。 呃,如果你是用就是真人实拍的,其实就个什么意思啊?我说简单点,就是谷歌前两天不是发布了说就是以后所有的图片啊,视频都会包含 那个隐形水印嘛,就是谷歌的水印,我们当时觉得它是一件坏事,现在反而看来它是一件好事。因为如果这个视频不带 ai 的 水印,谷歌它压根就不给你,有它不给你去做视频编辑啊,能理解吧? 同时我也测试出来了,就是说,呃,除了谷歌自己的视频,你可以拿来作为参考,你也可以去把积木呢,可怜呢。这些视频只要是 ai 生成的视频,谷歌它那个, 呃,自己会审核一下,应该是里面会检测一下,只要检测出来是 ai 生成的素材,你就可以拿去作为这个参考。直接编辑啊,如果是真人实拍的,如果是真人实拍的,你就是不能用的。但是也有一种情况就是我这这种真人实拍的,一个没有人物出镜的,他反而可以啊,你看一下, 我这个是没有人物出镜的人物直接美女带货。图中视频它也能出来个效果啊。 you have to try these amazing soup dumplings。 不 稳定啊,这个要抽大概率还是不行的,不稳定。所以最好的办法就是你去找那些个 ai 深层的爆款素材, 像 c box 不是 成本高吗?但是它效果好,你可以把 c box 的 拿过来,然后用这个欧米尼复刻一下。

google 新发布了 omni 视频模型,效果不错,基本可以平替 cds 二点零。但是有个新问题就是输出视频有水印,有没有办法可以去掉?答案是,有的兄弟,有的 直接看效果。左边是原版,右边是处理后完整竖屏画面。左右对比,你会看到右下角水印区域明显变干净,整体画面不受影响。 整个流程基于开源项目 gamemini watermark remover 改造而来。原项目只支持图片去水印,我把它扩展到了视频流程,分四步, 用 f, f mag 抽出 p n g 针,从前几针里定位水印,对每一针调用核心,与 move watermark 做反向 alpha blending, 最后用 f f m p 重新合成视频,并保留原音轨。 这里踩到第一个坑。 s t k 的 标准检测主要面向官方图片尺寸,遇到七田二十 x 一 二八零这种视频针会返回 no watermark detected。 通俗点说,官方的水印检测只认识固定尺寸的图片,视频针的尺寸不在他的目录里,所以他找不到水印。解决办法是跳过官方检测,自己写一个扫描逻辑,把视频针的右下角区域切成小块,逐个和已知的 gemini 水印图案作对比,找到最匹配的位置。 第二个关键是 alpha gain 默认强度容易过度扣除,出现暗色心形残影,强度太低又流水印。我的做法是量周边亮度,再试几个 gain, 让水印中心区域的亮度尽量贴近周围背景。实测下来, alpha gain 设成零点六,是个不错的经验值。 最后的经验是视频清水印。真正重要的是固定水印的工程化处理检测,一次复制 frame buffer, 批量反混合再重组。对于七十二秒一七三零帧的视频,总耗时大约一百秒,基本可以进入可复用流程。没用 ai 等于 ai 没用。我是阿星,下次见。

谷歌昨晚扔了一枚重磅核弹,但真正大的可能不是 openai, 而是你我手机里的每一个 a p p。 五月二十号凌晨呢,谷歌 i o 大 会连发三款的重磅产品, jimmy 欧米视频模型、 jimmy 三点五 flash 超高速模型,还有能在后台自主干活的助手 ai 的 spark 詹姆奶应用,月活冲到了九亿,一年翻了一倍,搜索 ai 模式用户超过十亿。但我今天不想只跟你复述参数,我想换个角度聊聊这三个产品的背后,一场正在发生的权力转移。 先说两个模型,詹姆奶欧米是谷歌目前最强的多肽系统核心,就一句话,从任何输入生成任何输出, 你给他文字、图片、视频、语音,他能够生成视频,还能用对话的方式进行改画面、换背景、换角色、换风格,一句话的事。 而且它不是纸堆画面,它用谷歌的物理知识做底座,它模拟重力动能、流体动力学这些真实世界的物理规则。这么在三点五 flash 呢,走的是另外一条路, 极致的速度和低成本输出速度呢,是 gpd 五点五和克拉的 opus 四点七的四倍,每秒有两百八十九个头,肯生成成本呢,只有同类前沿模型的一半或者是三分之一。 谷歌现场展示了一个炸裂的场景,九十三个智能体并行工作十二个小时,从零写出一个完整的操作系统的内核消耗还不到一千美元 a p i。 的 一个额度,现场还直接运行了一款三 d 游戏,非常非常的炸裂。 但这里我要说一句可能更扎很多人心的话,模型跑得越快,视频生的越真,普通内容创作者的存在感就越弱。这不是危言耸听,谷歌已经把 omni 免费接入了 youtube 的 shots, 你 想想看,以后刷到的短视频,可能一半是 ai 生成的。你费劲拍三天剪出来的片子, ai 三秒就生成了,你的优势在哪里? 那谷歌砸一千八到一千九百亿的美元搞 ai 的 基建,到底图什么呢?答案是,它要把 ai 塞进你的手机、浏览器、眼镜和生活的每一寸裂缝。新发布的 spark 智能体能,二十四小时后台运行,帮你监控邮件、整理文档、跟踪任务,不需要你盯着屏幕。 谷歌管这个叫做搜索进入智能启时代,但说白了,他在做的事情就是让用户从自己动手变成下达指令,然后等结果。这个转变一旦达成,过去靠用户停留时长吃饭的所有产品、社交内容、电商都得重新洗牌。 这也是我之前讲到腾讯股价下跌时提到的逻辑, ai 强的不是某个功能,是用户的时间结构。所以这场发布会真正让我警醒的不是谷歌有多强,而是一个已经加速到来的趋势, ai 负责生成,人类负责判断。 ai 负责效率,人类负责连接。 昨天是图片生成,今天是视频生成,明天可能就是全场景的 ai 代理。我讲过很多次,包括红山的峰会也说过, ai 不 卖工具,只卖结果。 当 ai 把结果做得越来越快,越来越真,普通人还剩下真正值钱的就两样,你的审美判断力和你客户之间那层真实的信任连接。这也是我们做无相机摄影一直坚持的逻辑。我们不做通用 ai, 我 们是帮实体店的老板把最复杂的视觉能力封装好, 只需要拍一张照片,不需要下达指令,都可以来去生成四 k 高清的商拍大片和文案。技术上的事让 ai 来做,你看一眼觉得行还是不行,怎么用更好,这事只有你能做。 谷歌把 ai 往世界模型推,我们把 ai 往帮老板省时间来拉。方向不同,底层逻辑一样, ai 负责效率,你负责人情,你负责关系。 五月二十一号晚上八点,我将在人大商学院分享我们的产品,欢迎到我的直播间一起聊聊。我是明哥,关注我,陪你一起看懂 ai, 用上 ai。

最近呢谷歌发布了全新的 ai 视频生成大模型,也就是 jimmy 欧米尼是这样的一个模型,那么在官方的宣传页面里面可以看到这个模型呢,它的生成效果是非常好的,包括各种的动作, 各种的物体的稳定性都是非常好的。今天呢来实际测试一下它究竟具体的一个效果怎么样啊?我们呢可以先看一下别人制作的一个关于大模型对比的一个效果, 使用的呢就是谷歌新发布的这个欧米尼模型,跟我们国产的这个 c 弹子二点零的一个对比, c 弹子二点零呢是目前来说全世界范围内啊,它的效果是最好的。 然后呢我们来进行一个对比,看一下它的效果,究竟它的距离啊有多少?大家看一下这个整个的一个视频,那么上面呢是谷歌的模型,下面呢是 c 弹子二点零的,咱们看一下它跳水的这样的一个动作啊,非常的不自然,好再看一遍, 好看到这里啊已经落水了,然后呢他又重新回到半空中,并且呢这个人物的整个的一个姿势啊,非常的怪异啊,跟我们的 c 弹 z 二点零是完全没有办法比的,可以说在人物动态上, c 弹 z 二点零可以说非常的真实和非常自然。下面呢还有更多的一个案例,比如说像这种 双人就是两个角色进行一个大范围的移动啊,很明显的可以看到 c 弹子二点零呢,他的整个的一个环绕运镜和慢动作,对吧?和一个细节的整个的一个姿势啊,动态非常的流畅自然。上面呢就不用说了,非常的死板,其他的包括还有这种运动镜头的 啊,一样的运动镜头的 c 弹子二点零呢,同样的大家可以看到非常的自然,对吧?上面呢 整个的你看整个的动作,整个的非常的怪异,这个呢是网上别人的进行的一个对比,那么基本上不用咱自己的测试啊,非常明显可以看到 这个谷歌的模型完全跟这个 c 档三点零完全没有办法比,所以说呢 c 档三点零虽然说现在啊价格比较贵,但是贵有它的贵的一个道理啊,它的效果确实非常好的。那么下面呢给大家说一下咱们如何去 使用这个谷歌的新的大模型,现在呢谷歌模型咱们可以免费去用,这个呢,虽然说他效果没有那么好,但是啊他免费用咱们是可以去用一下的,咱们在这个谷歌呢直接搜索这个 flow, 在 这个平台呢咱们直接可以免费去用的,咱们直接打开一下,来到他的一个账号的这个页面主页,大家呢可以去登录一下,登录一下之后呢咱们可以看到在这里啊去选择这个具体的创作模式啊, 它默认呢是这个图片模式,大家可以看到,那么咱们把它选择视频模式,然后在下面呢就有这个具体的整个的模型的一个选择,那么谷歌的模型呢是 vivo, vivo 就是 vivo 三点一的模型,那么最新的就是最上面这个呢就是最新的欧米尼 flash 这样的一个模型啊,咱们可以直接去选择,那下面呢秒数啊,最长是十秒钟,上面呢这个生成的比例选择,这个九比十六 真和素材是什么意思呢?比如说你上传一个素材呢,上传一个图片,让他模仿这个图片里面的人物的长相啊之类的,这个真呢就是首尾针,对吧?首尾针去生成中间动态的一个视频。 好,咱们选择素材就可以了,这里呢选择好之后直接去书写咱们的题词,直接去发送。那么我之前呢也给大家做好了一个这个视频,这个视频呢就是一个女孩在滑板,就是在场地去做滑板滑板动作这样的一个视频啊,大家可以看一下整个的动作,我感觉啊 非常幅度非常的小,而且他的一个整个的动作非常的不自然,所以说呢还是大家呢可以去试一下生成一些动画动作幅度比较小的这种视频还是还是可以的,但是呢像这种大范围的动作 确实啊是不太适合的,在这个 flow 里面呢,大家直接可以免费的去生成,那么现在呢他是有送的,有这个积分。好,大家可以去测试一下。

上次我期待快乐马视频模型能给字节及梦上点强度,结果它也不便宜,我直接气坑了。这次谷歌 omni flash 新模型上线,我亲自试了才敢说 可以平替,能达到百分之八十效果,而且性价比是有了,效果比想象的好。算力资源充足,几秒生成原声七二零 p, 可免费升一千零八十 p, 这还只是 flash 版, pro 版更强,海鲜市场懂的都懂,成本低到忽略。