朋友们,谷歌在最近结束的 i o 大 会上发布了一个重磅产品 germany omni。 你 可能听说过 ai 视频生成这个领域,但是呢,最近有一个关键的变化要留意此前 open ai 旗下的扫转二,在今年三月份正式关闭 ai 视频生成的赛道,现在正处于一场重新洗牌期。 而谷歌强调了它这次发布的三个能力。第一呀,跨媒体创作 奥姆尼可以接收文本、图像、声音、视频等任何形式的输入,它们可以自由的组合形成全新的视频内容。用谷歌的话说,这是第一个可以从任何输入生成任何输出模态的大模 型,而率先输出落地的形态是视频。你可以直接用一段音乐和一张图片,让 ai 去帮你生成一段完整的视频,甚至可以把你自己的声音加进去,让 ai 用你的音色来进行配。 奥尼支持用户创建和自己的外貌与声音相似的自定义的数字形象。第二呢,是高度可控的编辑以前的 ai 视频工具,你输入一段,描述它,生成一段视频, 但你想要改某个细节,你得从头再来。奥尼不一样,它可以做到精准的替换。你上传一段自己拍的视频,只用一句话的指令,奥尼就能无缝替换场景中的角色,调整局部细节,改变整体的艺术风格。 甚至呢,能把你散步的场景变成充满戏剧性的画面。这意味着视频创作从一次性生成变成了可编辑的操作,像修图一样,可以一点一点的进行修改。第三,构建世界模拟,被谷歌定义为世界模型, 它内置物理模拟引擎,具备对重力、动能、流体力学等物理规律的直觉理解能力,通过视频模拟出符合物理规律的真实世界行为, 不是简单的从训练数据里去找相似的画面拼凑,而是从简短的提示词出发,生成连贯的视频趋势,这才是谷歌真正的野心所在。模型不仅能够生成视频,还要去理解画面中的物理关系、运动关系和场景逻辑。那这个路线和此前市面上的 ai 视频工具有什么区别呢? 说实话呀,此前行业的头号玩家大多集中在快手的可灵、 ai 字节的 cds、 二点零等模型上,它们以深层逼真的视频内容为擅长,品质相当出色。而装备呢,则走了一条不同的道路,它更强调对于镜头的精准控制。本质上呢,是一套包含 ai 生成与编辑功能的工具级, 面向的是专业的导演和艺术家,更侧重于创意的操控,而非纯粹的从零生成。而你的打法更接近于你给出各种各样的素材和指令, 系统自主的解析信息逻辑,然后模拟真实物理规律,最终生成符合物理规律和现实逻辑的视频。它更适合具有具体素材和需要精准控制的创作场景。那么,这对于创作者来说意味着什么? ai 视频制作的门槛在持续的降低, 而可选的工具风格差异也越来越大,创作者的核心任务不再是学会哪个 ai 工具,而是搞清楚你的创作风格更适合哪种技术路线。关注我, ai 时代不迷路!
粉丝1.9万获赞10.5万

兄弟们,沉寂已久的谷歌终于来炸街了,就在刚刚结束的谷歌 i o 大 会上,发布了天花乱坠的各种 ai 产品,但真正重点就两个,一个是独一档的多模态能力和超强的 ag 能力。 先来看个最狠的,谷歌发布了全新的世界模型 jimmy nike omni。 你 可以将任何形态的文件作为输入,比如文字、视频、图片、音频一起发给他。 jimmy nike omni 能以任何你要求的形式输出给你, 从此 p 视频就像 p 图一样简单。但如果说 omni 是 无敌的感官,那么同时发布的 jimmy nike 三点五 flash 就是 专为代码和 ag 的 优化的, 它的输出速度达到了同类前沿模型的四倍,每秒狂飙一千五百个 token。 谷歌在现场用全新的 ai 开发平台 anti gravity 二点零展示了它有多逆天。 杰米奈三点五 flash 仅仅持续工作了十二个小时,就从零首写出了一个完整的操作系统内核。它在开发时,后台自动派生出了九十三个 ai 子代理,总 token 成本低于一千美元。而同类型的任务如果交给人类团队,至少需要数月的时间。 更硬核的是这个首出的操作系统,既然能直接加载毁灭战士 doom, 现场就玩起来了。 随后谷歌顺势推出了 gemini spark, 你 可以理解,它是谷歌为你远程部署了一台七乘二十四小时,搭载了 gemini 全套能力的服务器。它能跨越应用,直接打通各种第三方软件。你只要给他一个目标,他自己就能拆解,步骤全自动帮你搞定。 比如自动检查信用卡账单里的隐藏订阅费,把货一记录整理成文档,然后群发等等。最后还有压轴亮相的谷歌智能眼镜,戴上它, jimmy 奶就变成了你现实世界里的专属管家。路过咖啡店,眼镜自动识别,你只要动动嘴, ai 就 把咖啡给你点, 还能实时 ai 导航和同城传译。从这次 ai 大 会上看得出,谷歌正在疯狂地将 ai 模型的能力产品化,毕竟用户真正需要的是能解决问题的产品,而不是 ai 模型本身。第二呢,谷歌之前明显在多模态发力过猛,在 ag 能力方面有点落后于 antropics 和 open ai, 现在眼看 ag 大 爆发,所以他就奋起直追。但即便是刚刚发布的 gmi 三点五 flash, 也依然和这两个头部公司的模型有差距。那么 gmi 三点五 pro 会不会惊艳全场呢?大家可以期待一下。好了,我是阿朱,关注我,让我们一起在 ai 潮头冲浪!

今天凌晨, ai 圈迎来重磅动态,就在今早,谷歌开发者大会正式上线 gemini 三点五 flash 模型。按照官方公布信息,这款模型响应速度相比以往版本提升四倍左右,使用成本也有所下调,整体使用体验优化很明显。 不少朋友觉得这类海外模型距离日常使用比较远,操作起来也不方便。其实咱们国内多款主流 ai 大 模型综合使用表现已经十分成熟, 像大家常用的豆包 deepsea, 日常写短视频文案、整理工作资料、规划生活内容都能轻松胜任。不用繁琐操作,也不需要特殊网络环境,手机电脑都能随时打开使用,完全可以满足普通人日常办公和自媒体创作需求。 我日常只分享国内正规实用 ai 软件,不讲趣话,只教大家简单好用的实操用法,喜欢实用 ai 干货的不妨点个关注,一起学习!

谷歌的欧米尼视频生成模型上线了,我们可以在这个 flow 平台上进行体验,同时 flow 平台也上线了很多的视频和图片编辑小工具, 那么本期视频我就给大家测试体验一下欧米尼模型还有这些小工具。首先我进行测试的时候,模型只开放了 fresh 模型, 目前最高能生成七二零 p 十秒的视频,每个视频消耗三十个点数, umi pro 会员一共有一千个 ai 点数,而且我在使用的时候,它的首帧参考功能还没有上线,所以我就简单测试了几个纹身视频的例子, i will send you back to the dark abyss。 好,提示词所要求的东西都有,但是动作,电影质感还有音效都差很多,可以看一下 c 带是二点零的, 而且在 flow 这个平台,我们可以在下面这里输入提示词,直接对视频进行二次编辑。比如我直接输入一条金枪鱼跳上船,我们来看一下效果, i will send you back to the dark abyss。 他 这添加的内容太生硬了,几乎是不可用的。当然有可能他是 fresh 模型的原因。我们再多看几个例子, 这条视频的话,飞机驾驶是还不错,女主的紧张感和节奏也还行,但最后飞机仪表盘反向了,而且多了一个人。下一个我们试一下著名 ip 加想象力 why won't this stupid code work? 暂停一下,这里电脑里表现的内容太棒了,连代码的说尽都像那么回事。 i refuse to do this? 直接切镜头换风格 anymore why won't 他 这条真人路飞生成的其实挺棒的,这是就中间莫名其妙多出来一个动漫风格的镜头,下一个是变形金刚的镜头, 这个表现就太差了,别说跟 c 站十二点零比了,连快乐马都比不过。 下面是一个著名 ip 加动漫风格, anya will defeat all the villains, 这个表现其实还算可以了,介于 first 和 cds 二点零完全体之间, 下一个是香港电影。如果记忆是一个管头,我希望他永远不回国。起 这个案例就表现的很差了,无论是中文音还是镜头都不符合要求。如果记忆是一个罐头,我希望它永远不会过期。来一个九比十六的变身镜头, 那就再来一次, 感觉能比快乐马好上一些,但是这种动作和特效还是 c 大 师您的拿手好, 再试一下科幻镜头, 这个表现太拉胯了,完全没有电影质感,比快乐马都差远。 总结一下就是 omni, 它的表现肯定是不如 cds 二点零的,但它毕竟还是 flash 模型,不知道它有没有正式版,如果有正式版还是未来可期的。它还有一个优点就是足够的便宜,性价比还是很高的,目前生产速度也快,而且目前还 现那些著名的 ip。 今天除了欧莫尼这个更新之外, pro 这个平台还上线了巨多的图像编辑和视频编辑小工具, 我也帮大家测试了一下,总结一下就是很鸡肋,就是看起来很厉害,实际上就是一些常见的开源项目整合而成的图像和视频编辑工具, 比如说编辑文字动画的呀,还有说像什么手绘转图片,从各个仕图和角度去查看原始的图片,这个就是千问的技术吧,我记得还有什么视频跟随音乐动起来,这样的就适合整活。 还有一个是上传三 d 模型,然后再转化为二 d 平面图片, 它的视频小工具还有一个印象比较深刻的是一个抽帧加抠图加重叠的技术, 其他的图像小工具的话,要不然就见太多了,要不然就完全没什么意义。总结一下的话就是 omni 未来可期,图像工具的话作用不大。 那么以上就是 jimmy 在 本次 flow 上的更新的测试结果了,我个人是比较失望的。好,如果本期视频对你有帮助的话,麻烦帮我点个赞。

最近,谷歌的 google 二 mini 刚刚发布,这次对行业最大的冲击,就是硬生生把 ai 视频拽进了一个残酷的反攻时代。你那些废掉的旧镜头,终于不用扔了,直接放进去,改风格、补镜头、修嘴型、换场景。 以前咱们搞 ai 视频就像闭着眼睛抽盲盒,生成崩了就只能全部推倒重来。但昂尼嫌翻了这个痛点,它让 ai 视频真正变成了一个可以反复回炉、精雕细琢的剪辑工程。你看这段实测,原本普通的实拍演示,一句话直接给你改成了黏土动画, 风格全变了。但上一版的人物动作和上下文,他居然原封不动地全记住了。 no longer one and done google's omni model introduces true multi turn editing it remembers context to remix styles and elements instantly, but i ended up having it do that video again and just again softball just said hey, can you make that into a acclamation style video generation is no longer one and done google's omni model introduces true multi turn editing it remembers context to remix styles and elements instantly so overall i mean。 大家好,我是进化中的阿晨。 这期咱们不把 omni 当成普通的视频生成器来瞎吹,咱们只看它究竟是怎么颠覆创作者工作流的。很多人第一反应是拿 omni 去跟 cds、 vivo 这些模型拼画质、拼动作,炸不炸?这个角度太外行了。如果单拼文字直出视频,它现在并没有掀翻桌子, 只能出十秒七二零 p, 主要也就是九小时、十六分钟和十六九两种比例更完整的能力,还得等后续接口放出来。所以,如果问他是不是立刻秒杀了一切视频模型, 别急着给他封绳,你更应该把他理解成一个动态视频版的 photoshop, 那 种能对着一张静态图反复修细节的能力。 奥莫里现在把它搬到了动态镜头上,改风格,接着延长,补个角度,修个嘴型,换个地点,而且能完美接住前后的上下纹。这才是普通创作者真正该盯死的地方。过去玩 ai 视频,最抓狂的是什么?人物脸对了,动作却废了,动作对了,嘴型又飘了, 镜头氛围到了,地点又穿帮了。你想稍微微调一下,对不起,系统直接给你重抽一条,前功尽弃 only 的 终极目标,就是彻底终结这种重抽一条的噩梦,把它变成在这一条上继续修。咱们先看它的纹身视频,那个西装男过马路被警察追的测试效果勉强能用,但没那么炸, 人物动作和场景逻辑甚至有点出戏。这说明单靠唇深沉凹印还没法让行业变天。但一到了打字机、解释型视频这些测试, 他的统治力就出来了。他不仅能根据概念配图,还能把同一段内容无缝切换成黏土风格,画质只是一部分。重点是,他记得上一轮你在干嘛,然后乖乖按你的要求接着改。这对内容团队太致命了。 以后做短片,你可以先让 ai 出个出版,再让他转成沿途风,接着延长十秒,最后再调个灯光,他已经从一句话生成一段片,变成了你坐在旁边给剪辑师下修改意见。再看图身视频, 一张红发女人的静态图,镜头推进,人物居然能微笑做自我介绍,虽然台词有点蠢,直接来了句我是红发女人,但这证明他的执行力已经能跑通镜头运动和口型了。 只是创意还需要人来把关,包括那段年代感爱情对白,他能把静态图拉成有情绪的短镜头,氛围相当不错。但这暴露出一个老问题,他更像拿第一针当参考,然后自己放飞自我。目前还没法做到极其精确的首尾针控制这个边界。要记住,别期待过高。但真正开始有实用杀伤力的,是他的后期视频编辑。 比如女孩在雨林休息,他可以往画面里无痕合成一大杯牛奶。看似设定离谱,但这在后期叫无缝道具替换, 意味着以后很多小道具、小笑点,再也不用重新拍一整条,直接在已有镜头上贴进去就行。更实用的是修嘴型,很多 ai 视频跑过八秒嘴型必崩啊!你怎么处理?极其残暴,直接把旧镜头丢进去, 让他专门重新生成一个更近的高清对口型人脸,再给你无缝改回原时间线上。 the original scene and give it a prompt like recreate this scene focus on a close up of the woman's face run it my cardio is really good and i can outrun anything and as we can see here too it is completely in sync if you just throw your new clip on top of your old clip there's no drift or anything it just everything lines up, so problem solved。 这就相当于剪辑里的无缝补救,你 不用费掉整条片子,哪坏了修哪。对于短剧广告口播来说,这比单纯生成一条新视频有价值一万倍。它还能补角度,一段快节奏打斗,直接改成俯拍起重机视角,虽然中途会有点崩,但节奏和位置大体保住了。 这直接颠覆了剪辑逻辑,缺个插入镜头,缺个反应镜头, ai 随时给你补。更狠的是换视角。一段复古餐厅对话,原本在背景里的服务员提示词要求从服务员的视角重拍, 结果虽然有点诡异,但他做了一件极度可怕的事。他重新调整了三维空间关系,把服务员放到了前面,同时保住了餐厅的氛围。这一步如果成熟, ai 视频就会从生成一个画面,进化到围绕同一个虚拟片场捕拍分镜。第三个绝杀点是换主角和换场景。他能把一段熊和人的镜头改成只看熊,能 把一段骑马的镜头直接改到雨林里 running, it through the omni model and saying change the location to a jungle rainforest。 这个能力极其直观。背景不满意,换配角,想上位换,想改电影感,接着试。它不再是帮你生成画面,而是帮你重拍同一个想法。最后还有 i f t 数字分声,把你自己的形象扫进去,在提示词里调用。 如果未来结合他的多轮编辑能力,这就成了一套完整的个人分身拍摄系统,你连露脸补拍都省了, ai 直接拿你的形象去换场景补镜头。所以对阿玛尼的判断必须清醒,他现在绝不是全能视频王,十秒限制和画质上限都在把它包装成秒杀一切,那是在忽悠你。他真正让人脊背发凉的 是谷歌把战场从生成第一版残忍的挪到了修改第二版、第三版、第武术版。这才是创作者的生死劫,毕竟工作中最折磨人的永远不是第一次的灵感,而是客户和老板那无休止的反攻修改。 这里换个风格,那里补个镜头,嘴型修一下,最后还要个横竖两版。如果奥美这条路线继续跑下去,拍摄和后期的边界会被彻底踩碎,短期内,它就是颠覆整个工作流的炸弹。 普通人别去死磕那些花里胡哨的模型名字,你只要认清一个现实。下一轮的 ai 视频大战,拼的不再是谁能凭空抽出漂亮的十秒,而是谁能在已有镜头上无限次修改,直到能用。这里是进化中的阿晨。未来最可怕的视频工具,绝不是最会抽卡的那个,而是最会反攻的后期牛马。

朋友们,今天凌晨,谷歌扔出了一枚深水炸弹。就在刚刚结束的 google i o 二零二六大会上,谷歌宣布推出 gemini 三点五 flash 模型,并且向全球所有用户免费开放。这不是阉割版,不是试用版,而是谷歌宣称的迄今为止最快、最有效的模型。 它可以接受任何形式的输入文字、图片、音频、视频,用户甚至可以用自然语言直接编辑视频。谷歌在现场算了一笔账,对于头部企业来说,如果把大部分工作负债切换到 flash 系列模型,每年节省的成本可能高达十亿美元级别。免费开放多模态视频编辑,年省十亿, 这不仅是模型升级,这是全球 ai 巨头在用极致性价比重构竞争格局。很多人可能对三点五 flash 这个命名没概念,我帮你翻译一下。 第一,速度快得离谱。谷歌表示, g m 三点五 flash 在 输出令牌速度上是其他前沿模型的四倍,而在优化平台上的版本,速度还能再提升到十二倍。什么概念?你以前问 ai 一个问题,等三秒才有回复,现在一秒不到答案就出来了。第二,性能不降反升。你可能会想,速度快是不是牺牲了智能? 恰恰相反, gemini 三点五 flash 在 多项精准测试中,超越了四到五个月前的旗舰模型。在代理式 ai 能力、代码编辑、多模态理解等关键维度上,三点五 flash 都达到了前沿级别的水平。用谷歌的话说,性能是旗舰级,成本只有三分之一到一半。第三,真正的多模态来了。 gemini 三点五 flash 可以 接受任何形式的输入文本、图片、音频、视频。更炸裂的是,用户可以用自然语言直接编辑视频。你说把这段视频中的夕阳调亮一点, ai 立刻执行, 不像是模型升级,更像是人机交互方式的彻底重构。第二部分,谷歌的阳谋,用极致性价比打一场价格战。很多人问谷歌为什么要免费开放,低价收费?难道做慈善?答案很简单,抢市场、抢用户、抢生态。第一, ai 的 竞争已经从参数竞赛转向成本竞赛。谷歌现场算了一笔账, 目前头部企业每天在谷歌云上处理海量 token, 如果把大部分工作负债切换到 flash 系列模型,每年节省的成本是十亿美元级别。 对于正在烧钱搞 ai 的 企业来说,成本就是生死线,谁能在保证性能的前提下把价格压到最低,谁就能抢走对手的客户。第二,谷歌要用免费圈住十亿用户。 gemini 应用的月活用户已经超过九亿,一年前这个数字只有四亿。谷歌搜索 ai 模式的月活用户也在一年内突破了十亿。策略很清晰,用免费的 flash 模型留住 c 端用户,用低价的 a p i 吸引弊端开发者。当所有人都习惯了 gemini 生态,谷歌的 ai 收入就会像当年的搜索广告一样源源不断。 第三,谷歌有降维打击的底气。自研芯片,谷歌使用的是自研 p p u, 而不是像其他厂商那样采购英伟达 g p u。 自研芯片意味着更低的单位算力成本、更高的利率。二零二六年,谷歌预计资本支出将达到一千八百亿至一千九百亿美元,六倍于二零二二年的三百一十亿美元。 这种不计成本的投入,就是在为未来五年的 ai 算力霸主地位铺路。谷歌 ai 大 模型升级,最直接的受益者不仅是谷歌自己,还有整条 ai 算力产业链,大模型训练和推理需要海量算力。 杰米尼三点五 flash 的 免费开放,意味着全球用户的使用量将暴增,直接拉动 ai 服务器需求。据产业链消息,谷歌 tpu 机柜总数量预计将从二零二六年的约六万柜,快速成长到二零二七年的约十点五万柜,年增幅高达百分之七十五。工业复联 ai 服务器代工龙头,深度绑定英伟达、谷歌等大客户直接受益。 互电股份 ai 服务器 pcb 核心供应商、 pcb、 数据中心等领域的订单持续增长,大模型参数越大,数据传输需求越高。 光模块是 ai 算力集群的神经系统中继续创全球光模块龙头。一点六 t 光模块已批量交付。谷歌 gemini 流量增长将直接拉动八百 g 一 点六 t 需求。 天福通信一点六 t 光引擎规模量产,深度绑定海外头部大客户业。三点五 flash 的 免费开放受益于 ai 数据中心互联需求。 gemini 三点五 flash 的 一大亮点是端侧轻量化,让更多中低端设备也能流畅运行本地 ai 功能。瑞生科技向 ai 手机 x 二可穿戴设备输出光波导、高端散热系统等感知方案。康奈特光学、夸克 ai 眼镜独家镜片供应商受益于 ai 端侧设备放量。当然,话要说回来, 第一, gemini 三点五 flash 的 免费策略可能会引发整个 ai 行业的价格战,如果竞争对手被迫跟进降价,整个行业的利率可能被压缩。 第二,谷歌 tpu 供应链相关标的近期已有较大涨幅,工业复联中继续创等估值处于历史高位,短期追高需谨慎。第三,谷歌的资本支出虽然庞大,但能否持续产生回报,还需要看 ai 应用的商业化落地节奏。 总之, gemini 三点五 flash 免费开放是谷歌在 ai 成本占中的一次亮剑,它的意义不亚于当年安卓系统免费开放。 用极致性价比抢下生态入口,再用生态反捕算力投入工业复联在造服务器中继续创。在铺光模块,天府通信在生产光引擎,瑞生科技在布局端测硬件。当谷歌用十亿用户、万亿 toker 向全球宣告 ai 不 再是奢侈品时,中国算力产业链上的卖产人正在闷声发大财,这个赛道的故事正在翻开新的一章。 好,这个话题就聊到这。以上内容和提到的公司是基于公开信息的逻辑梳理与产业推演,不构成任何投资建议。市场有风险,投资需谨慎。

谷歌今日凌晨发布了 gemini, 在 底层逻辑上简直就是一次史诗级的进化,瞬间引发了轰动,我们一起来看看实际的测试效果吧。哈喽,各位小伙伴们大家好,今天给大家演示一下最新的视频模型 omni flash 的 使用方法。 好,这个的话呢,它支持使用十秒啊,然后三十个积分这种方式操作好,那么怎么来操作呢?假如说我们要做这样的一个漫剧效果 好,那么首先第一个我们可以使用分镜啊,这个是我之前做的分镜。好,那么我直接把这个分镜的话呢,放到我的这个提示词里边啊,那么我可以直接到这里艾特一下就可以了。好,我艾特一下分镜,点击确认。好,然后的话呢,我可以直接说 啊,使用啊,根据分镜,或者我把它删掉啊,根据分镜生成动画。 好,然后我艾特一下这个分镜,这个分镜好,可以了。好,然后人物参考,使用这一个人物。好,然后场景参考,场景参考, 再使用一下这个场景。哎,我的场景也有了。好,这样子的话呢,那么就直接就 ok 了啊,然后我们直接来生成好生,呃,动画流畅,然后运镜流畅 就可以了。好,那么就直接点击生成好,这个的话呢,大家就可以看到一条非常运镜流畅的,并且呢有音效的这样的一个画面呢,就可以展示。 嗯,而且它的准确度是非常高的啊,就是没有脱离我们的这一个分镜,所以的话呢,这个是一个非常好用的功能。

谷歌最新大模型,全网都在吹,拉完了,今天亲测看看拉布拉,让他先上一条视频,这个视频长度一条十秒,先不说质量,就他出片的速度已经秒了 s d r。 他 对产品的外观把握的还不够好, 简单测试没有给特别详细的提示,此星安处再重新生成一条,看看拉布拉 出片的速度,大概是三十秒。一条十秒的视频运镜一拍, the world is noisy as restless, but peace is often found in the subtle essence five elements nourish the heart。 产品不对拉,整体画面感不拉。 再重新给他产品外观再来一条, the world is noisy as restless, but peace is often found in the subtle essence。 以上只是粗略测 five elements nourish the heart。 这速度真的难有别了体。

就在五月二十号, google deepmind 的 团队宣布发了一个新的模型,叫做 gemini, 这个怎么念呢? omni, omni, 它们号称这是一款迈向万物生万物的模型的第一步,从视频创作开始,将 gemini 的 智能能力与生成式媒体相结合。咱们来看一下,这到底是个什么东西啊? 哎,初步看了一下,是非常酷炫的一些好像,呃,非常遵循生活物理世界里面规律的一一个视频创作。然后呢?哎,我通过 jimmy 去查了一下,它到底是什么意思呢?什么? 到底?什么叫这个万物生万物?它的意思就是传统的模型是单向的固定组合,比如说纹身图,纹身视频,但是他们这个最新的,嗯,这个产品的意图呢是, 呃,可以输入端,可以是文字、图片、音频,一段视频,甚至是一段物理公式的任意组合,然后它在输出端未来也可以是你想要的任何媒体形式。嗯,怎么理解呢?就是从纹身图,纹身视频可能变成了 视频申图,图,申,文字图,申,视频,物理公式申,视频,就是 create anything from input, 嗯,可能这个还蛮厉害的,但是目前还没有让我们真正的用上。然后它主打的呢一个就是模拟真实世界的物理规律,嗯, 不会让我们觉得就是说,哎,你这个东西,你的视觉好归好,但是你可能不是我们违反了我们真实世界物理规律的这么一个事啊,然后也可以实现连续对话的一个编辑,嗯,大概是这样,不知道咱们什么时候能用上吧。

最近呢谷歌发布了全新的 ai 视频生成大模型,也就是 jimmy 欧米尼是这样的一个模型,那么在官方的宣传页面里面可以看到这个模型呢,它的生成效果是非常好的,包括各种的动作, 各种的物体的稳定性都是非常好的。今天呢来实际测试一下它究竟具体的一个效果怎么样啊?我们呢可以先看一下别人制作的一个关于大模型对比的一个效果, 使用的呢就是谷歌新发布的这个欧米尼模型,跟我们国产的这个 c 弹子二点零的一个对比, c 弹子二点零呢是目前来说全世界范围内啊,它的效果是最好的。 然后呢我们来进行一个对比,看一下它的效果,究竟它的距离啊有多少?大家看一下这个整个的一个视频,那么上面呢是谷歌的模型,下面呢是 c 弹子二点零的,咱们看一下它跳水的这样的一个动作啊,非常的不自然,好再看一遍, 好看到这里啊已经落水了,然后呢他又重新回到半空中,并且呢这个人物的整个的一个姿势啊,非常的怪异啊,跟我们的 c 弹 z 二点零是完全没有办法比的,可以说在人物动态上, c 弹 z 二点零可以说非常的真实和非常自然。下面呢还有更多的一个案例,比如说像这种 双人就是两个角色进行一个大范围的移动啊,很明显的可以看到 c 弹子二点零呢,他的整个的一个环绕运镜和慢动作,对吧?和一个细节的整个的一个姿势啊,动态非常的流畅自然。上面呢就不用说了,非常的死板,其他的包括还有这种运动镜头的 啊,一样的运动镜头的 c 弹子二点零呢,同样的大家可以看到非常的自然,对吧?上面呢 整个的你看整个的动作,整个的非常的怪异,这个呢是网上别人的进行的一个对比,那么基本上不用咱自己的测试啊,非常明显可以看到 这个谷歌的模型完全跟这个 c 档三点零完全没有办法比,所以说呢 c 档三点零虽然说现在啊价格比较贵,但是贵有它的贵的一个道理啊,它的效果确实非常好的。那么下面呢给大家说一下咱们如何去 使用这个谷歌的新的大模型,现在呢谷歌模型咱们可以免费去用,这个呢,虽然说他效果没有那么好,但是啊他免费用咱们是可以去用一下的,咱们在这个谷歌呢直接搜索这个 flow, 在 这个平台呢咱们直接可以免费去用的,咱们直接打开一下,来到他的一个账号的这个页面主页,大家呢可以去登录一下,登录一下之后呢咱们可以看到在这里啊去选择这个具体的创作模式啊, 它默认呢是这个图片模式,大家可以看到,那么咱们把它选择视频模式,然后在下面呢就有这个具体的整个的模型的一个选择,那么谷歌的模型呢是 vivo, vivo 就是 vivo 三点一的模型,那么最新的就是最上面这个呢就是最新的欧米尼 flash 这样的一个模型啊,咱们可以直接去选择,那下面呢秒数啊,最长是十秒钟,上面呢这个生成的比例选择,这个九比十六 真和素材是什么意思呢?比如说你上传一个素材呢,上传一个图片,让他模仿这个图片里面的人物的长相啊之类的,这个真呢就是首尾针,对吧?首尾针去生成中间动态的一个视频。 好,咱们选择素材就可以了,这里呢选择好之后直接去书写咱们的题词,直接去发送。那么我之前呢也给大家做好了一个这个视频,这个视频呢就是一个女孩在滑板,就是在场地去做滑板滑板动作这样的一个视频啊,大家可以看一下整个的动作,我感觉啊 非常幅度非常的小,而且他的一个整个的动作非常的不自然,所以说呢还是大家呢可以去试一下生成一些动画动作幅度比较小的这种视频还是还是可以的,但是呢像这种大范围的动作 确实啊是不太适合的,在这个 flow 里面呢,大家直接可以免费的去生成,那么现在呢他是有送的,有这个积分。好,大家可以去测试一下。

所有人都不看好你,偏偏谷歌你最争气。就在最近的开发者大会, google 把 ai 行业的桌掀翻了。今天这期视频带你深度拆解谷歌 io 大 会,看看这十几个新产品到底强在哪儿。 先说第一个, gemini 三点五 flash。 过去的 ai 行业有个默认的逻辑,模型弱就便宜,顶级模型就得贵。但 google 直接反过来了,这次的三点五 flash 把谷歌旗舰三点一 pro 给干掉了,而且是编码能力、 agent 能力、工具调用全面超越。最狠的是速度,三点五 flash 的 输出速度直接飙到每秒三百 token, 比很多前沿模型快四倍,但价格反而更便宜。 google 现场还学了一下老黄开始帮企业算账了,说如果大型公司把百分之八十的顶级模型调用换成三点五 flash, 一 年能省十亿美元。 第二个是 gemini 奥秘 flash, 特效师、视频剪辑师、音乐制作人。这个产品你们可要扒大眼睛看,这可以说是目前业内第一个真正意义上的全模态模型, 文字、图片、音频、视频都能输入进去做参考,指令同样也都可以输出出来。而且他不是在后台偷偷切换不同工具,是在同一个模型里完成,也开始真正理解物理世界的运作规则。就拿发布会的演示举例,演示人员对着镜子散步的自拍视频,通过提示词不仅能变换服装和周围场景, 连镜面和水痕里折的光影、重力逻辑都能跟着完美更新。在白纸上画个圆圈,奥米尼能瞬间把它 remix 成一个视觉逻辑逼真的黑洞,告别了物体、穿模和一眼甲。还有另一个演示,发布会现场录了一段钢琴,告诉奥米尼往 r b 方向改,加入女生。最后出来的不是 demo, 是 一首完整的歌, 但缺点也不是没有,因为现在发布的还是欧米 flash 轻量版,中文还有点港台腔,用起来还有点怪,但整体的方向已经非常明显了。 ai 正在从单一工具变成真正的全能系统。第三个, gemini spark。 这个相当于之前爆火的小龙虾,大家都跟风安装过,但你会发现,装完以后,身边几乎没几个人会在日常用它。原因很简单,小龙虾的大脑是 open ai 的, 但手和脚要你自己去找 操控浏览器得装单独的插件,连 gmail 要单独授权用 google drive 还得再配一个工具,每接一个新功能,就多一个可能崩掉的地方。 google spark 解决的就是这个问题,所有的产品全是自家的。发布会演示给 spark 一个目标,筹备街区派对,他自己建 rsvp 追踪表,跟 gmail 打通,邻居回复自动更新,没回复的自动起草催回邮件,还从 drive 里翻出小区规定,提醒你充气城堡的布置时间,最后在 slides 里做好宣传 ppt, 你关着电脑去睡觉,醒来 ai 帮你全办完了。第四个, google 搜索。谷歌这次把搜索框变成 a 阵的指挥台,比如你告诉 ai 帮我盯 pe 小 于十五,现金流为正的生物科技股,它会自己监控价格变化,直接推送给你。 还有一个演示更夸张,有人问黑洞怎么影响时空,以前搜索会给你一堆链接,现在 google 直接生成了一个交互式模拟页面,你可以拖参数,看时空怎么弯曲。而这一切是 gemini 实时写代码,实时运行在实时嵌进搜索结果里的。 这个功能会在今年夏天免费开放。第五, universal card。 简单来说,它让你的购物车开始有脑子了。你是不是也有过买错东西的经历?买了主板发现跟 cpu 不 兼容,买了充电器发现接口不对,或者买完某个东西才发现自己已经有一个了。 universal card 不 仅能实现像其他 ai agent 一 样自动找折扣、查价格历史找优惠券,还能记住你购物车里加了一块主板,他发现你之前买的 cpu 接口不匹配,会直接跳出来拦住你,再推荐你合适的型号。 再来看看 ai 眼镜,三星硬件儿,高通芯片外壳直接找粘头。 monster 联名,你带着它出门,它能把导航箭头直接投射在你的视野里。 你跟 jammer 说带我去上周见朋友的地方。它不仅帮你带路,还会主动问你要不要顺路买你常喝的那杯咖啡。它甚至支持 ios 和 android 的 双系统。你还对哪个产品感兴趣?下期我们继续拆解。这里是 ai 风向标,带你了解 ai 行业最新动向。

朋友们,就在今天凌晨,谷歌 i o 二零二六炸穿了整个科技圈。这根本不是一场普通的发布会,这是谷歌亲手用 ai 把自己过去二十年赖以生存的一切, 全部推倒重来。最恐怖的不是新模型,是 gemini spark, 这是一个关机也能跑的个人 ai agent, 他二十四小时挂在谷歌云上,你关掉电脑、手机,他照样帮你干活。汇总一周的工作,写邮件,组织派对,自动发提醒,甚至可以同步你的日历和邮箱, 把所有的琐事全揽了。谷歌搜索呢,也彻底完了。以后啊,你不用再一条条翻网页,直接让搜索 agent 帮你长期跟踪任何事。 低于十五倍市盈率的生物科技股、你想买的球鞋、联名小区的租房信息一有变动,他自动就给你发更新。 甚至你问黑洞是怎么影响时空的,他能直接给你生成一个可调参数的交互式动画,包括整个代码圈,也直接炸锅了。 九十三个 agent 并行工作十二小时,从零写了一个完整的操作系统,还能跑经典游戏毁灭战士,总成本不到一千美元。 以前工程师干一周的活,现在 ai 一 晚上就搞定了。还有能理解物理规律的视频生成模型。 james armani, 你说一句话就能把普通视频改成黑洞场景,把白天变成黑夜。最后啊,我觉得最扎心的是,谷歌终于不做免费互联网了,他正在从靠广告赚钱的搜索公司,变成靠订阅赚钱的 ai 基础设施公司。 以前我们用谷歌找答案,以后谷歌直接帮我们把事办了。那么问题来了,你愿意为这样的一个全能 ai 助理,每个月花多少钱呢?咱们评论区一起聊一聊。关注我,每次聊点不一样的。

好的,今天,呃,谷歌更新了他的新的模型,然后今天呢,正好有一张图要做,然后正好测试一下,那我的课题呢,就是要做一张商业海报,然后要体现这个数据非常震撼,然后呢,我给到的参考呢是这张图, 这是一个孙悟空,应该是驾驭着金箍棒,然后想冲出天际过天的那个寓意,然后我希望他能够把这个具体的数据放在这个金箍棒的顶上的,然后这是参考图一,然后画风呢,是要符合这样的画风的, 然后我给到了 check gpt image 二,他给我的作品是什么样子的呢?是这样子的,画面还算比较震撼,但是呃字是有错误的,嗯,是吗?对吧? 然后我的提示词给大家看看,都一样啊,提示词啊,是一个商业海报,然后呢,要体现核心数据,然后啊,我已经描述很清楚了,画面主体。参考图片一,然后孙悟空拿着金箍棒向上冲,十六比九,然后极大的视觉冲击力,这是 chat gpt, 也就是 image 二给到的。然后现在 同样的,我们给到谷歌的模型,然后我选的是图片,选择的是 flash, 我 觉得应该三点一吧,三点五是今天最新的,那就选三点五,然后呢,等级四号呢,我们把它拓展,就用最高的,现在提交,等到他给到我,结果哦, 排满哎。哇塞,首先第一字非常准确,然后虽然这个没到这个位置,但是你看炼丹炉,我们看一下它的整体的这个元素啊,有那个哪吒啊,这,这是李靖啊,炼丹炉现在就是对比了,就是这边呢,右边呢是 呃叉 t p t m j。 二出的图,然后左边呢是新的五哥出的,就是 banana 出的图,大家觉得哪一个更震撼呢?可以看一下。对,这个, 还有一个,这一个,然后现在有一个点子,就是我自己觉得 chinese ppt 出的还是比较震撼的,然后但是他的中文字错了,我打算让 jimmy nike 把中文字改对了,我就可以用了。好,现在我们来实验一下。 出来了吗?看一看,哇,牛逼,一个字都没错,好, ok, 然后你们觉得呢?怎么样?评论区告诉我。

就在刚刚五月二十号凌晨一点的时候,谷歌的开发者大会正式的开始直播,那肯定有很多朋友没有看这个直播,我只能说各位真是有先见之明,整个直播时长有两个多小时, 又臭又长,直接给我看历劫了。信息密度呢可以说是非常的小,就是发布了一个全新的模型三点五 flash, 其余的其他功能呢都是接入的这个模型,各种乱七八糟,内容呢都加了在一起,大会的后半段呢,直接变成了现场直播带货,我看完就是一句话,真是闹闹又麻麻 闹马。我们首先看一下大会的第一个部分,就是 gmail 模型家族,整场都在讲这个, gmail ai 发布了 gmail 三点五 flash, 它的定位呢是前沿智能模型和 agent 执行力合二为一的旗舰快速模型,头跟的输出速度呢是其他旗舰模型的四倍, 非常的夸张,而且在编程 agent 的 多模态基础上,超过了 gmail 三点一 pro 就是 一个 flash 模型,超过了三点一 pro 模型,这个就意味着这次模型呢是小而快,听起来非常的不错, 但是我不禁要问,那么代价是什么?没错,它的价格也赶上了 pro, 上一代的 pro 模型呢,每输入百万, token 呢是二美元,输出是十二美元。这次的三点五 flash, 它的输入是一点五美元,输出是九美元, 其实非常接近了,在他们直播中有这样一张图,说是用了九十三个 agent, 输出了二十六亿的 token, 总共金额小于一千美元啊,我先保持一下质疑, 这次价格涨的确实有点多,这还只是 flash 模型三点五 pro 呢,预计在下个月,也就是六月上线,那你想想吧,那个价格肯定会更高呀。那第二个呢,就是 jimmy 欧姆尼全新系列,目前用的也是三点五模型,核心定位呢是推理能力加创作能力融合首发的 jimmy 欧姆尼 flash 接受图片、音频、视频文本的输入,也可以输出生成视频,还可以创建我们自己的声音生成的视频呢,让他说话的声音就是我们自己的。 你可以理解为把视频生成模型,图片生成模型全都融到了一块,缝合怪奇美拉。另外顺带一提,它的内容检测能力呢,从 jimmy nike 的 app 版扩展到了搜索和谷歌浏览器中,也就是说,当你看到一个图片,你不知道它的真伪,那么你可以把这张图片发给他,问问他是否由 ai 生成 它可以进行判定。这个怎么说呢,就我体感下来,其他的生成模型我都能认出它是 ai, 唯独 g p t 的 那个确实是有点真假难分,你不会针对的 g p t 吧?那山姆就有话说了,你不是我的兄弟,你是个路人。 接下来就是重头戏,谷歌的 a i d e 反重力二点零上线了,全新独立的设计啊,真是不愧是谷歌啊。从这个设计页面上呢,我就看到了无数个神支持了 doa 盾,并且速度非常的快,而且如果你是新开通的,或者以前就是 o 叉用户,还会送你 一百套的额度,那去领吧。什么意思?下一个更新的是全新的设计语言,几乎是全平台桌面版、手机版以及网页端都进行了更新,变得非常优雅,动画非常丝滑,同时引用了全新的字体,不过对于阅读中文来说好像不是特别方便, 只是阅读英文的时候看起来确实很优雅。每天的额度呢,也改成了卡尔的那种限额五小时刷新,直到达到周限额 结束了,也就是说,如果你是 pro 用户,可能用一会就没有了这个额度。下一个 jimmy spark, 二十四小时全天候, agent 直接运行在云端,在手机上,电脑上拿起来就直接控制它使 用的模型呢是 jimmy, 三点五,可以实时监控我们的信用卡账单,追踪邮件,自动整理笔记,制作文档。这个几乎就是一个 agent 的 平台的标配了,它本身就是一个超级 mcp 客户端,接的非常多。这个时候可能有朋友说了,哎,这个不是小龙虾吗?是吗? 目前这个我们用不了,你是 plus 用户, pro 用户都用不了,你必须得是 air ultra 用户。二百五十美啊,不对,现在降价了,是二百美元一个月。但是这个计划对我个人吸引力不是特别大,再下去沉淀沉淀吧,我们看下一个谷歌搜索 三十年以来最大的更新,在二五年年底的时候呢,谷歌浏览器就推出了 ai 模式,那现在呢?把这个 ai 的 模型换成了 gmail。 三点五, 我们输入的越长,搜索框越会主动的进行扩展,因为它是内置在浏览器上,主要还是为了搜索嘛。当你一个很简单的问题,他就会给你回复很短的内容,但是当你长篇大论的跟他讨论的时候,他就会开始进行深度思考 啊。 deep think, 也就说类似可绕的那种,判断你的意图,以及你这个问题的复杂程度,他自己来决定给你回复多少。另外这样一个浏览器也有 agent 了,二十四小时全天监控。我们提一个问题, agent 在 后台跨博克新闻社媒以及谷歌的实时数据 持续监控,也就说你可以让他实时帮你监控一些内容。那这个监控的功能呢?我个人认为可以用在理财的方面,比如说黄金的金价,实时给你追踪一些股票的价格,实时的给你发送。 不过这个功能呢,暂未发布,夏季向 ai pro 凹叉用户开放下一个 mini app。 这个功能是在我们搜索的时候,那一个非常长的任务,它会自动给我们生成看板,或者是生成网页,生成一个小应用,我们可以直接快速的跟它交互,那比如说我问一个太阳 长什么样子,那它呢?就会生成一个类似网页,或者是一个三 d 的, 我们可交互,可以拖动旋转。这个太阳演示看下来呢,还是非常有意思的,但是仍未发布, 发布时间是未来几个月。 ai pro ultra 美国地区的用户可以使用,也就说你不在美国,或者你是免费用户,那么你都是用不了的,太可恶了,他不是我们的兄弟,他是路,厉害。最后还有几个我快速给大家过一下,因为我个人感觉非常的无聊,一个是全网通用购物车, 让 ai 帮我们去购物,去比价美国豆包啊,真是实至名归啊。还有一个呢,是给油管准备的 ask youtube, 可以 直接处理复杂的查询和后续的追问,其实跟 grog 差不多, grog 呢,是可以读取 x 平台的所有推文,那这个 youtube 呢,自然是可以读取油管上的所有视频,以结构化交互形式呈现。这个呢,现在已经可以用了,局限于 youtube 会员的美国用户啊,注意你得是会员哦。 最后呢,就是他们的带货环节,首先是他们的安卓 x r 啊,智能眼镜,想当年我也买了一个小米的异样眼镜,老傻了。我 目前呢是两个版本,一个是带屏幕的,一个不带屏幕的,只不过带屏幕的还没有发,各位感兴趣可以去看一看。大概 就这么多内容,如果各位非常闲的话也可以去看看。这个直播还是蛮催眠的。那以上呢,就是本期视频的全部内容了,如果你对上述我们提到的这些内容某 某一部分你感兴趣,可以在弹幕里留言,我们可能会单独出一些视频来测试,或者是解读一下。各位记得点赞,不点赞的话你就不是我的兄。 ok, 最后祝各位玩的愉快,我是段峰,我们下期再见!拜拜!

这样 gemini 三顺利上线之后, angel 决定离开了待了近十四年的谷歌。 angel 的 结论是,光是大语言模型无法将我们带到 agi。 不 过我们现在看语言模型,它们的 思维链都是用语言做出来的,就包括 gemini、 叉、 gpt 和 cloud, 它们就是觉得这思维链变得越来越长,越来越 diverse, 那 模型就越来越聪明,最后就可以达到 agi。 但是如果你看模型做视觉问题的话,现在这些模型都不会数东西,所以我觉得你光 scale 这个语言这部分还是不够了解我们的世界。另外一个方向就是你说的世界模型这些 lab 都是从计算机视觉部门出来的,就像菲菲和杨乐坤 那他们的想法我觉得是更偏 academic 那 样的想法,就是说,呃,我要做一个新的模型, novelty 很 重要,因为对 academic 你 必须要 novel 才可以发表文章。我觉得他们就是比较相信视觉,最近可能变了,因为 atlamb, 但是我们这个是算一个比较 nice 的 领域。然后这次就是因为很多 researcher, 之前也包括 jeffenten, 他 们就是觉得视觉 is key to intelligence, 但是从语言角度来说,光靠视觉不够有 intelligence, 因为动物、生物它们还可以做,我们现在机器人做不了东西,它们视觉还是比我们现在的模型好。所以我们在我们这个公司,我们就是觉得要把语言推理加上视觉推理才可以做到一个模型 可以帮大家,可以帮所有的行业。你觉得做这个视觉推理的其他公司,大家的竞争优势是什么?因为我看到 deepsea 之前好像推出来一篇文章,好像也是很 similar 的 一些东西,他后来把那个文章给删掉了。对,其实 deepsea 的 想法是跟我们的很像,他们的 path, 呃,有点像我们的 past, 但是其他的 frontier lab, open eye, deepmind 和 antropic, 我 觉得他们是越来越偏编程的方向,因为编程这个市场很大,他们也是觉得你要做一个很好的编程模型,你就可以有 self improvement, 这个叫 recurrent self improvement, 谁先把那个突破,那谁就先 可以达到 agi, 然后这些 frontita 他 们都不想第二,达到 agi 都想第一。所以其实他们有很多压力做一个更好的编程模型,所以因为这个压力他们就不是很看重多模态视觉推理这个问题, 所以我在 gemma 的 时候我就,我就感觉到了这个,所以我就觉得啊,现在是一个很好的机会做一个落模态推理的模型。所以你觉得 deepsea 会是你们的比较的一个大的竞争对手吗?可能是,可能是,对,但是我不知道他们为什么把那个文章删了,他们是不是又换了一个方向?哈哈哈哈。

这次谷歌 i o 大 会刚结束,全网最出圈的一句评价来自富盛,谷歌这次直接拉完了!结合整场发布会、硅谷舆论、人才动向再复盘。你会发现,这场看似重磅的发布会,一边是巨头试图稳住 ai 王座,一边是漏洞百出争议不断。而真正的行业真相是, ai 竞赛早已从模型内卷彻底转向生态组织效率的终极战争。很多人只盯着 gemini 三点五、 flash 两款新模型,却没看懂谷歌当下最尴尬的处境。 富盛直言,拉完了并不是随口吐槽,而是精准戳中核心痛点。谷歌本次仅发布 gemini 三点五 flash 视频模型, 在纯视觉效果、短视频流畅度、镜头表现上,普遍被认为连 cds 二点零都赶不上。就连谷歌内部工程师都承认,模型开发长期受版权合规束缚,数据定位模糊,分不清到底是做电影级质感还是短视频爆款,内容市场更是普遍看衰,预测 pro 版本提升空间有限, 这已经不是技术问题,而是谷歌在视频赛道上的战略失误。但有意思的是,一边是视频模型被中国团队反超,另一边谷歌却在悄悄完成一场更恐怖的变更。传统谷歌搜索正在彻底消亡, ai 操作系统正式上位。十年前搜索靠关键词,五年前靠语义理解, 现在谷歌直接把 gmi 嵌入搜索框,实现文本、图片、视频、文件、浏览器、标签页全模态输入, ai 自动推理,直接给出答案,帮你完成任务。 谷歌喊出一句最关键的话, google search is i search! ai 钙览覆盖二十五亿用户, ai 模式月活突破十亿,这不是实验室功能,是全球互联网底层入口的重构。 谷歌最大的护城河从来不是单点模型,而是海量真实世界数据加全球分发能力,这是创业公司短期内无法企及的壁垒。而争议最大的 gemini, 很多人误解成普通纹身视频工具,谷歌真正想做的是世界模型, 核心逻辑,任意输入生成,任意输出。它最大亮点不是画质,而是解决行业最大痛点,可控性支持角色替换、元素修改、镜头调整、对话式迭代,让 ai 视频从抽卡式娱乐走向工业化生产,适配广告、影视、动画、游戏全场景, 同时快速接入 gemini app, youtube shorts workspace, 巨头的生态整合能力依旧碾压对手。可谷歌的问题从来不是单点技术,而是庞大帝国式的组织病。最能印证这一点的就是轰动硅谷的卡帕西跳槽事件,前特斯拉 ai 总监 andry karpacei 宣布加入 anthropic, 一条推文热度直接碾压整场谷歌 i o 发布会。 antropic 只有三千人,谷歌有数万 ai 研发人员,可如今定义行业方向,实现技术突破的,反而是这些小而精的创业公司。 原因非常现实,谷歌多部门并行,开源,视频代码搜索团队各自为战,部门强邻立,资源分散向晚清百万大军人多却调不动。 而创业公司极致单点突破,没有历史包袱,迭代速度一蹶绝尘。放到全球格局,中美 ai 差距正在快速反转。美国巨头曾经在视频代码领域全面领先,如今已经被中国模型反超。 cds 二点零,依靠抖音 tiktok 成熟数据闭环,在短视频生成、迭代效率上遥遥领先。 谷歌受合规组织层级束缚,动作迟缓,创新受阻。 ai 原生时代比拼的不再是研发人数,而是组织敏捷度。 想要破局,谷歌必须重构整套体系,用 ai 量化员工协调能力,缩短决策链,放弃大而全路线建立数据产品闭环,否则再强的技术储备都会被低效组织消耗。市场已经用脚投票,谷歌 io 当天股价下跌百分之二点零九, 投资者对其 ai 变现速度、创新效率信心不足。整个行业清晰看到 ai 已经进入颠覆性创新阶段。创业公司负责定义技术标准, antropics、 cds 这类团队在单点赛道快速突破。而谷歌、微软这类传统巨头,要么成为高校跟随者,要么彻底重构组织 dna, 否则只会一步步掉队。回到附上那句,拉完了,其实说的一针见血, 谷歌不是没有技术,而是巨头惯性太重,合规枷锁太多,组织效率太低,在需要极致敏捷的 ai 时代,正在被小团队快速追赶甚至反超。谷歌 io 二零二六本质就是一场时代分水岭,过去大家卷模型、卷参数,未来比拼生态落地、组织能力、用户价值。 巨头有体量,创业公司有速度,美国有底层优势,中国有场景效率。 ai 战争才刚刚开始,谁能打破制谷快速迭代,把技术变成普通人的日常价值,谁才能真正笑到最后。