欢迎收看价值投资合伙人朋友们,今天这组数据可能会让你重新校准一个判断,市场本以为谷歌的光交换机六十四端口稳稳够用两三年,结果 v 八 i 新架构一出来,满配直接无余量, 对一个炮的要塞一千多张卡,六十四端口的波导光交换机在满配的时候刚好合适,但没有预留任何余量。 谷歌现在非常着急,希望尽快研发出下一代的幺二八端口产品,端口需求从六十四直接跳到幺二八,而且这个升级节奏比所有人的预期都快。今天咱们就用最新这组调研数据,把这件事拆明白。 先看这张图,满配场景下,六十四端口每个口都亮着红灯,这就是本期所有讨论的起点,市场低估了 ocs 端口升级的紧迫性 来跟紧了。这期用的框架跟平时不太一样,我们把两套趋势放在一起对撞。左边是市场目前在 price in 的 东西,右边是调研数据实际在说的东西,说白了就是市场共识和真实数据之间可能有个裂缝。看左边, 市场对 o c s 的 判断很简单,六十四端口够用了,谷歌 v 八以后的架构至少两三年内不用换产业链,按部就班扩产就行。但右边这组数据说的完全是另一个故事, v 八 i 一 出来,六十四端口满配就没余量了, 幺二八端口的研发紧迫性被市场低估了。而且如果二六二七年谷歌 t p u 部署加速,幺二八还没量产,那就会出现供需错配。 还有一个关键数字, dci 设备的采购所单已经延长到了十八到二十四个月,这个数字是第一次被批露出来的,说明超大规模云厂商对设备可用性的重视程度远高于市场的想象。 好,咱们先看市场之前的共识到底是怎么形成的三十二端口、六十四端口的既有格局。先把价格和成本盘一盘。 先看三十二端口目前单台价格大概四十万人民币,折合五万七千美金,物料成本三万二美金,如果订单量上千台,成本可以降到两万五、六十四端口呢,定价大概在十二万美金左右。 等一下,这个价格结构有个反直觉的地方,六十四端口的端口数是三十二端口的两倍,但价格只是两倍出头。一百二十八端口量产后,预计十万到十五万美金,端口数再翻一倍,价格反而可能更便宜。 对,这就是拨导方案最核心的经济学。不管你是三十二、六十四还是一百二十八端口,核心部件都是一片拨导片。 一个发动机带不同的车型,发动机的成本是固定的,所以你端口越多,单端口成本其实在往下走。那再追问一个关键问题,谷歌为什么非要用拨导? ocs memes 方案不是也有人在用吗? 这张食言对决的图回答的很清楚,你看这两个柱子,拨导方案,食言是六纳秒理论极限可以做到低于一纳秒。 memes 方案呢?八十到一百纳秒, 差距接近两个数量级,两个数量级,那就是二十倍的差距,将近二十倍。打个比方你就懂了,波岛是一辆跑车,与红灯叉一下继续走。曼思是一辆自行车,每个路口都要停下来等。 在推理场景里,每个客户的请求都是实时交互,用户体验就取决于这一个来回有多快。 而且关键是什么?曼思已经接近它的性能极限了,波导还有巨大的优化空间。所以这是谷歌 v 八 i 推理芯片选波导的底层逻辑,不是锦上添花,是推理体验的硬要求。好,前面的共识拆完了,现在进入最关键的部分, v 八 i 的 真实需求到底有多大?数据裂痕在哪? 看这张炮的架构图就一目了然。 v 八 i 一个炮的需要一千多张卡,所有这些卡都要通过光交换机互联。在这种满配场景下,六十四端口刚好能用,但一丁点余量都没有, 刚好能用,没有余量。这意味着什么?意味着只要谷歌再多塞几张卡,或者炮的规模再大一点点,六十四端口就直接爆了。 没错,这就是整个预期差的核心市场。之前的判断是,六十四端口可以覆盖 v 八以后至少两到三年的需求,但 v 八 a 的 专家调研显示,满配的时候,六十四端口已经贴着脸在跑了,根本等不了两三年。 而且还有一点不,满配的时候,比如一个 pad 只有五六百张卡,三十二端口确实够用。但问题是什么?谷歌的 pad 规模是在往上走的,不是往下走的? 对,所以现在谷歌同时需要三十二端口和六十四端口的产品,但最高度关注的是幺二八端口的研发进度。 再看这一页,幺二八端口目前的芯片良率还非常低,良率极低。这是什么级别的瓶颈?两个层面的瓶颈,第一是拨导芯片的良率,端口数翻倍,良率急剧下降。第二是 s o a 矩阵芯片。这东西的瓶颈倒不是良率,而是产能。 过去 soa 芯片主要用在传统领域,需求突然被拨到 ocs 拉起来,产线准备根本跟不上。 再对比一下英伟达,英伟达不是也采购 ocs 吗?它们的需求和谷歌一样吗?完全不一样。英伟达的 ocs 目前主要是内部测试,用的应用场景是 scaleout 网络,对端口数的需求相对少一点,但也不会低到三十二端口, 它倾向于一百二十八端口和三百二十八端口的产品, 而且因为它用在 dci 端,对切换速度和食言的要求不像谷歌训练场景那么变态,麦姆斯方案就够用了。 好! ocs 的 故事讲到这儿,还有一个被市场忽视的方向, dci 产业链的加速信号。先看二点四 t 香干光模块,二点四 t 香干模块已经实实在在开始在 dci 场景落地了,进度比之前部分悲观预期要快。跟四百 g 和八百 g 比, 二点四 t 在 长距离跨城互联场景下,传输效率和每比特成本都有明显优势,预计二零二六到二零二七年会规模放量。 等一下,刚才研报提到一个数字, dci 采购所单延长到十八到二十四个月,这两个信号加在一起,意思是产业链正在从试水走向重仓。 对,这是一个从量变到质变的信号。以前 dci 设备的采购周期可能就几个季度一千,现在所单拉到一年半到两年,说明超大规模云厂商把 dci 当成了长期战略资源,不是随用随买的零配件。 而且还有一个有意思的动向,海外龙头在找国内企业谈合作,对三个方向,电存卡就是数据汇聚分流版、网络通信版和管理版,光放大器版。 e d f a。 还有二点四 t coherent light 光模块的代工,据说能耗需求非常大, 不过目前还在洽谈和意向阶段,还没有具体订单落地。那反过来问,供应链卡在哪里?产能够吗?先说 dsp 芯片,不用太担心,目前 dci 产能力相干光模块大概占百分之五十, dsp 供应不缺,一是量还没到非常大的规模。二是龙头公司备货充足,跟 marvel 和博通都有长期协议。那 coherent light 轻量化模块对 dsp 的 要求是更高还是更低? 低,很多传统香干 dsp 现在普遍用三纳米工艺,但 coherent light 因为传输距离近,对算法 dsp 和收发光功率的要求都大幅降低,用十纳米工艺就够了, 十纳米比三纳米成熟得多,供应商也更多。高 e sienna、 marvel、 博通都能做,所以 dsp 不是 瓶颈。最后问一个国内玩家旭创,他们在拨导 ocs 上有什么动作?旭创的三十二乘三十二产品今年可能问世。谷歌其实 希望旭创放弃 mems, 专注拨导技术,但是它有一个致命的短板,缺乏自产 sos。 专注拨导技术,但是它有一个致命的短板,缺乏自产 sos 矩阵芯片的能力。 设计方案从哪来?关键芯片找谁供应目前都不明确。所以手里有波导片加 s o a 矩阵芯片这两项能力的玩家才是真正的核心受益方。 对,这就是整条产业链的卡脖子节点。好,信息量很大,咱们来收一下,听完这么多,修正后的判断是什么? 三个核心结论,第一,幺二八端口 ocs 的 研发紧迫性被市场低估了。如果二零二六到二零二七年谷歌 tpu 部署加速,而幺二八端口还没量产,供需错配的风险是真实存在的。 第二,掌握波导片加 s o a 矩阵芯片能力的企业是最核心的受益方,因为这些是卡住整个产业链的量产瓶颈。 第三,二点四, ticoirin light 产业链是第二受益方向。 dsp 降级到十纳米,意味着更多供应商能入场代工,产能扩张的门槛降低了,那关键验证信号是什么?什么情况下,我们要重新评估这个判断。 叮!三个信号,第一个,幺二八端口什么时候出样品,这决定了研发进度到底有多快。第二个, soc 芯片的扩展进度,产能是瓶颈,不是良率。第三个,谷歌 tpu 的 实际部署节奏,如果部署比预期慢,那 幺二八端口还没 ready, 那 整个 ocs 供应的紧张程度会超出当前所有预期。 好,这期内容确实比较硬,我来给各位总结一下。 ocs 这条赛道,市场的共识推演是直线,以为六十四端口能安稳跑几年,但技术迭代的现实是折现。 v 八 i 这台新引擎把端口竞赛提前了至少两年。三个要点再回顾一下, 第一,谷歌 v 八 i 打破了六十四端口够用两三年的市场共识,满配无余量。幺二八端口研发从远期规划变成了紧急任务。第二,波导 ocs 的 核心壁垒在波导片加 s o a 矩阵,芯片不是谁都能做,能做的才是最大受益方。 第三, dci 产业同步在加速,二点四 t 相关模块进度超预期,所单延长到十八到二十四个月,这是产业链信心的硬指标。 最后送大家一句话,在技术迭代的产业里,最贵的不是算力,而是不够用的端口。判断一个产业链的投资价值,不是看他现在生产了多少,而是看他的产能平静,什么时候被需求追上来。当然这是基于当前调研信息的分析,市场随时在变,大家看个明白就好, 千万别盲目跟风。感谢观看,记得点赞订阅价值投资合伙人。另外也欢迎到我的橱窗看一下,里面有我精选的投资书籍,希望能帮助大家更好的构建投资体系。下期见! 本内容仅代表个人观点,基于公开研报分析,不构成任何投资建议。市场有风险,入市需谨慎。
粉丝3.2万获赞5.5万

就我这几天在环岛旅游,那我其实已经环过两次岛了,第一次是大学的时候骑车,然后第二次是工作时候开车,那我真的想说,我就当大众运输试试看,因为台湾车子已经卖掉了,现在没有车的状态, 那我才发现用 google 地图在台湾当公共运输真的有很多问题。就我今天在台南,然后我发现台南很多公车是没有连上 google 的 地图网路的,所以他没办法实时更新公车的位置,然后他上面就会显示说 预计发车时间,可是那预计发车时间不是真的发车时间,所以就常在那个发车时间已经过了之后,然后车都还没到,然后甚至过了十五二十分钟的时候都还等不到车。那还有一个问题就是 google 地图它的导航,它上面显示的预估时间 是不包含等候时间的。就你如果去用 google 地图搭火车或公车,然后它预估的时间是一个小时,那你自己还再加上大概二十分钟的等候时间, 不然你就很容易错过你后面的行程。那第三个问题是比较特殊,就是我今天搭的有一班车是二号公车,然后他在上个月四月二十二号改名成一零二路公车,公车站牌都已经改成一零二路了,可是公共地图上面还是显示二号线,然后就有四个人过来看,我就来找那个公车站牌, 周围一百米的公车站牌,我们都找到了那个二号公车,然后最后他们就搭机电车走了,然后我就留在那公车站牌,然后过了十分钟之后 就一个一零二号公车来了,那我就问那个公车司机说是不是二号,他说是,不过现在改名了。那我就说 google 还没改名就有四个韩国人,他们已经搭机车走了,然后司机说他也没办法,就 google 他 是一个全球限公司,所以他可能没有没有那么及时为了台湾这其中一个县市的一个公交车去改,对吧? 当然有可能是台湾市政府没有上报了。我也不知道,反正大家用 google 地图的时候一定要注意这三个问题。

沉默了十几年的谷歌眼镜终于复活了,这一次明显是冲着 matter 来的。就在今天的 google i o 二零二六大会上,谷歌正式展示了新一代安卓 x 二智能眼镜。美国科技媒体 cine 的 现场体验完后,记者的反应非常真实, but i did get to see your demos on prototype glasses, which look even better than the last time i checked them out what's really impressive? 体验下来最离谱的是 jammin, 简单说,他现在已经有点像真人版 james 了。记者随口问了一句世界杯相关的问题, jammin 直接在眼镜里语音回答, i've saved all of bosnia's world cup games to your calendar。 翻译功能更夸张,现场有人说法语,有人说葡萄牙语。眼镜会自动识别语言,然后直接把实时字幕显示在镜片里,甚至还会跟着说话人的语速变化进行同 声传译,传译的声音也会根据说话者的性别进行调整。 abitong tong tong canada a vegemoman mad emma shah because i lived in ken hida with my mother and my cat all right wow, that's cool! 那 在拍照方面呢?用眼镜拍完照片后,内容会立刻同步到手机和智能手表,而且微软手表甚至还能反过来当眼镜的取景器。 最抽象的是,现场还演示了 nano banana。 记者刚用眼镜拍完一张照片, ai 立刻把它改造成一种灵奇漫画加寿司的诡异艺术风格,而且生成结果会先出现在眼镜里,然后再同步到手机 另一边。 xreal 的 project aura 甚至已经开始搞空气操作了,直接用手势隔空捏合滑动控制应用, 看是不是已经越来越像钢铁侠里的 tony 操作 jarvis 的 界面了?总体体验下来的感觉就是谷歌这次终于学聪明了。当年 google glass 最大的问题是什么像个赛博神棍。而现在的新版本开始疯狂去即刻画 谷歌,直接拉来三星 warby parker gentle monster 一 起做外观,说白了就是先让它看起来像正常人会戴的眼镜。当然它也不是没有槽点, 比如 jamming 和同声传译会有略微延迟,比如 project aura 还得外挂算力设备。但现在这些已经不算什么大问题了。你觉得谷歌 mate, 苹果到底谁会先把手机这个终端从你口袋里彻底干掉?评论区聊聊。

就在今天的凌晨呢,谷歌他举办了二零二六年的开发者大会,发布了很多的新成果,让人眼花缭乱。但是我们要去抓最关键的突破点,也就是真正重要的东西。 这次大会的这个核心,他不是说模型参数又大了多少,而是谷歌在重新定义这个人和手机之间的关系。以前是你打开一个又一个的这个 app 自己来操作,那以后可能就是你对着手机说一句话,剩下的他全办了。 那为了支撑这套东西跑起来呢?谷歌这次端出了三样东西,第一个是 germany 三点五 flash 模型,它最大的特点不是聪明,是快,生成的速度是其他模型的四倍,而且今天起全球免费。那为什么 快这么重要?你想啊,如果说你让 ai 帮你改个行程,它在那儿转了三到四秒转圈圈,你还下次敢用吗?只有响应快到几乎没有延迟,你才敢把一些真正重要的事儿交给他去做。第二个呢,就是 germany spark 的 智能体,这个就是让 ai 长出手脚的关键一步了, 它能够跨应用去推理和执行,那么这件事儿背后的信号其实挺大的,以后那些 app 可能就不再只是你手机上的主角了,它们会退到后台,变成一个又一个被 ai 去调用的 功能模块。第三个就是它们这次又重新杀回了智能眼镜的赛道,这副眼镜它不只是拿来拍照的了,它是 ai 的 眼睛 搭载的技术,能让 ai 实时看懂你眼前的东西,你带着它走到哪里, ai 就 看到哪里,这个就把线上和线下的这种物理世界打通了,所以你看呢?把这三件事串在一起,就是谷歌它想搭建的一条 完整的炼炉 ai, 有 了眼睛看世界,有了足够快的大脑做判断,再配上 spark 这双手去执行。那么问题来了,听起来挺美好的,但是市场它在担心什么呢?核心其实就一个问题,你信不信任它 让你把你的支付权限、社交账号、行程安排全部都交给一个对话框,你真的放心吗?如果说用户在这个问题上过不去,那么 spark 再强也不过只是个高级的搜索工具,它是没有办法真正进入到你的生活里去干活的,这个也是目前多空分歧最大的地方。 那么我们回头再来看看国内这边,这周正好有三部门联合发了国内第一个智能体的专项政策,提了十九个典型的应用场景, 那么专家也判断在未来三年,这个领域是会爆发式增长的。但是国内真正要解决的问题是各家的这个 app 之间的数据能不能打通。如果说华为、小米、百度这些本身有全家桶的这个公司,他推不动这件事,那么国内的智能体就会很尴尬, 有脑子有想法,但是手脚被绑住了,所以落到 a 股,其实盘面已经有反应了,五月份整个智能体的板块普遍在涨, 机构调研和这个资金的关注度也明显在升温。但是这里要冷静地看,目前确定性最高的其实不在软件还是在硬件, 第一条线呢,就是谷歌这条链上的硬件。这次谷歌他发了新手机 pixell, 十一也重新杀回了智能眼镜。 那么这两款产品的逻辑不是拼参数,它是为了跑通端侧 ai, 你 想这个 gemini spark, 它要在本地做推理,那么对 npu、 算理、内存、待宽散热的要求就实打实的往上跳了一个台阶。 所以这条链上的这个机会不是炒概念,是实实在在的供应链增量。比如说做高待宽存储的,做这个新型散热方案的,做智能眼镜、光波导和危险式的, 这些环节会有订单跟着谷歌的产品节奏来走。第二条线呢,就是国产智能体带动的硬件升级。这周国内刚出了这个智能体的专项政策,方向已经很明确了,不管最后跑出来的是哪家,只要智能体要落地,手机端侧的算力就必须往上顶。 这个就带来了一个确定性比较高的逻辑,就是国内手机厂商接下来的旗舰机大概率会把能跑智能体作为一个核心的卖点,那么对应的存储升级、散热升级、端侧的推理芯片这些需求都会跟着起来。 这条线呢,和谷歌没有直接的关系,但是逻辑是同一个逻辑,软件倒逼硬件迭代,所以总结一下,谷歌链的硬件吃的是谷歌新品周期的增量, 国产链的硬件吃的是智能体政策推动之下,国内手机厂升级的这个增量。这两条线呢,不完全的重叠,各有各的节奏,但是底层的驱动因素其实是一样的, 端测 ai 不 再是跑个 demo 这么简单,而是要真的干活了。最后呢,我们再说两个需要盯紧的这个指标,一个就是这个 germany spark 公测之后,用户有没有留下来持续用,如果说只是长个新线就卸载了,那么这个故事的根基就不成立。 第二个呢,就是新手机跑端侧大模型的时候,发烫和续航撑不撑得住?如果说体验翻车,那么所谓的这个换机潮也就无从谈起。那聊到这,我也想问问你,假如这几个产品真的摆到你面前, 一个是快到没有延迟的 ai 助手,一个是能替你跨应用干活的智能体,还有一副能看懂你眼前一切的这个眼镜,你最愿意为哪个买单?或者你觉得哪个对你根本没有吸引力呢?

谷歌昨天更新的 flow 智能体也太好用了吧,可以直接一次性生成十四张图片,再也不需要一张一张去生成了,一起来看看是怎么使用的吧。今天给大家介绍一下最新的 flow 的 这一个 agent, 呃,特别好用啊,它的最好用的点在哪呢?就是它和一次性生成的图片没有上线。 嗯,假如说大家看到像我当前的这一个画面,我可以给他一个画面,他瞬间呢就可以给我生成十四张完全的这样的照片,大家看到瞬间十四个角度,这都可以了。好,这个具体怎么来操作呢?首先第一个,这是我的根图啊,随便拿一张你的图片出来啊,添加到这里面。第二个,这里使用智能体。 好,然后的话呢,点开这个智能体,好,我把它删掉,添加指令,添加指令之后的话呢,把我们的这一个十四分镜的这个模板给它拉进来,放到这里面粘贴啊,就可以了,点击确认。好,这样子的话呢,那么 他就有了十四个的规则啊,有了这个规则之后,那么你就写关键词叫生成十四张图。好,然后根据以上 十四个以上规则,就是因为我的那个里边是有十四个角度啊,以上规则生成十四个角度 的图片,这样子的话呢,你就直接点击开始。哎,这样的话呢,那么他这边就会稍等啊,他这边就会有这个 需要你确认,如果你是 bro 的 这个会员的话呢,升图是免费的,那么他就会让你确认一下,然后您啊积分啊可以使用,当然你也可以批量的生成多个视频。好,这个是 第一个操作,就是大家可以看到他会瞬间给你生成十四个角度的这一个图片,这第一种的。好,第二个的话呢,那么有了这一个之后啊,那么第二个就是我们以前做画面是使用九宫格的,那么以后我们其实从理论上来说就不再需要做九宫格了,那么我们的九宫格直接就可以变成, 大家可以看一下。好,我们的九宫格直接就可以变成一张一张的图。好,那这个的话呢,也是很简单的直接选择智能体,然后的话呢随便选一张这个九宫格啊,对,这些都是我刚刚已经弄完的。 好,假如说我到这个地方选择这张,呃,前面的这个九宫格吧,选择这个九宫格添加到这里面。好,那么直接生成啊,九宫生成九张图片。好,把以上九宫格图,九宫格图片啊,放大每一宫格。 好就可以了。好,直接点击它就可以了啊,这个时候你看到这里就会放大每一宫格的图片,点击确认。好,那么直接点击确认。哎,这个时候的话呢,他就会收到信息, 就帮你把这个呃画面啊,生成九张这种独立的照片,这样子就可以了啊,效果非常好,包括清晰度,大家可以看一下清晰度, 嗯,没有任何问题。好,这个就是他的智能体的使用啊,非常的方便。好,感谢大家观看。

今天凌晨,谷歌 i o 二零二六如期而至,随即宣布 gemini omni、 gemini three point five、 flash 等等一系列新产品。 这是什么?硅谷年夜饭?算粒满汉全席。媒体老师也非常懂事,标题直接起飞,谷歌亲手淘汰谷歌 视频版 nano banana, 全能 ai 创作引擎,全场最大的 c 位,毫无悬念给了 gemini omni。 这玩意号称是真正的全能大模型,能吃进任何形式的输入,拉出任何形式的内容。文本、图片、音频、视频,只要你敢喂,他就敢接, 而且首发支持视频输出,江湖人称视频版 nano banana。 你 看这个排面,劈柴哥和哈萨比斯同台登场,大招跟不要钱一样往外扔。他们说 omni 不是 在简单拼接素材, 他是在理解物理世界。以前的 ai 画个物理现象,重力和动能常常让牛顿想从苹果树下爬起来打人。但阿米不一样,哈萨比斯说他实现了阶跃变化, 氨基酸折叠都能给你干成科学准确的定格动画。甚至你拿个手机自拍,手心里画个圈,他就能立刻给你生成一个黑洞。看起来这不仅仅是降维打击,这简直是从四维空间扔了二象薄, 画面太美,数据太狂,狂到让人觉得好莱坞明天就得集体去送外卖。但这还不够刺激,发布会的另一个高潮是 jammer 三点五 flash。 只要你懂点行,你就知道现在的大模型卷速度卷到了什么地步。 三点五 flash 在 精准测试里,把自家前代旗舰 jammer 三点一 pro 按在地上疯狂摩擦,更离谱的是,它的输出速度直接翻倍,对比 gpt 五点五和 opus 四点七,速度快了四倍有余。这什么概念? 你这边的提示词刚敲完回车,他那边的答案已经糊你脸上了。天下武功,唯快不破, ai 界直接来了个闪电侠。 这还没完,谷歌还顺手倒出了一箩筐的重磅炸弹。 anti gravity 二点零桌面应用直接进化成 agent 的 开发平台。 james park, 七乘二十四小时在线的赛博打工仔。不需要五险一金,不需要情绪价值,只要服务器不断电,它就能给你打工到宇宙热季。 顺带把 jimmy 也改版了,代号 neuralexpressive, 改成算力计费。你以为他在做慈善,其实他在教你什么叫资本的洋谋。 甚至连搞了二十五年的谷歌搜索都迎来了史诗级升级。接入三点五 flash 智能搜索框,自动生成小程序。这一套组合拳打下来,干货密度堪称历年之最。大场发力,寸草不生。 那你说这东西真的这么神吗?往往打榜数据越炸裂,发布会的 ppt 越精美,里面的水分往往就越能养活一太平洋的鱼。 我怀着激动颤抖的心,拿着号称能改变世界的 omni 进行了实测。这需求可太真实了。毕竟咱们干自媒体的,天天盯着各种 ai 视频工具找灵感,就指望他们能帮着出大片,但结果给我看笑了。哎, 硅谷的公关稿还是太保守了。这哪里是改变世界,这简直是重新定义了拉胯。宣传片里是好莱坞质感,随手一划就能变黑洞。小提琴手在雪山和赛博朋克之间无缝切换。物理逻辑严丝合缝。 到了我这呢,我输入几段简单的指令,生成出来的视频,当场给我整出了工伤。说好的理解世界呢?服务员你好, 我想要一杯客了!好的,没问题!这一刻,我都怕他给我念出一段大悲咒来超度我的显卡。那些在发布会上惊艳全场的连贯性记忆力和物理法则,在实测面前碎的渣都不剩。 这不叫接月变化,这叫当场火化。网上的各路媒体还在疯狂吹捧热搜,通稿满天飞,但和实际效果一比,简直是截然不同的两个平行宇宙,那还能说啥了?看完这场魔幻的体验,我算是彻底清醒了。 现在的 ai 圈有一种极其不健康的畸形风气,只要打榜厉害,只要 ppt 做的炫,就能吹成天神下凡。 巨头们在台上拿着特供版的 demo 疯狂秀肌肉,底下的信徒们跟着无脑狂欢。 ai 好 不好用?只有我们这些一个个坐在电脑前疯狂敲着键盘,试图用它来铲除实际价值的用户给出的真实反馈才算数, 你数据再炸裂到了用户手里,变成了一坨赛博垃圾,那他就是毫无价值!请这些 ai 公司收起你们的滤镜吧!面对用户的实测反馈,少吹点牛,多打磨点细节,这才是对技术真正的尊重。这里是起点世界,聚焦最新 ai 资讯,我们下期视频不见不散!

四月份的时候,如果你问任何一个高阶开发者,桌面端该用什么?答案百分之一百是 cloud。 但是为什么到了五月份,大量原本始终的 cloud 的 用户开始疯狂逃离? 答案是令人窒息的账单。表面上看, cloud 更新到四点七之后,解决模糊任务的能力确实变强了,甚至还学会了点儿 gpt 那 种我要稳稳接住你的黑化。但在这背后,他悄悄修改了 tokenizer 的 计费逻辑,不再由用户控制思考深度,而是默认强制思考。 很多用户发现,更新之后的 token 消耗量至少比以前飙升了百分之二十到百分之三十。在传统的对话模式里,这或许还能忍,但在桌面端, agent 需要不断地读取本地文件,检查报错,无限循环执行测试。 一个晚上的全自动 bug 修复跑下来可能什么事都没干成,一觉醒来,几百美金的 token 额度就已经灰飞烟灭,甚至账户直接被刷成负数封禁。 cloud 狂飙的代价是,它正在把桌面 ai 变成一种连中产阶级都用不起的奢侈品。如果说 cloud 是 傲慢,那谷歌的 jammer 在 桌面端的表现只能用惊慌失措来形容。 在很长一段时间里, google 的 动作迟缓得让人难以置信。在这个谁先占领本地桌面谁就赢的关键节点, deepmind 内部似乎陷入了极大的混乱。 jimmy 的 模型表现极度不稳定,上下线差距极大,用很多开发者的话说,感觉就像是对牛弹琴,直接废了。但不可否认,谷歌的底子依然在。为了阻击竞争对手,他们成立了专门的 strike team 死磕 anthropic, 并在违背了多年不碰本地客户端原则的情况下,准备赶在五月二十日 google i o 大 会前极限发布了 mac 版的桌面应用。 谷歌的算盘很清晰,模型层面我暂时没拉开代差,但我要用我手里庞大的 g suite 浏览器和系统级生态强行捆绑你。 而整个五月最让人意外的反转,其实还是 codex 的 反杀。几个月前, codex 在 圈子里的名声并不好,他天天操着一口奇怪的黑话,犹如我不跟你绕,你就是太清醒了。 这种略带江湖气的 ai 语言,让很多严肃的程序员觉得他很不专业。但就是这个像街头混混一样的 codex, 在 五月份彻底掀翻了桌子。他凭什么? 第一,极其暴力的原声计算机控制。它不仅支持浏览器自动化控制,还能直接接管你的电脑操作系统。 很多人戏称它才是真正进化版的太空小龙虾,它会在每天早上你刚睡醒时像个真正的助理一样主动弹出来,告诉你昨天哪些代码跑通了,今天建议怎么改。第二,也是最致命的一击,廉价算力。 这也是为什么大量中国开发者和海外羊毛党集体抛弃 cloud, 转向 codex 的 根本原因。 codex 最聪明的地方在于,它本质上是一个路由器,或者说超级壳子, 它允许用户在后台极度自由地配置第三方 api 接口。在二零二六年的今天,国产大模型在代码生成和多模态理解上的能力已经逼近了美国的一线水平, 更重要的是,它们的价格只有美国巨头的几十分之一。 codex 实际上是借着中国模型的极致供应链优势,在全世界打了一场降维打击的消耗战。你 cloud 确实聪明,但我 codex 挂着国产模型,用只有你十分之一的价格,干成了你百分之九十的活。 在算力成本面前,什么高贵的设计感,什么灭绝师太般的统治力,全都不堪一击。那既然桌面端开打了,既然 agent 这么烧钱,那我到底该怎么用呢?记住一个死理,在桌面自动化时代,永远不要把所有的任务无脑扔给单一的重型模型, 你需要像管理公司财务一样管理你的桌面。 a p i 走向下面,我直接把这套目前硅谷极客圈都在用的三网融合工作流抄给你,建议直接截图或收藏,这能帮你每个月省下至少几百美金的冤枉钱。第一步,零门槛,底层部署, 不要去下载那些花里胡哨的第三方套壳,直接用命令行复制下面三行代码。 jimmy 只要有个公众账号就能白嫖。 codex 需要叉 gpt plus 或 open ai api key, cloud 则最贵,需要 pro 订阅或绑信用卡的 api。 第二步,正确分配工具,装好之后千万别瞎用, 你要学会给它们分配不同的工种。 jammy 去当免费的探路炮灰,他的核心优势是一百万 token 的 免费超大上下文,让他把项目吃透,给出方案,你点头了再动手。 cloud code 可以 当架构师,在多文件的一致性、对边界条件的考虑上, cloud 依然是目前地表最强。 codex 可以 当流水线工人,那些明确的、重复性的需要局换的脏活累活都可以丢给他。但也给个提醒, codex 的 浏览器自动化功能是一个极其危险的吞金兽,一旦它在测试网页时遇到浏览器崩溃,陷入无限重启的死循环,它一个晚上就能烧掉你两百美金,让你的 a p i 账户直接变负数。 所以凡是涉及浏览器的任务,必须一定绝对要设置超时熔断时间。第三步, 把这些工具组合成工作流。早晨掏出 gemini, 把长篇大论的需求文档和乱七八糟的旧代码丢给他,利用免费大模型把思路理清。下午掏出 cloud code, 针对核心模块进行重构,多文件同步修改,确保逻辑严密。下班前就可以让 codex 上场做 review 了。在这场桌面端的大战中,巨头们希望你变成那个无脑续费、任由 agent 烧钱的傻白甜。 但真正的超级个体,是懂得在不同的底层算力之间搭建属于自己的防火墙与调度器。这才是我们今天聊桌面 a p i 的 最终目的。记得关注这里是 ai 商业慢谈,每周分享最新的 ai 资讯和商业理解。

今年谷歌 i o 大 会有哪些看点?对国内的产业又有哪些影响?我们一个视频说清楚。首先是 token 方面,到了二零二六年,现在的月度处理量已经飙到了三千两百 t, 单平台的 token 日处理量都超过一百 t 了, e p i 每分钟处理一百九十一亿 token, 这个消耗速度确实是有点吓人。顺着这个 token 的 消耗,它们模型的迭代也挺有意思。这次发布的是 jimmy 三点五的中监态系列产品, 偏推理方向,那个 gemini 三点五 flash 版本的性能直接超越了三点一 pro, 速度比其他 sota 模型快了四倍。然后 gemini 三点五 pro 预计是在二零二六年六月发布,听说是要在 coding 和 coding agent 领域有比较强的加强。 还有一个很关键的动作就是谷歌首次在推进 world model, 也就是世界模型。紧接着他们还发布了原生全固态模型 gemini omni, 整合了图像、视频还有世界模型这些技术。这可以说是谷歌 ai 体系的核心,贯穿系统。说白了,这就标志着谷歌的 ai 愿景正在从组织全球信息转向模拟并代理物理世界。说到代理, 他们这次明显在聚焦 code agent 和 agent 的 生态。谷歌推出了一个叫 universal commerce protocol, 也就是 u c p 的 协议,摆明了是对标 andropic 的 m c p 协议。然后他们还发布了一个 agent 产品,叫 spa r k, 这个东西可以在谷歌云上七成二十四小时运行,目前它只支持谷歌自有的工具, 不过后续也会接入第三方工具。整体看下来,未来的 agent 将会把搜索引擎从一个单纯的信息入口,直接升级成交易和任务的执行平台。 你看,在搜索和电商业务的升级上,这个逻辑就体现得很明显。搜索端那边,他们推出了由 gemini 三点五驱动的 ai overviews 智能搜索框,支持上传图文和视频,还能开启对话式搜索, 甚至还能代替用户去和商家沟通。这种主动代理功能,电商端也是个大动作,他们推出了 universal cart, 也就是通用购物车,能支持跨平台的商品聚合、 ai 自动追踪、降价,还有补货提醒这些 a 政功能。其实前面提到的那个 u c p 协议,已经接入了 shopify 等主流平台,甚至还支持酒店预定等服务。 他把 a p i 支付协议打通了,用户可以通过 agent 进行有限额的信用卡消费,基本上就把发现、决策到支付的全链路闭环给做成了硬件和端测。他们也没落下,这次宣布了和三星合作, 基于交通平台去开发 ai 眼镜,这里面的产品包含了带显示功能和语音交互的两类。就在二零二六年秋天,他们会先推出语音交互款,功能上支持听音乐、拍照、通话以及调用手机 app 等, 未来还会继续向 ar 智能眼镜的方向去发展。当然,这背后全靠算力在撑着。谷歌此前已经公告过,二零二六年的资本开支是在一千八百到一千九百亿美金,它们第八代 tpu 的 算力比前一代直接提升了三倍。这次第八代 tpu 分 成了两款,一款是八 t 训练芯片, 专门用于大规模预训练,支持跨数据中心训练,能完成超百万卡集群的部署。光模块标配一点六 t, 另一款是八 i 推理芯片,这是谷歌历史上首款推理专用的芯片,特别强调低延时,最大能支持一千一百五十二张八 i 芯片的集群互联。而且你会发现 谷歌的 tpu 正在从自用转向外公。他们和黑石成立了 e t u cloud 的 合作公司,黑石出使就投入了五十亿美元, 目标是在二零二七年上线五百兆瓦的数据中心容量,来提供谷歌的 tpu 算力服务,整个投资预计会达到两百五十亿美元。关于 tpu 的 出货量,预期他们二零二五年出货量还不到两百万张,二零二六年预计就会有大约四百万张, 二零二七年预计能达到一千万张,到了二零二八年预计会达到两千万到三千万张。既然芯片出货量上去了,集群和网络架构肯定也得跟着升级。它们的最小 pod 的 计算单元提到了九千六百张卡,同时还首次推出了可以商用的 scale out 网络, 最大支持三万四千四百张卡的集群训练。这么一来,光模块的用量就大幅提升了,训练端和推理端都在加单,同时 ocs 交换器的用量也在提升, 训练端和推理端都有明显的增配需求。聊到这,咱们来看看整个产业链上那些正在受益的公司。光模块产业链这边,你可以重点看看谷歌的光模块供应商, 像中际旭创、力迅精密、联特科技,还有美股的 f i n i s a r。 上游的光芯片供应商里面有原结科技的厂商,比如光库科技、德克利福金科技、藤井科技、 海泰星光也都值得留意。再往深了看,半导体产业链的变化也很大。 t p u 制造相关的有台积电,他们负责了 t p u 的 全部流片和 koloss 封装。还有博通 作为 t p u 核心设计供应商,和谷歌签订了长期协议,一直到二零三一年,同时还供应数据中心网络组建。联发科也参与了部分的 t p u 设计。存储相关的有美光、海力士、三星, 随着 tpu 出货和 token 消耗的增长,它们 hbm 和 dram 的 需求都在跟进。而且随着视频和图片生成以及 agent 任务结果的存储需求增长, enfinash 的 需求也在动。 pcb 相关的有沪电股份、深南电路、彭鼎控股、圣虹科技、广核科技、东山精密,它们都是 tpu 回到 gpu 主板的核心供应商。服务器和交换机组装这边有天弘科技,负责服务器和交换机组装,力迅精密和东山精密则负责光模块组装。 甚至连数据中心基建产业链都在变。受这种百万卡集群和跨数据中心合作需求的影响, d c i 也就是数据中心互联的前景挺广阔的,像诺基亚电力企业,还有数据中心厂商都卷在里面。最后就是应用端产业链了, ai 营销里面有一点,天下、汇量科技、蓝色光标, ai 电商里面有值得买。焦点科技,视频深层领域则有中文在线、昆仑万维这些,大家伙都在跟着。

这次谷歌 i o 大 会刚结束,全网最出圈的一句评价来自富盛,谷歌这次直接拉完了!结合整场发布会、硅谷舆论、人才动向再复盘。你会发现,这场看似重磅的发布会,一边是巨头试图稳住 ai 王座,一边是漏洞百出争议不断。而真正的行业真相是, ai 竞赛早已从模型内卷彻底转向生态组织效率的终极战争。很多人只盯着 gemini 三点五、 flash 两款新模型,却没看懂谷歌当下最尴尬的处境。 富盛直言,拉完了并不是随口吐槽,而是精准戳中核心痛点。谷歌本次仅发布 gemini 三点五 flash 视频模型, 在纯视觉效果、短视频流畅度、镜头表现上,普遍被认为连 cds 二点零都赶不上。就连谷歌内部工程师都承认,模型开发长期受版权合规束缚,数据定位模糊,分不清到底是做电影级质感还是短视频爆款,内容市场更是普遍看衰,预测 pro 版本提升空间有限, 这已经不是技术问题,而是谷歌在视频赛道上的战略失误。但有意思的是,一边是视频模型被中国团队反超,另一边谷歌却在悄悄完成一场更恐怖的变更。传统谷歌搜索正在彻底消亡, ai 操作系统正式上位。十年前搜索靠关键词,五年前靠语义理解, 现在谷歌直接把 gmi 嵌入搜索框,实现文本、图片、视频、文件、浏览器、标签页全模态输入, ai 自动推理,直接给出答案,帮你完成任务。 谷歌喊出一句最关键的话, google search is i search! ai 钙览覆盖二十五亿用户, ai 模式月活突破十亿,这不是实验室功能,是全球互联网底层入口的重构。 谷歌最大的护城河从来不是单点模型,而是海量真实世界数据加全球分发能力,这是创业公司短期内无法企及的壁垒。而争议最大的 gemini, 很多人误解成普通纹身视频工具,谷歌真正想做的是世界模型, 核心逻辑,任意输入生成,任意输出。它最大亮点不是画质,而是解决行业最大痛点,可控性支持角色替换、元素修改、镜头调整、对话式迭代,让 ai 视频从抽卡式娱乐走向工业化生产,适配广告、影视、动画、游戏全场景, 同时快速接入 gemini app, youtube shorts workspace, 巨头的生态整合能力依旧碾压对手。可谷歌的问题从来不是单点技术,而是庞大帝国式的组织病。最能印证这一点的就是轰动硅谷的卡帕西跳槽事件,前特斯拉 ai 总监 andry karpacei 宣布加入 anthropic, 一条推文热度直接碾压整场谷歌 i o 发布会。 antropic 只有三千人,谷歌有数万 ai 研发人员,可如今定义行业方向,实现技术突破的,反而是这些小而精的创业公司。 原因非常现实,谷歌多部门并行,开源,视频代码搜索团队各自为战,部门强邻立,资源分散向晚清百万大军人多却调不动。 而创业公司极致单点突破,没有历史包袱,迭代速度一蹶绝尘。放到全球格局,中美 ai 差距正在快速反转。美国巨头曾经在视频代码领域全面领先,如今已经被中国模型反超。 cds 二点零,依靠抖音 tiktok 成熟数据闭环,在短视频生成、迭代效率上遥遥领先。 谷歌受合规组织层级束缚,动作迟缓,创新受阻。 ai 原生时代比拼的不再是研发人数,而是组织敏捷度。 想要破局,谷歌必须重构整套体系,用 ai 量化员工协调能力,缩短决策链,放弃大而全路线建立数据产品闭环,否则再强的技术储备都会被低效组织消耗。市场已经用脚投票,谷歌 io 当天股价下跌百分之二点零九, 投资者对其 ai 变现速度、创新效率信心不足。整个行业清晰看到 ai 已经进入颠覆性创新阶段。创业公司负责定义技术标准, antropics、 cds 这类团队在单点赛道快速突破。而谷歌、微软这类传统巨头,要么成为高校跟随者,要么彻底重构组织 dna, 否则只会一步步掉队。回到附上那句,拉完了,其实说的一针见血, 谷歌不是没有技术,而是巨头惯性太重,合规枷锁太多,组织效率太低,在需要极致敏捷的 ai 时代,正在被小团队快速追赶甚至反超。谷歌 io 二零二六本质就是一场时代分水岭,过去大家卷模型、卷参数,未来比拼生态落地、组织能力、用户价值。 巨头有体量,创业公司有速度,美国有底层优势,中国有场景效率。 ai 战争才刚刚开始,谁能打破制谷快速迭代,把技术变成普通人的日常价值,谁才能真正笑到最后。

有人说 jammer 现在变得跟豆包一样聪明了,这句话是讽刺,但我觉得这恰恰说明,谷歌总算想明白了一件事。过去两年, ai 行业所有人都在卷智商,试图在各大 benchmark 上多拿零点一分,但在经济学中,这叫典型的过度服务。 对于百分之九十的用户来说,从够用到顶级之间的差距大,模型公司付出的算力成本是呈指数级爆炸的。 这就是 cloud 目前面临的困局,为了服务那百分之一极度挑剔的高端程序员,他们把模型做得极其昂贵。而 google 这次彻底想通了, gmail 三点五 flash 放弃了做最强做题家,换来高达其他前沿模型四倍的每秒输出 token 速度。 在 i o 大 会的现场, google 还展示了用底层更新的 anti gravity 二框架驱动 agent 的 极限能力。他们让九十多个 agent 协同工作了十二个小时, 从零开始完整构建了一个能运行毁灭战士的操作系统,总开销仅仅花了一千美金。如果在以往,单单消耗的 token 费用就可能高达数千甚至上万美金。 那谷歌为什么要放弃高端市场?因为在这轮 ai 竞赛里,高端用户的心智基本已经被两家公司锁定了。 谷歌如果这时候还在这个赛道里正面硬打,打的是一场后发劣势的仗。而且更重要的是,高端用户根本不是谷歌需要的那批人。谷歌真正的战场是搜索、 youtube、 gmail 是 那二十多亿个普通用户每天反复打开的产品。 这批用户不需要最聪明的 ai, 它们需要的是用起来顺手的 ai, 这才是谷歌的护城河。 而整场发布会另一个被严重误读的是多模态,尤其是视频生成。 google 拿出了全新的多模态模型 gemini omni, 它被称为视频版的 nano banana。 如果你仔细看 gemini omni 的 演示,你会发现 google 的 重点根本不在于生成一段震撼的大片,而是精准控制与爆改。 google 真正害怕的是抢走全球数十亿年轻人注意力的 tiktok。 对于百分之九十的短视频创作者来说,真正缺的是极低门槛的二次创作能力。所以 google 把 ai 视频能力做成了傻瓜化的编辑工具。 在韩国餐厅老板的真实案例中,店主可以自行完成菜单、动画和推广视频的制作,而不再需要花钱请专业技术人员。这才是最恐怖的羊毛。 google 正在用足够好用、成本极低的 app 里千千万万的草根博主。 如果说降价和视频只是商业层面的围角,那么 anti gravity two 发布则是直接把刺刀捅进了传统程序员的心脏。 过去大家对 ai 编程的认知还停留在 ide 里的一个代码补全插件,但这次 i o 大 会上, google 直接宣布 anti gravity two 是 毫不避讳的 agent 优先,它直接提供原生的 c l i 和 s d k, 并且可以和本地浏览器进行完全联通的即时联调。 最令人毛骨悚然的是它的生态整合能力。在这个框架下,你不再需要自己去折腾服务器部署和繁琐的测试。它突破了应用边界,可以直接一站式开发能在 google play 上发布的应用。那作为普通人,我们该怎么在这个白刃战的阶段套利? 我们可以利用谷歌这次极度廉价的 gemini 三点五 flash 和 anti gravity c o i 给自己搭一套零门槛桌面自动化工作流,建议大家先收藏或截图。 步骤一,明确分工,把你手里的模型做物理隔离,重复性、标准化的任务全部给 gemini 三点五 flash。 安装 gemini c l i 之后,直接在终端输入下面的指令, 需要深度推理关键判断的任务,再去掉 cloud 或者 gpt。 这一步做好,你的 api 账单可以直接砍掉百分之四十到百分之六十。步骤二,用 anti gravity cli 实现本地全自动测试循环。这一步稍微有一点点门槛,但我会说得足够清楚,让你知道该怎么做。 核心逻辑是这样的,以前你写代码或者改网页,每次改完要自己打开浏览器看效果,发现问题再回去改,再看再改。这个改到看到改再看的循环是纯粹的体力活。 现在你可以用一个简单的 bios 脚本,让这个循环完全自动化。以前你不敢这么玩,是因为无限循环截图会让 a p i 账单原地爆炸。但现在 flash 一 次截图分析的成本大概不到零点零零一美元,你一天循环一百次,成本不到一毛钱。 步骤三,跨模态生态白嫖如果你是 mac 用户,这一步是这次 i o 大 会给你最直接的红利,而且完全免费,只需要把你的发票、 pdf 财报截图直接拖到桌面框,选这些文件,按住快捷键, 直接用语音下达指令。它会用多模态视觉直接读取这些本地文件,理解文件结构,自动在 gmail 里抄格式完整的邮件放进待发对列。 你要做的只有两件事,说完这句话,然后核查一遍邮件内容点发送。你不需要花一分钱去买 r p a 软件, 谷歌已经把这套能力白送给你了。但请注意, mac 端的视觉联动仅仅是谷歌庞大沙雕里最浮于表面的前菜。如果你只把 jammer 当成一个更聪明的快捷指令,那你就完全没有看懂 i o 大 会真正的底牌。 这场大会释放的最危险的信号在于, ai 正在从被动召唤走向后台挂机。在过去,无论 chat、 gpt 还是 cloud 有 多强大,它们都有一个致命的物理缺陷。只要你合上笔记本屏幕或者切出 app, 它的工作就停止了。 但在这次 i o 大 会上, google 抛出了一个让所有做效率类 sas 的 创业者倒吸一口凉气的怪物, gemini spark。 它是什么?它不是一个聊天窗口,而是一个二十四小时运行在 google cloud 专属虚拟机上的全天候个人代理。 你只需要按住语音键。说完后, gemini spark 会在后台利用底层的三点五 flash 模型,极速将这段语音拆解成多个独立的子任务,自动生成了带有颜色标记和复选框的代办清单。 更致命的是, google 宣布,今年夏天 spark 将直接集成到 chrome 浏览器中,作为跨网页的代理运行。 这意味着,那些靠帮用户打通不同软件接口来收月租的中间件,以及无数个主打自动整理日程的效率 app, 瞬间失去了存在的意义。如果说 spark 只是在帮你处理内部事务, 那么 google 接下来发布的两款 agent 则是直接把枪口对准了全网的商业流量。过去二十年, google 搜索的商业模式是流量分发,你搜索一个关键词, google 赚广告费,但搜完即走是这种模式的死穴。这次 google 寄出了 search agents, 他把搜索从被动解锁升级成了主动侦探。你可以同时启动多个 agent, 在 后台二十四小时全天候扫描全网。配合这个动作的是另一个怪物, universal cart。 这是一个跨越 google 搜索、 youtube 和 gmail 运行的智能购物车,能在后台自动为你比价,追踪价格走势,监控捕获。看懂这背后的羊谋了吗? 然后我们现在再回过头来看,为什么 google 敢于降智?为什么它允许 gemini 三点五 flash 在 极限考题上丢分,甚至被嘲笑是美国豆包。因为对于 google 来说, ai 从来不是一件拿来炫耀智商的奢侈品,而是一项用来垄断入口的基础设施。 openai 和 antropica 必须卷智商,因为它们是模型军火商,如果它们的模型不够聪明,用户下个月就不续费了。但 google 不 一样, google 卖的是水电。当 ai 走向智能体工作流时,软件的商业模式就变成了卖消耗。 google 根本不在乎你觉得 jamming 聪不聪明,只要你习惯了用 anti gravity 在 本地极速条代码,只要你习惯了 spark 在 后台替你读邮件和钉盘,你就在无时无刻地消耗 google 云端 tpu 的 算力。 酷狗甚至可以把模型能力像自来水一样免费送给你,或者极低迷的价格倾销给你,用极度廉价的 token 耗死那些只靠卖模型存活的创业公司。 最后说一句我自己的判断,有人说谷歌这次 i o 大 会没有惊喜,没有那种哇颠覆性的东西出来了的感觉,我反而觉得这恰恰是谷歌成熟的标志。早期的 ai 军备竞赛,靠的是一个接一个的技术起点,但起点之后是什么?是落地? 是整合?是让这些能力真正进入普通人的日常工作流。谷歌这次做的就是这件事,没有一个单点让你目瞪口呆,但整体拼起来,你会发现,你日常用的每一个谷歌产品都悄悄变了。 这不是高光时刻的发布会,但这是真正改变用户行为的方式,而改变用户行为,才是商业竞争里最难也最值钱的事。记得关注这里是 ai 商业漫谈,每周分享最新的 ai 资讯和商业理解。

先跟大家说清楚哈,今天这个视频只跟大家聊聊海外安卓那边发生的一件事,纯科普分享,和咱们国内的使用环境无关,大家放心理性观看。二零二六年九月,谷歌要推行一条新规,直接改变海外所有安卓手机的使用方式。简单说就是, 以后不管是什么软件,只要想装到海外的安卓手机上,开发者就必须先在谷歌那边注册交钱,提交实名信息,不照做的话,这个软件就根本装不了。受影响最大的就是那些普通开发者、学生, 还有平时喜欢自己写点小工具的爱好者,本来就是兴趣使然,现在平白无故要交保护费,还要暴露自己的真实身份。 其中最让人惋惜的就是 fjoy 这个平台,可能很多朋友没听过,它是一个做了十几年的公益应用商店, 全程没有广告,不靠赚钱,全靠全球各地的志愿者免费维护,只分享完全开源免费的软件。它存在的意义就是让普通人能自由无门槛的使用软件,现在它也快要被逼到走投无路了。用一句话概括就是,谷歌的开发者验证,表面上是为了安全, 实际上是把安卓应用分发的总阀门握在了自己手里。而 f d r o i d 代表的开源社区认为这是对开放生态的根本性挑战,两者之间的博弈将在二零二六年九月进入关键阶段。 海外很多安卓用户早就看透这件事的本质了,有人说手机是我自己买的,凭什么谷歌说了算。也有人吐槽,所谓限制安装软件,就是大厂玩的文字游戏,本质就是搞垄断,掌控我们的设备。大家甚至都预判到了今天管控手机, 明天可能就会把手伸到电脑上。所以二十三个国家,七十一个民间组织全都站出来反抗了,包括电子前沿基金会、托儿项目,这些机构都和 f g a 的 站在一起。他们说得很直白,这根本不是为了安全, 这是为了管控,不是在保护用户,是在把我们的自由锁死。可能你平时不玩数码,不懂代码,也从来没用过 fjoy, 会觉得这是离自己很远。但其实 fjoy 坚守的东西特别简单,我的手机我自己说了算,我想装什么软件, 不该由一家大企业来决定,这份选择权本来就是我们每个人该有的。当一家巨头想靠着规则垄断整个行业, 把我们自主选择的权利直接拿走的时候,我们就应该明白,自由这件事从来都需要我们自己去守护。我们不是非要和谷歌作对, 我们只是想守住 fjoy 坚持了十几年的初心,守住我们对自己设备、对数字生活的掌控权。希望在冷冰冰的商业世界里,永远能留一扇不用花钱,人人都能自由进出的门。

好的朋友们大家好,就在昨天,谷歌刚刚结束了他二零二六年的 i o 大 会,然后这一次大会也是带来了很多新的东西,虽然我看反响没有特别热烈,但谷歌还是有不少的新东西端上来的,让我们分别看一下有些什么。首先第一个最重要的就是他更新了他的 jimmy 的 模型,更新到了三点五 flash, 主要强调的是它的速度又提升了四倍,它现在已经全面的替代了旧款的 flash 模型,它号称这个三点五 flash 在 编程和复杂的长周期任务上甚至超越了老款的三点一的 pro, 它的多步骤工具调用以及推理能力都得到了一些增强。 具体的编程和复杂任务我还没有测过,但是我实际在 gmail 里面试了,它的速度确实非常快。第二个比较重磅的更新是谷歌的这个叫 gmail omni, 它说是一个世界模型,但是绝大部分人可能理解的就是一个视频模型,因为它最终输出的一个结果是一个视频的结果。但是谷歌它号称的是一个多模态世界模型,它希望你可以同时输入文本、图片、音频、视频等它最后输出一个视频的结果出来。我看了下,很多用户拿它和现在的视频王者 cds 二点零去做对比, 确实在纯视频的这个生成效果上,可能 omni 还是略逊色一点,但是它比之前的视频生成也是提高了不少的效果。而且它比较强调的是它的这个 omni 模型里面是自带的一个物理引擎的这种效果,所以它在生成一些有重力,有液体流动的这些效果的时候会特别好好的。第三个就是 gemine spark, 这个有点抽象,可能很多人用不到它,这个就是一个跑在云端的一个二十四小时在线的一个 agent, 可能这个也是它受之前 opencloud 的 这些影响推出来的这个一个运行在云端的帮你干活的一个工具。下一个巨大的更新是谷歌的搜索功能,谷歌最根本的这个业务发生了一个巨大的一个搜索重构,它把它的这个搜索全面的接入了 ai。 它现在的 ai 搜索是通过 gmail、 视频、图片各种类型的自定义搜索, 而且它可以在搜索当中不断地用 ai 的 模型调用去进一步的搜索,所以这也是未来发展的一个趋势,搜索不再只是单纯的根据关键字去提取,而是一个有 ai 带入思考的一个对话的搜索过程。接下来还有一个这里表格没有提到的是谷歌更新了它的 anti gravity, 可能我现在不提,很多人已经把这个工具给忘了, 但是这一次谷歌把 anti gravity 升级到了一个二点零,现在它的那个界面已经非常像 cloud 和 cortex 桌面端的那种 agent 的 一个界面。其次谷歌之前做的那个 gmail c o i 也是会被正式地退出历史舞台,而是转为 anti gravity 的 c o i。 也就是说谷歌是打算把 anti gravity 向 codex 那 种形式一样,既有一个页面的编辑,也有一个 c o i 的 一个终端命令行。最后的最后大会就是发布了一款谷歌的智能眼镜,谷歌也是终于重新杀回了这个硬件市场,这款 ar 眼镜将在今年的秋季上市,它同时兼容安卓两个系统。总的来说,谷歌的这次大会并没有带来特别多颠覆性的革新或者说升级, 但都是稳扎稳打的一步步的更新,也指明了未来 ai 发展的一个趋势,依旧围绕着 agent 的 能力提升,以及硬件和 ai 的 一个融合。

谷歌刚刚发布了 jimmy 三点五 plus, 同时还把他们的编程工具 antigravity 升级了二点零,那这次就很明显了,谷歌的话这次是要全面提升它的这个抠点能力。之前不管是在 coi 还是 ide 还有模型, 其实给我的感觉就表现很一般,那这一次的话,这个模型最大的亮点官方说就是它的这一个速度啊,是前模型的四倍, 所以这一期我们就测一个最关键的问题,这么快的速度,它整个的一个代码质量会不会缩水?那我直接会拿两道真实的一个编程任务,把它和 cloud op 四点七, gpt 五点五放到同样的项目里面,同样提示时看它大家的一个表现情况。那下面的话,我们大概去扫一下它官方改出来的一个奔驰 mark 评分哈, 在编程方面的话,主要就看这一个 terminal, 奔驰二点一,还有这一个 sw 一 奔驰 pro, 从这个评分看的话,这一个 jimmy 三点五 plus 这个评分还是可以的哈,但是基于我之前对于谷歌模型实测的结果来看,就是评分不代表一切,因为之前就感觉它在这个编程方面挺拉的,这次我们就看整个的一个三点五 plus 表现到底怎么样。那这一次的话,我们的整个测试题目哈,就是沿用之前测试 cloud of 四点七,还有就是 gpt 五点五的两道真实的一个编程任务。第一个的话就是我们这一个 skills agent 嘛,需要把它从一个 c o i 做成一个 web ui。 第二个的话是希望他从一个已有的比较复杂一个项目里面把这个认证登录给它迁移过来,这一块也比较复杂,需要支持啊, get 谷歌,然后还要做一个落地页。好,我们来看一下这两个实测项目哈,左边的话,就我刚刚说的这一个 skill is a 镜头嘛,第二个的话就我们图片生成 a 镜头,那这次的话,我们是用了这个 anti gravity 它的一个 c o i 终端工具, 整体这一块呢,它的交互的话是跟呃卡扣的很像,那我这边测试下来,他的速度是真的快,相当相当的快,他说四倍,一点都没夸张。 那大家看一下它这个交互的一个情况啊,其实还是感觉挺挺好的。这个交互,那至于整个模型的能力怎么样,那这两个任务我这边实测下来,它都没有一次性的去完成,它或多或少都有一些小问题。那同样的这个提示值,在同样的项目,我给到了 gpt 五点五 以及 calloff 四点七,它都是能够一次性完成的,不管这两边哪一个项目都可以完成。但是 gmail 三点五 plus 它除了快,但它其实还是会有一些或多或少的 bug 嘛。好,我们来看一下它整体的一个表现情况。 好,我们来看一下这个是 jimmy 三点五 plus 帮我们完成的 skus agent 的 一个 ui 界面嘛,它可以去执行一些操作,比如说我给他一篇文章,可以让他帮我们去总结,它就会去加载这个的 skus。 就 我之前有一期视频 专门讲了这个 skills 的 一个工作原理嘛,那这是它完成的一个效果,整体上 ui 这块还 ok, 那 这边的话是 g p d 五点五给我们完成的,左边也是有我们的一个的一些 skills 是 哪一些?那右边的话就是它整个的一个操作的一个过程嘛。怎么说它这个 ui 的 一个结果的话,我觉得就是呃 g p d 五点五的会好一些。 那关于图片生成这个项目,让它去做一个落地页,以及让它去做一个就是谷歌 get 五的认证登录嘛,那这块它也是完成的,但是不是一次对话完成的。 u i 这块的话就是谷歌还是可以的,就是相较于 g p t 五点五的话,我觉得还是会好一些,就 u i 这块的话,我们还是优先选择就是谷歌的模型嘛。 好,下面我们来看下整体这个评分结果哈,那这个评分的话,还是跟之前一样,我们是把所有的模型生成代码通敏之后,然后改到模型去做 review。 那 这边的话 g p t 五点五是要胜出的,它的分会高一些。 第二个的话就是 cloudoff 四点七会辞职,那 gpt 三点五 plus 的 话,它整体评分效果会低一些,也就是它除了快,那代码质量上的话是会差一些。那这边的话也有些解决方案,比如说你可以用 cloudoff 四点七做设计,或者 gpt 五点五做设计,然后再用呃 jimmy 三点五 plus 去做执行。 那这块儿它还不是还发布了这个 anti graphic 二点零嘛。那这个 id 的 话,你就把它等同于 codex 吧,跟 codex 一 模一样。那我这边的话 现在还登录不进去,不知道啥问题。好,下面我们来进行一个总结。那这次他的整个编码水平的话,就是速度上确实是领先很多,但是在交付的一个结果上来看的话,跟国外两家模型还是有差别,尤其是在一些复杂项目里面,他还是会有偷懒的情况。 如果你是需要去做一些原型啊,或者做一些 u i 啊,我觉得这个 jimmy 三点五 plus 真的 是有比较有吸引力,因为它整个速度比较快,而且它的价格也比较便宜。那如果你是需要一些复杂的项目啊,多文件呀,那阶阶段我还是更推荐大家使用 g p d 五点五,在 codex 里面 你运行起来也非常的快。扣袋子这个 app 我 强烈推荐给大家用,我已经最近用了一个多月了,真的非常非常的好用, card 的 话就是封号真的特别严重,我已经放弃了。 ok, 那 这就是这期视频所有内容了,如果大家觉得这期视频做的不错,可以跟我一箭双雕,我是阿江,我们下期见,拜拜。

刚落幕的两千零二十六 google i o 没有勇于铺垫,全是颠覆级干货,彻底宣告被动 ai 助手时代落幕。 本次大会王牌炸裂登场,全新 jimmy 三点五系列强势迭代,其中 flash 小 模型性能全面超越前代旗舰,速度与精度双拉满,兼顾高效与实用。 全新全模态模型 gemini omni 实现突破性升级,真正做到全场景输入、全形式输出,图文音视频跨模态创作,随心切换。最重磅的 gemini spark 个人 ai 智能体解锁,二十四小时离线自主工作能力, 无需手动操控,可自动整理邮件、复盘、会议梳理代办后台持续运转,真正实现 ai 替人高效干活。同时,谷歌迎来二十五年来最大搜索重构, ai 原声搜索框重塑用户交互方式,硬件端也亮点十足。全新安卓的它二眼镜官宣金秋上市,搭配全新系统生态,打通手机电脑。它二,全场景体验这届 i o 不 只是模型升级, 更是谷歌 ai 生态的全面落地。从智能体自主干活到全模态创作,全域硬件联动, ai 不 再是辅助工具,已然成为贯穿生活与工作的底层操作系统。

谷歌今日凌晨发布了 gemini, 在 底层逻辑上简直就是一次史诗级的进化,瞬间引发了轰动,我们一起来看看实际的测试效果吧。哈喽,各位小伙伴们大家好,今天给大家演示一下最新的视频模型 omni flash 的 使用方法。 好,这个的话呢,它支持使用十秒啊,然后三十个积分这种方式操作好,那么怎么来操作呢?假如说我们要做这样的一个漫剧效果 好,那么首先第一个我们可以使用分镜啊,这个是我之前做的分镜。好,那么我直接把这个分镜的话呢,放到我的这个提示词里边啊,那么我可以直接到这里艾特一下就可以了。好,我艾特一下分镜,点击确认。好,然后的话呢,我可以直接说 啊,使用啊,根据分镜,或者我把它删掉啊,根据分镜生成动画。 好,然后我艾特一下这个分镜,这个分镜好,可以了。好,然后人物参考,使用这一个人物。好,然后场景参考,场景参考, 再使用一下这个场景。哎,我的场景也有了。好,这样子的话呢,那么就直接就 ok 了啊,然后我们直接来生成好生,呃,动画流畅,然后运镜流畅 就可以了。好,那么就直接点击生成好,这个的话呢,大家就可以看到一条非常运镜流畅的,并且呢有音效的这样的一个画面呢,就可以展示。 嗯,而且它的准确度是非常高的啊,就是没有脱离我们的这一个分镜,所以的话呢,这个是一个非常好用的功能。

谷歌终于放出自己的龙虾了,刚刚在 i o 大 会上正式推出 gemini spark。 它的定位很清晰,二十四小时在线的个人 agent, 你 只需要给他一个任务,他就能在后台自动跑流程,哪怕你的手机电脑都关着,他依然在云端继续执行,真正意义上的离线替你干活。 他不是单点工具,而是直接打通整个 google 生态,并且他擅长做长期任务编排。比如,你可以让他持续监控你的邮箱,自动提取客户问题, 每周总结行业资讯,甚至每个月帮你检查账单、隐藏费用、提醒续费。这些都不是一次性任务,而是持续运行的 agent 工作流。这一代 gemini spark 的 变化很清晰, ai 不 再只是助手,而开始变成你数字生活里的执行层系统。