粉丝3319获赞2.0万

大家好,我是 ai 启示录。距离谷歌 au 大 会还有不到四天时间,整个 ai 圈突然被一个提前泄露的消息彻底搅动了。原本所有人都以为谷歌这次会按部就班发布 gemini 三点二,结果就在二零二六年五月十五日,多个独立爆料人同时确认, 谷歌直接把版本号从三点二跳集到了三点五,代号卡布奇诺的 gemini 三点五 pro 检查点已经开始产出。 让人意外的是,这次泄露的内容远远不止一个模型更新,从能直接生成完整交互式外部应用的多模态能力,到一个二十四小时全天候待命,甚至可能不问你就替你下单花钱的全时 ai agent。 谷歌几乎把原本要在 i o 大 会上讲的所有重磅内容提前四天全部摊在了桌面上。 但就在所有人都在讨论谷歌这次终于要狠起来了的时候, the verge 的 资深记者亚利克斯希斯从多个内部信源得到的独家消息却给这场狂欢泼了一盆冷水。他明确表示,下周二发布的新款 gemini 性能最多只能追平 openvi 的 gpt 五点五,距离目前公认的前沿模型 missiles 还有明显差距。 一边是跳级命名的重磅更新,一边是成本低十几倍的轻量模型,一边是依然落后的编程能力。 今天这期视频,我们就把目前所有已经确认的信息拼在一起,看看谷歌这次到底拿出了什么,又到底在打什么算盘。先从已经确认的事实开始讲起,这次泄露最早是从网友 lentos 开始的,他在 x 上放出了 gemini 三点五 pro 的 首批输出结果, 其中最让人印象深刻的有两个例子,一个是 dualshock 四手柄的交互式蓝图拆解,另一个是提壶骑自行车的矢量插画。可能很多朋友对这两个例子没有概念,以前的 ai 生成 svg 最多就是输出一个静态的矢量图, 但这次 jimmy 生成的已经不是简单的图片了,而是一个完整的交互式 web 应用。那个提壶骑自行车的例子,自带七个维度的定制面板, 你可以实时切换车架颜色、光照效果、提壶的头饰、车篮里的内容,甚至是蹬车的速度。所有这些交互都是用一个 prompts 直接生成的,不需要任何额外的代码修改。 这解决了 gemini 长期以来被社区吐槽最多的一个问题,懒。以前你给 gemini 一个生成 svg 的 提示,它经常会输出一个非常敷衍的结果,细节缺失,功能不全。但这次不一样了, 同样是 lantos 的 测试,它只用了一个非常简单的提示, gemini 就 直接输出了四个风格各异、细节拉满的机器人使用图, 每一个都可以直接使用。同期泄露的 gemini 三点五 flash 版本的跑分也印证了这个趋势。 lm arena 的 匿名测试显示, flash 版本在 svg 生成、交互式三 d 编码和动画处理上已经超过了之前的三点一 pro 版本。更炸的数据来自 apex ai 的 首席执行官缤度雷迪, 它放出的数据显示,即将发布的 gemini 三点二 flash, 也就是现在改名为三点五 flash 的 这个版本,在编码和通用推理能力上已经达到了 gpt 五点五的百分之九十二,但 api 成本却只有 gpt 五点五的十五分之一到二十分之一。 这个数字如果属实,对于整个行业来说都是一个巨大的冲击,因为它意味着谷歌的蒸馏加稀疏化技术终于开始收获实质性的回报。他们成功的把前沿模型的能力压缩到了一个轻量版本里,而且没有出现之前大家担心的质量断崖。 不过,真正让整个行业感到震动的还不是模型本身的性能提升,而是谷歌同时泄露的另一个产品, gem spark。 根据 testing catalog 提前发出来的 genomy 网页版隐藏代码,谷歌正在测试一个名为 genomy spark beta 的 全新功能。 它的定位非常明确,你的日常 ai 智能体全天候待命。这不是我们之前见过的那种需要你主动发指令才能工作的聊天机器人。 spark 是 一个二十四小时全时运转的后台程序, 它可以替你处理收件箱,执行在线任务,管理复杂的多步骤工作流。为了做到这一点, spark 会从非常多的来源获取你的个人数据。 根据官方的引导文本,它可以访问你已连接的所有 google 应用,你的聊天历史,你设置的定时任务,你已经登录的所有网站, 谷歌的 personal intelligence 信号,甚至是你的实时位置信息。更重要的是,为了完成任务, jamie 会把你的姓名、联系方式、文件、个人偏好,甚至是一些你可能认为敏感的信息分享给第三方服务提供商。 这里有一个非常关键的细节,也是目前争议最大的地方。谷歌在风险提示里明确写道,虽然 spark 在 设计上会在执行敏感操作前征求你的许可, 但他可能在未经询问的情况下分享你的信息或完成购买。换句话说,他有可能在你完全不知情的情况下用你的账号下单买东西, 也有可能把你的个人信息分享给你根本不知道的第三方。为了保持绘画的连续性, spark 还会保存远程浏览器数据,包括你的登录凭证和远程代码执行数据。当然,谷歌也提供了相应的控制选项, 你可以在设置里清除这些数据,关闭已连接的应用或者删除你的活动记录。但这个功能本身的激进程度已经远远超过了目前市面上所有的 ai agent。 根据掌握的信息, spark 的 前身是谷歌内部代号为 remi 的 agent 项目,之前只面向 google ai ultra 的 订阅用户开放。从 remi 到 spark, 谷歌把 agent 从 gemini 的 一个附加功能直接升格成了一个七乘二十四小时的数字生活管家,这也让他直接站到了两个最强大对手的对面, antropic 即将发布的托管 agent conway 以及 openai 已经上线的七乘二十四小时 agent 的 平台。 除了 spark 之外,这次泄露的模型选择器界面还透露了另外两个非常重要的变化。第一个是谷歌原声支持了 mcp 第三方工具接入。 在模型选择列表里出现了一个之前从未见过的分类,叫做 m c p two testing, 也就是专门用于测试 m c p 工具的模型。这意味着谷歌终于开放了通用的第三方工具生态,而不是像之前那样只能使用谷歌自己提供的有限工具。第二个是思维模式的全面重构。 之前 dammit 的 thinking 模式是一个独立的开关,你需要手动打开才能使用。而现在,它变成了一个全局开关,分为两档, standard 模式适合大多数日常问题, extended 模式则用于求解复杂的长链条问题。把这些变化放在一起看,你会发现谷歌这次的更新其实是一次非常全面的体系升级,而不仅仅是单个模型的性能提升。从模型能力到工具生态,从交互方式到 a 阵的形态, 谷歌几乎对整个 gemini 产品站进行了一次彻底的重构。不过就在所有人都在为这些新功能感到兴奋的时候,亚利克斯希斯的独家爆料却给我们展示了事情的另一面。 希斯在 ai 行业有非常可靠的内部信源,他之前的很多爆料都被证明是准确的。这次他明确表示,根据多个接近 deepmind 的 消息人士透露,下周二发布的新款 gemini 整体性能大致落在 gdp 五点五这个档位, 距离 entropica 的 missus 还有明显的差距。这个评价其实非常耐人寻味,因为就在半年前 gemini 三刚发布的时候,它凭借着 lm irina 一 千五百零一分的一流评分, 几乎横扫了所有主流排行榜的第一名。但仅仅半年时间,随着 gpt 五点五、 cloud opus 四点七和 missus 的 相近发布,整个行业的格局已经被彻底改写了。英国 ai 安全研究所的评测显示, missus 是 第一个同时通过其两套网络安全测试范围的模型, 而 gpt 五点五只通过了其中一套,该研究所甚至公开承认,他们现有的评测框架已经快要跟不上 msiles 的 能力发展速度了。也就是说,谷歌用了半年时间,终于追上了 openvi 上个月发布的模型,但依然没有摸到目前行业最前沿的边。 而在所有能力当中,最让 deepmind 的 内部感到焦虑的就是编程能力。希斯在他的爆料中,对编程部分的措辞是最重的,他说 deepmind 的 内部正面临着切实的压力,尤其是在编程能力方面,需要迎头赶上,而他们追赶的主要目标不是 openai, 而是 android。 过去一年, cloud 在 开发者群体中已经坐稳了默认编程工具的位置,不管是个人开发者还是企业团队,越来越多的人开始把自己的工作流迁移到 cloud code 上。谷歌当然也有自己的 ai 编程平台,叫做 anti gravity。 这个工具在谷歌内部用的非常多,但在外部市场的表现却非常惨淡。 根据公开数据,它发布四个月以来,开发者采用率只有百分之六。这个数字对于一个 ide 来说其实不算慢,但跟 cloud code 和 open icodex 的 势头比起来,差距就非常明显了。 问题到底出在哪? xda 开发者论坛上个月做了一个月度评测,让三个主流的 ai 编程工具完成同一个复杂任务, 结果显示, cloud code 第一次就准确理解了用户的创意提示,输出了符合要求的完整代码。而谷歌 anti gravity 的 输出用评测者的话来说,就像是用微软画图做出来的涂鸦,完全无法直接使用。 除了能力上的差距之外, anti gravity 的 定价策略也让很多开发者头疼。谷歌已经多次调整过它的定价模型,从最初的免费预览,到后来的信用点制度,社区论坛上关于额度用完没有提醒、莫名其妙被扣费的抱怨一直就没有断过。 但最为关键的问题在于,如今 ai 编程已经彻底出圈了,它不再只是专业开发者的工具,产品经理可以用自然语言描述需求,直接得到可运行的产品原型。设计师可以把 figma 搞丢进去,直接拿到可以上线的前端代码。而到目前为止,谷歌没有任何一个产品能够进入这个赛道。 当然也有不同的声音,知名 ai 行业分析师海德尔就提出了另一个视角,谷歌可能并不打算通过跟别人跑同一条赛道来取胜,他们更大的重心在于打造一个更强大的多模态系统,而这需要更长的时间和更多的投入。把这些信息拼在一起,我们其实可以看到一个非常清晰的行业格局, 三家巨头正在三条完全不同的赛道上同时踩下油门。 openai 的 打法是靠迭代速度碾压,他们保持着几乎三周一个新版本的更新频率,不断推出新的功能和性能提升。 就在昨天, openai 刚刚给 codex 追加了 ultrafast 模式,把速度提升了两到三倍。同时还寄出了补贴站,三十天内切换过来的企业用户可以享受两个月的免费使用。这个政策推出仅仅三个小时,就有两千名开发者响应。 antepaper 的 打法是靠模型质量封神,他们不追求最快的更新速度,但每一次发布的模型都能重新定义行业的前沿标准。 missus 的 出现已经让整个行业意识到,我们可能比之前预想的更接近通用人工智能。就在 openai 推出补贴站的同一天, antropic 也同步放出了 open 四点七 fast 的 模式,并且把 cloud code 的 额度提升了百分之五十。而谷歌的打法则完全不同,它们既没有 open i 的 迭代速度,也没有 antropic 的 模型质量,但它们有两个对手都无法复制的优势, 十亿级的用户分发入口,以及完整的生态系统。这就是为什么谷歌这次会把这么大的重心放在 agent 上。 spark 一 旦正式铺开,它就可以接入所有谷歌用户的 gmail 日历、云端硬盘、地图、购物账号。 用户每天产生的海量邮件日程、浏览购物数据,都会反过来为给 gemini 用于下一代模型的训练。 这是一个 open a 和 antropica 都很难复制的飞轮,它们可以做出更强大的模型,那它们没有办法像谷歌那样,把 ai 直接塞进十亿人的手机里,获取最真实、最丰富的日常数据。而这场表面上看起来是抢开发者的补贴战,底层逻辑其实比这要深得多。 现在已经可以确定 gpt 五点六的开发过程,有 gpt 五点五的深度参与,未来的 ai 模型会越来越多的。自己写代码,自己改进自己,谁掌握了编程工具的用户,谁就掌握了这个自我改进循环的加速器。这才是三家巨头不惜血本打补贴战的真正原因。 他们抢的不是现在的那点订阅收入,而是未来通往 asi 的 入场券。对于我们这些每天都在使用这些工具的普通人来说,这场军备竞赛可能是二零二六年最划算的一件事。 我们会看到越来越多的补贴、越来越高的使用额度、越来越强大的模型以及越来越低的价格。但同时我们也面临着一个越来越重要的选择,你的工作流到底要压在哪一条赛道上? 是选择迭代速度最快的 open ai, 还是模型质量最高的 and so fix? 还是生态最完整、分发能力最强的谷歌?这个选择可能会在未来几年里直接影响到你的工作效率和竞争力。我是 ai 启示录,感谢点赞与关注,我们下期再见。

瑞平内外 ai 大 模型从夯到拉,首先是开山鼻祖 chat gpt 五点五推出之后可以说是全面到离谱,不仅可以自己规划任务,还能自己调工具改代码,虽然价格比五点四贵了一倍,但它完全值得,综合能力稳坐目前第一梯队,给到夯爆了。 接下来是 gemini, 五月二十号凌晨,谷歌发布了 gemini 三点五 flex, 命名直接从三点一跳到了三点五,不难看出谷歌对这次更新的信心。实测下来,三点五 flex 在 编码测试和 a 帧的能力上都有不小的提升,输出速度更是比其他前沿模型快了四倍。而更强的三点五 pro 也确定在六月发布, 据爆料, gemini 三点五 pro 的 性能直逼 gpt 五点五,有望撼动王座,但三点五 flex 的 话目前只能给到顶级。 接下来是 deep c 可 v 四,优点非常明显,一照上下文混合推理,代码牌全球第三,价格便宜,量大管饱,但硬伤也很明显,没有多么太,还是纯文本, 在神仙打架的今天,普通用户够用,但专业用户用起来还是差点,感觉可以给到人上人。接下来是 grok 四点三,从某些你懂的方面来说,它称得上是憨爆了,但专业任务处理上稳定性不强,事实准确性在主流旗舰里垫底,还是偏向 ai 玩具,不适合拿来做生产任务。等级给到拉完了, 接下来是 cloud ops 四点七,写代码这块它还是当之无愧的王者,综合 agent 能力也是第一梯队,而且幻觉很低,逻辑严谨,写出来的东西不用反复改,给人的感觉也是最没有 ai 位的,等级给到憨爆了。 接下来是豆包 c 的 二点零 pro, 豆包很多指标其实不算差,而且功能丰富,门槛极低,并不是不能打。它最大的问题是不够稳定,复杂任务容易给出看起来不错,但经不起推敲的答案。 它是国产 ai 里最好的普及选手,但不是最强的专业选手,所以综合下来只能给到 npc。 接下来是千问三点六。阿里这次更新确实有不少亮点, agent 编程能力全面突破,复杂代码仓库级问题,前端开发、长城规划全面领先,而且加量不加价,但它的升量更多是在 b 端, 普通人对他的认知大多还停留在薅奶茶的阶段,勉强给到人上人。接下来是混元,腾讯从 openai 挖人重建了团队推出的混元三,上线两周掉用量就翻了十倍,整体势头是往上走的。但说实话,这波更多是开发者尝鲜带来的数据,脱离了腾讯生态之后,他的存在感依然有限,能力到位了,但记忆点还不够,只能给到 npc。 接下来是智普 g l m 五点一,编程 agent 能力开源第一 s w e bench pro 刷新国产记录,很多海外用户为了买上便宜的国内套餐,已经开始研究怎么注册支付宝。 这波热度是真实的市场验证,它不是那种大众热搜型模型,但是真到干活的时候,表现还是很能打的,可以给到人上人。接下来是 minimax m 二点七,它在开发圈子里口碑不错,速度快,价格便宜,工具调用稳定。今年一季度 openmarter 周掉用量更是拿下全球第一。不得不说它是一个好用选手,但还不是那种能改变格局的选手,目前只能给到 npc。 接下来是 kimi k 二点六,一个被很多人低估的选手,很多人对他的印象还停留在长文本阶段,但这次升级,他的代码能力提升了百分之二十,任务能力和 ab 的 能力都有大幅提升,已经可以给到人上人。最 后是文星五点一,号称 ab 的 能力超越了 deepsea 威斯 pro, 但本质只是对五点零做了压缩蒸流,说到底只是效率的提升,并不是能力的突破。这家总是起个大早赶个晚集,直到今天除了搜索能力还是没有什么记忆点,直接给到拉完了。最后声明,本期排名纯属个人观点,没有任何利益,相关方有不同意见,欢迎评论区讨论。

谷歌 i o 只剩几天, jimmy 奶这一轮更新也开始进入密集测试期。可以看到,这次不是单点试验,而是 flash pro 多个 check point 同步推进,节奏非常紧。 先别急着看版本号,真正值得关注的是,它们在轻量和高配两条线上,已经同时把门槛往上抬了一截。 先看 jimmy nike 三点二 pro 整体不差,但问题也很明显提升,没有形成那种一眼能感受到的跃迁,尤其是前端输出,老是反复冒出相似的 pino 风格,审美很快就会疲劳。可命名一改,局面就变了, jimmy nike 三点二直接切到 jimmy nike 三点五。而且 flash 和 pro 会一起在 i o 上亮相,这说明这次不是小修小补, 而是一次正式升级。真正把气氛拉满的是 gemini 三点五 flash, 它最夸张的地方不是能生成,而是能生成一个完整的 minecraft clone, 有 背景音乐,有组建,有健康条,甚至还能连服务器移动切换 creative mode。 更关键的是,整体完成度已经接近可交互。前端不只是象,而是真的把玩法骨架搭出来了。更有意思的是,名义上它还是 flash t, 但实际表现已经能和更高端的模型掰手腕,甚至在多次前端生成里压过一些老牌强项。它的变化还不只是更强,而是更会做布局更干净,层级更清楚,重复 pawn 明显少了,空间一致性也稳了很多。 最能说明问题的是那只鹦鹉骑自行车的阿斯基二。这种任务最考验长城结构控制,很多模型会中途散掉,但给 mini 三点五 flash 把字幅画完整撑住了,还能调背景色,调字幅大小和扫描线, 也就是说,它不只是快,而是开始同时兼顾速度、推理和审美。所以这次最值得记住的不是某一个炫技案例,而是 flash 线的定位变了,它不再只是便宜、响应快的备选项,而是开始往又快又聪明靠近。 ai 竞争真正拉开的往往不是单次经验,而是谁能把高质量输出稳定地做成日常能力。关注全球 ai 速递,获取更多 ai 前沿资讯!


ai 圈又卷出新高度了!谷歌刚刚在 i o 二零二六开发者大会上丢了个王炸,全新 gemini 三点五家族正式亮相!这次首发的有 gemini 三点五 flash 和 pro 两个版本。如果说以前的大模型是在跑马拉松,那这次的 gemini 三点五 flash 简直就是坐上了火箭,官方数据直接明牌,它的输出速度也 就是 t p s, 是 目前其他前沿模型的整整四倍!四倍是什么概念?以前你问 ai 一个复杂问题,还得看着它像挤牙膏一样慢慢打字,现在回车键刚敲完,长篇大论瞬间就砸在你脸上。天下武功,唯快不 破。而且谷歌这次非常良心,不搞期货 jammie 三点五 fly 现在已经直接变成了 gemini app 和谷歌搜索 ai 模式的默认驱动模型。也就是说,你现在去用谷歌,背后已经是这个速度狂飙的新一代 ai 在 为你服务了。

大家好,我是娜娜。距离谷歌 i o 大 会还有不到四天时间,整个 ai 圈突然被一个提前泄露的消息彻底搅动了。 原本所有人都以为谷歌这次会按部就班发布 gemini 三点二,结果就在二零二六年五月十五日,多个独立爆料人同时确认,谷歌直接把版本号从三点二跳集到了三点五,代号卡布奇诺的 gemini 三点五 pro 检查点已经开始产出。 更让人意外的是,这次泄露的内容远远不止一个模型更新,从能直接生成完整交互式外部应用的多模态能力,到一个二十四小时全天候待命,甚至可能不问你就替你下单花钱的全时 ai agent。 谷歌几乎把原本要在 i o 大 会上讲的所有重磅内容提前四天全部摊在了桌面上。但就在所有人都在讨论谷歌这次终于要狠起来了的时候, the word 的 资深记者亚利克斯希斯从多个内部信缘得到的独家消息却给这场狂欢泼了一盆冷水。 他明确表示,下周二发布的新款 gemini 性能最多只能追平 openai 的 gpt 五点五,距离目前公认的前沿模型 missos 还有明显差距。 一边是跳级命名的重磅更新,一边是最多追评的性能评价,一边是成本低十几倍的轻量模型,一边是依然落后的编程能力。 今天这期视频,我们就把目前所有已经确认的信息拼在一起,看看谷歌这次到底拿出了什么,又到底在打什么算盘。 先从已经确认的事实开始讲起,这次泄露最早是从网友 lentos 开始的,他在 x 上放出了 gemini 三点五 pro 的 首批输出结果,其中最让人印象深刻的有两个例子,一个是 dualshock 四手柄的交互式蓝图拆解,另一个是题胡骑自行车的矢量插画。 可能很多朋友对这两个例子没有概念,以前的 ai 生成 svg 最多就是输出一个静态的矢量图,但这次 gemini 生成的已经不是简单的图像了,而是一个完整的交互式 web 应用。 那个提壶骑自行车的例子,自带七个维度的定制面板,你可以实时切换车架颜色、光照效果、提壶的头饰、车篮里的内容,甚至是蹬车的速度。所有这些交互都是用一个 prompt 直接生成的,不需要任何额外的代码修改。 这解决了 gemini 长期以来被社区吐槽最多的一个问题,懒。以前你给 gemini 一个生成 svg 的 提示,它经常会输出一个非常敷衍的结果,细节缺失,功能不全。 但这次不一样了,同样是 lentos 的 测试,它只用了一个非常简单的提示, gemini 就 直接输出了四个风格各异、细节拉满的机器人矢量图,每一个都可以直接使用。同期泄露的 gemini 三点五 flash 版本的跑分也印证了这个趋势。 lm arena 的 匿名测试显示, flash 版本在 svg 生成、交互式三 d 编码和动画处理上,已经超过了之前的三点一 pro 版本。 更炸的数据来自 abacus ai 的 首席执行官冰度雷迪,他放出的数据显示,即将发布的 gemini 三点二 flash, 也就是现在改名为三点五 flash 的 这个版本,在编码和通用推理能力上已经达到了 gpt 五点五的百分之九十二, 但 api 成本却只有 gpt 五点五的十五到二十分之一。这个数字如果属实,对于整个行业来说都是一个巨大的冲击,因为它意味着谷歌的蒸馏加稀疏化技术终于开始收获实质性的回报。 他们成功地把前沿模型的能力压缩到了一个轻量版本里,而且没有出现之前大家担心的质量断崖。不过,真正让整个行业感到震动的还不是模型本身的性能提升,而是谷歌同时泄露的另一个产品, gemini spark。 根据 testing catalog 提前扒出来的 gemini 网页版隐藏代码,谷歌正在测试一个名为 gemini spark beta 的 全新功能。它的定位非常明确,你的日常 ai 智能体全天候待命。这不是我们之前见过的那种需要你主动发指令才能工作的聊天机器人。 spark 是 一个二十四小时全时运转的后台程序,它可以替你处理收件箱,执行在线任务,管理复杂的多步骤工作流。为了做到这一点, spark 会从非常多的来源获取你的个人数据。 根据官方的引导文本,它可以访问你已连接的所有 google 应用、你的聊天历史,你设置的定时任务,你已经登录的所有网站,谷歌的 personal intelligence 信号,甚至是你的实时位置信息。 更重要的是,为了完成任务, gemini 会把你的姓名、联系方式、文件、个人偏好,甚至是一些你可能认为敏感的信息分享给第三方服务提供商。 这里有一个非常关键的细节,也是目前争议最大的地方。谷歌在风险提示里明确写道,虽然 spark 在 设计上会在执行敏感操作前征求你的许可,但他可能在未经询问的情况下分享你的信息或完成购买。 换句话说,他有可能在你完全不知情的情况下用你的账号下单买东西,也有可能把你的个人信息分享给你根本不知道的第三方。为了保持绘画的连续性, spark 还会保存远程浏览器数据,包括你的登录凭证和远程代码执行数据。 当然,谷歌也提供了相应的控制选项,你可以在设置里清除这些数据,关闭已连接的应用或者删除你的活动记录。但这个功能本身的激进程度已经远远超过了目前市面上所有的 ai agent。 根据掌握的信息, spark 的 前身是谷歌内部代号为 remi 的 agent 项目,之前只面向 google ai ultra 的 订阅用户开放。 从 remi 到 spark, 谷歌把 agent 从 gemini 的 一个附加功能直接升格成了一个七乘二十四小时的数字生活管家, 这也让他直接站到了两个最强大对手的对面, antropica 即将发布的托管 agent con 以及 openai 已经上线的七乘二十四小时 agent 平台。 除了 spark 之外,这次泄露的模型选择器界面还透露了另外两个非常重要的变化。第一个是谷歌原声支持了 m c p 第三方工具接入。在模型选择列表里,出现了一个之前从未见过的分类,叫做 m c p two testing, 也就是专门用于测试 m c p 工具的模型。 这意味着谷歌终于开放了通用的第三方工具生态,而不是像之前那样只能使用谷歌自己提供的有限工具。第二个是思维模式的全面重构。之前 gemini 的 thinking 模式是一个独立的开关,你需要手动打开才能使用。 而现在它变成了一个全局开关,分为两档, standard 模式适合大多数日常问题, extended 模式则用于求解复杂的长链条问题。把这些变化放在一起看,你会发现谷歌这次的更新其实是一次非常全面的体系升级,而不仅仅是单个模型的性能提升。 从模型能力到工具生态,从交互方式到 agent 形态,谷歌几乎对整个 gemni 产品站进行了一次彻底的重构。 不过就在所有人都在为这些新功能感到兴奋的时候,亚利克斯希斯的独家爆料却给我们展示了事情的另一面。 希斯在 ai 行业有非常可靠的内部信源,他之前的很多爆料都被证明是准确的。这次他明确表示,根据多个接近 deepmind 的 消息人士透露,下周二发布的新款 gemini 整体性能大致落在 gpt 五点五这个档位,距离 antropica 的 missiles 还有明显的差距。 这个评价其实非常耐人寻味,因为就在半年前 gemini 三刚发布的时候,他凭借着 l m arena 一 千五百零一分的一漏评分,几乎横扫了所有主流排行榜的第一名。但仅仅半年时间,随着 g p t 五点五、 cloud、 opus 四点七和 misos 的 相近发布,整个行业的格局已经被彻底改写了。 英国 ai 安全研究所的评测显示, missus 是 第一个同时通过其两套网络安全测试范围的模型,而 gpt 五点五只通过了其中一套,该研究所甚至公开承认,他们现有的评测框架已经快要跟不上 missus 的 能力发展速度了。 也就是说,谷歌用了半年时间,终于追上了 openai 上个月发布的模型,但依然没有摸到目前行业最前沿的边。而在所有能力当中,最让 deepmind 内部感到焦虑的就是编程能力。 希斯在他的爆料中,对编程部分的措辞是最重的,他说 deepmind 内部正面临着切实的压力,尤其是在编程能力方面,需要迎头赶上,而他们追赶的主要目标不是 open ai, 而是 anthropic。 过去一年, cloud 在 开发者群体中已经坐稳了默认编程工具的位置。不管是个人开发者还是企业团队,越来越多的人开始把自己的 ai 编程平台叫作 anti gravity。 这个工具在谷歌内部用的非常多,但在外部市场的表现却非常惨淡。根据公开数据,它发布四个月以来,开发者采用率只有百分之六。 这个数字对于一个 ide 来说其实不算慢,但跟 cloud code 和 open ai codex 的 势头比起来,差距就非常明显了。问题到底出在哪? xda 开发者论坛上个月做了一个阅读评测,让三个主流的 ai 编程工具完成同一个复杂任务。 结果显示, cloud code 第一次就准确理解了用户的创意提示,输出了符合要求的完整代码。而谷歌 anti gravity 的 输出用评测者的话来说,就像是用微软画图做出来的涂鸦,完全无法直接使用。 除了能力上的差距之外, anti gravity 的 定价策略也让很多开发者头疼。谷歌已经多次调整过它的定价模型,从最初的免费预览,到后来的信用点制度,社区论坛上关于额度用完没有提醒、莫名其妙被扣费的抱怨一直就没有断过。 但最为关键的问题在于,如今 ai 编程已经彻底出圈了,它不再只是专业开发者的工具,产品经理可以用自然语言描述需求,直接得到可运行的产品原型。设计师可以把 figma 搞丢进去,直接拿到可以上线的前端代码。 而到目前为止,谷歌没有任何一个产品能够进入这个对话。当然也有不同的声音,知名 ai 行业分析师海德尔就提出了另一个视角,谷歌可能并不打算通过跟别人跑同一条赛道来取胜,它们更大的重心在于打造一个更强大的多模态系统,而这需要更长的时间和更多的投入。 把这些信息拼在一起,我们其实可以看到一个非常清晰的行业格局,三家巨头正在三条完全不同的赛道上同时踩下油门。 openai 的 打法是靠迭代速度碾压,它们保持着几乎三周一个新版本的更新频率,不断推出新的功能和性能提升。 就在昨天, openai 刚刚给 codex 追加了 ultrafast 模式,把速度提升了两到三倍。同时还寄出了补贴站,三十天内切换过来的企业用户可以享受两个月的免费使用。 这个政策推出仅仅三个小时,就有两千名开发者响应。 anthropic 的 打法是靠模型质量封神,它们不追求最快的更新速度,但每一次发布的模型都能重新定义行业的前沿标准。 misos 的 出现已经让整个行业意识到,我们可能比之前预想的更接近通用人工智能。就在 openai 推出补贴站的同一天, opus 四点七 fast 的 模式,并且把 cloud code 的 额度提升了百分之五十。而谷歌的打法则完全不同, 它们既没有 open ai 的 迭代速度,也没有 antropica 的 模型质量,但它们有两个对手都无法复制的优势,十亿级的用户分发入口,以及完整的生态系统。 这就是为什么谷歌这次会把这么大的重心放在 a 阵子上。 spark 一 旦正式铺开,它就可以接入所有谷歌用户的 gmail 日历、云端硬盘、地图、购物账号。用户每天产生的海量邮件日程、浏览购物数据,都会反过来喂给 gemini, 用于下一代模型的训练。 这是一个 open ai 和 astropica 都很难复制的飞轮,它们可以做出更强大的模型,但它们没有办法像谷歌那样,把 ai 直接塞进十亿人的手机里,获取最真实、最丰富的日常数据。而这场表面上看起来是抢开发者的补贴战,底层逻辑其实比这要深得多。 现在已经可以确定 gpt 五点六的开发过程有 gpt 五点五的深度参与,未来的 ai 模型会越来越多的。自己写代码,自己改进自己, 谁掌握了编程工具的用户,谁就掌握了这个自我改进循环的加速器。这才是三家巨头不惜血本打补贴战的真正原因。他们抢的不是现在的那点订阅收入,而是未来通往 asi 的 入场券。对于我们这些每天都在使用这些工具的普通人来说,这场军备竞赛可能是二零二六年最划算的一件事。 我们会看到越来越多的补贴、越来越高的使用额度、越来越强大的模型以及越来越低的价格。但同时我们也面临着一个越来越重要的选择,你的工作流到底要压在哪一条赛道上? 是选择迭代速度最快的 open ai? 还是模型质量最高的 antropic? 还是生态最完整、分发能力最强的谷歌? 这个选择可能会在未来几年里直接影响到你的工作效率和竞争力。好了,以上就是本期视频的所有内容,如果你喜欢本期视频,不要忘记订阅、点赞、分享,这样就不会错过每一期的精彩内容。感谢收看,我们下期再见!

别划走, google 昨晚干的这件事可能要改变你以后用 ai 的 方式,而且大部分人还不知道 google i o 大 会。半年没动静的 google 一 口气放完所有大招,最炸的就一个 gemini 三点五 plus。 你别看他叫 flash, 在 google 家里这本来是又便宜又快的入门档,结果这次他把上一代的旗舰三点一 pro 在 编码 agent 多模态上全给干翻了。什么概念?一个经济型模型,反手把上一代顶配按在地上摩擦, 而且它输出速度是别家前沿模型的四倍,价格还比三点一 pro 便宜了整整百分之四十!又快又强又便宜,这不可能,三角他真就给你凑齐了。 但最让我头皮发麻的是,这个 google 现场直接让他从零搭了一个能真正运行的操作系统出来,能敲命令行,还能跑游戏。兄弟们,这已经不是帮你写文案了,这是真能把活甩给他去干。更狠的是,这还只是开胃菜! 更强的三点五 pro 下个月就到,还有个叫奥尼的,能让你动动嘴就把视频改了。哎呀,一夜变天,普通人到底该怎么跟上?关注我?这些我一个一个给你扒清楚,别让你掉队!

gemini 三月五日深夜重磅发布,谷歌 i o 二零二六大会召开,火力全开,把攒了半年的大招一口气全部亮了出来,明星产品 gemini omni 正式亮相。作为一个真正全能的大模型, omni 可以 接收任意形式的输入,生成任意形式内容, 并且首发支持视频输出,堪称视频版 nano banana。 另一个重磅 gemini three point five flash, 在 几乎所有的精准测试中,三点五 flash 都实现了对自家前代旗舰 gemini 三点一 pro 的 碾压,输出速度也直接翻倍,对比 g p t 五点五和 opus 四点七更是快了四倍有余。 更强的三点五 pro 则会在下个月发布。此外,还有一大批重磅产品 anti gravity 二点零从 i d e 进化为 agent 开发平台 geminis bar 个人 ai 助理,全时云端运行。 gemini a p p 改版代号 neural expressive, 改为算力计费 ai ultra 订阅计划新增一百美元版本,最高档从二百五十降至二百美元。搜索二五年最大升级,接入三点五 flash, 新增智能搜索框,自动生成 mini 应用。

就在五月十九日,本周二,谷歌在 i o 开发者大会上火力全开,交出了一份扎实的 ai 打卷,绝对的主角是全新的 gemini 三点五系列模型。其中三点五 flash 版本主打极速和性价比, 在成本大幅降低的同时依然保持了高智商,它将直接成为谷歌生态的默认模型,而更强大的 pro 版下个月就会向公众开放。除了模型本身的升级,谷歌这次还带来了两个非常酷的新伙伴。第一个是通用 ai 管家 germanicspark, 它不再是个只懂聊天的机器人,而是能跨 app 帮你打理数字生活,直接带你执行任务。 第二个是能模拟现实物理规律的世界模型 gemini omni, 你 不仅能用它生成高质量视频,还能像个导演一样用一句大白话直接修改视频里的动作和角色。 此外,经典的谷歌搜索框也迎来了二十五年来的最大改版,现在它能轻松处理你长篇大论的复杂提问,还能帮你做日程规划。开发者们也迎来了全新的代码生成平台 anti gravity。 可以说,谷歌这次是真的把 ai 全面揉进了我们的日常细节里。这么多新功能,你最想先体验哪一个呢?

google 刚刚扔出一个重磅消息, gemini 三点五 flash 正式上线,直接成为 google gemini 应用和搜索 ai mod 的 默认模型。官方表示, 它在代码和 aaa 整值任务上已经超过上一代 gemini 三点一 pro 速度能达到部分前沿模型的四倍,而运行成本不到一半。最关键的不是性能数字,而是方向变了。简单说, 以前 ai 只是告诉你怎么做,现在它能自己查资料,调用工具,写代码,执行任务。 google 还确认下个月将发布 jamni 三点五 pro, 主要负责思考和调度,把具体任务交给 flash 去执行。 ai 竞争正在从谁更会聊天变成谁更会干活。问题来了,如果 ai 真变成数字员工,你觉得最先改变的会是什么行业?

大家好,谷歌官方最新关于建美更新公告,推出了 jimmy 三六五吸引力三六五 flag, 它具备更高性能、更快响应和更强 a 阵能力。同时三六五 pro 即将推出,敬请期待。接下来是重磅更新,谷歌发布了全新多模态模型 jimmy omni, 包括文本无数、凹点深重实践、高质量视频创作,超级强大。 jamming 应用党组还进行了全麦重设计,叫做 new rap 平台的量整。 我还在优化鲜明式、抛格比亚这样化等丰富文化。等丰富文化。今天我们来聊聊谷歌的 jamming 战略哥正将 jamming 深度集成到 chrome、 social、 youtube、 android workspace 开车的工具 中,从卑右动主办 ai 层级的斗争利器,深层内容执行任务,联动整个生态无格正正证明哪一从被动驻署打藏能智能主动的跨商品 ai 和开挂手工具中,不仅提升问办能力,还能自动侦听深层内容执行任务。

今日 ai 新闻一、谷歌在深夜放了个大招,推出了全新的 gemmi 三点五 flash 模型。这个新模型不仅性能比之前的旗舰版 gemmi 三点一 pro 还要强,更厉害的是它的速度,每秒能输出两百八十个次元,比 gbt 五点五和 cloud、 oppo 四点七快了整整四倍。 而且谷歌这次还很大方面向全球用户免费开放,综合使用成本还不到其他前沿模型了一半。这意味着顶尖的 ai 技术门槛又降低了,更多人能更快、更便宜地用上强大的 ai 助手了。 二、阿里云这次带来了一个面向智能体时代的新平台,叫千问云,它不再只是简单地提供算力,而是把重心转向了智能体本身。 这个平台聚合了超过一百五十个模型,包括旗舰级的 quan 三点七 max。 它最大的特点是把模型、服务都变成了标准化的技能和命令行工具,让 ai 智能体集成起来更简单。 为了让大家用的更实惠,阿里云还推出了创新的 token plan 订阅模式,专门降低高频 ai 编程和智能体工具的使用成本。 三、谷歌这次拉上了三星一起搞了两款很酷的智能眼镜,它们深度集成了谷歌的 jamming ai 大 模型,目的就是让你能彻底解放双手。戴上它,你可以直接用语音导航获取个性化推荐,甚至处理自提订单,日常用起来方便多了。 设计上也很用心,和 gentle monster 合作的款式时尚张扬,和 warby parker 合作的款式则走极简经典路线,照顾到了不同人的审美。 四、苹果在 ai 应用上有了新的方向,开始更关注系统级生态和社会价值。这次他们利用自家的 apple intelligence 推出了一系列全新的 ai 辅助功能,专门用来提升无障碍体验。 更让人惊叹的是,他们通过 apple vision pro 投显实现了革命性的眼控轮椅功能,这意味着未来行动不便的用户可能只需要用眼睛就能控制轮椅的移动,这无疑是一个重大的技术突破。 五、谷歌又发布了一个重磅模型,叫 gemini omni, 这是一个多模态 ai 模型,简单说就是它能同时理解文字、声音、图片和视频, 这样一来,你和 ai 之间的互动就会变得更自然、更高效。它在实时响应和准确性上也有显著提升,预示着未来的人机交互会更加智能和便捷,可能会给各行各业的应用带来全新的可能性。 六、通用实验室推出的 quan 三点七 max 大 模型最近在多项评测中拿了国内第一,表现非常亮眼。它最核心的创新是一种叫政教结偶的设计,这个技术解决了 ai 模型容易对特定开发框架死记硬背的问题,让它具备了真正的通用策略能力和跨框架的适应力。 这个模型还支持多个智能体协同工作,甚至能扩展到控制实体机器人,并且全面兼容 open ai 和 antropic 的 api 协议,让 ai 智能体从理论走向工程现实又迈进了一大步。 其谷歌基于最新的 gemini 三点五 flash 模型,打造了一个叫 gemini spark 的 全时在线 ai 代理平台。 他就像一个不知疲倦的智能助手,可以二十四小时在后台帮你自动处理各种任务。他还能通过 m c p 协议无缝连接到各种第三方应用,整合能力很强。当然,安全也没落下。他在执行高风险操作前,一定会先征得你的明确许可,确保一切都在你的掌控之中。 八、在最近的谷歌开发者大会上, youtube 展示了他深度集成 ai 的 蓝图。他们把 jimmy 的 模型用在了搜索创作和安全防护这几个关键环节。最直观的变化就是搜索功能从过去的关键词匹配升级成了可以深度对话互动的 ask。 youtube 在视频创作方面, jimmy 模型会辅助用户进行二次创作,而不是完全替代用户自动生成。为了应对虚假信息, youtube 还部署了全员覆盖的校相相似度检测 ai 安全网,来降低 deepfake 视频的危险。

五月二十日,谷歌宣布推出 gmail 三点五 flash 模型,称这是谷歌迄今为止最快、最有效的模型,速度超其他前沿模型四倍,成本仅为同类模型的一半,性能全面超越三点一 pro, 即日起向全球免费开放使用。

大模型赛道最近又热闹起来了,谷歌的 gemini 三点五 pro 首次曝光,编程能力号称追平 gpt 五点五。而 openai 这边, gpt 五点六也在蓄力,目标直指开发者市场。 先看两位选手, gemini 三点五 pro 是 谷歌下一代旗舰,主打多模态和超长上下文,编程和推理稳坐第一梯队, 编程能力是最大的看点。早期测试显示, gemini 三点五 pro 在 human evel 等基准上已经接近 gpt 五点五的水平,而 gpt 五点六据说要进一步加强代码生成,直接替代 cloud code。 推理和多模态方面, gemini 三点五 pro 延续了谷歌一贯的多模态优势,图文音视频一把抓。 gpt 五点五虽然在视觉能力上有所提升,但多模态深度仍是谷歌的主场, 效率也不容忽视。谷歌凭借自家 tpu 芯片,推理成本控制得更好, openai 则依赖英伟达 gpu, 加上微软 edge 的 规模优势,两家在定价上咬得很紧。 总的来说,如果你偏好多模态和长上下文, gemini 三点五 pro 是 个值得关注的选项。如果你看中编程生态和工具链, gpt 五点五依然是目前的标杆,两家都在快速迭代,这场对决刚刚开始。

ai 圈今天直接炸锅了,谷歌突然放大招, jamni 三点五 plus 全球免费开放,还能直接用文字改视频 叉! gpt 的 免费版,这次真的被按在地上摩擦!先点个关注,我用两分钟给你讲透这场 ai 大 战的本质变化。才联社五月二十日刚报的消息,谷歌正式推出 jamni 三点五 plus, 号称迄今为止最快最有效的模型。关键是多模态能力直接拉满, 能接任何形式的输入,用户用大白话就能编辑视频,今天起,全球所有用户都能免费用。很多人以为这只是普通升级。错了,这是谷歌对 obni 的 降维打击杀招,不是更强的参数, 是免费加强多模态的组合权。给你拆拆这个模型有多狠。以前你改视频得学 p r 剪映,或者用的 jennie、 romay 这些付费工具。现在用 jameson 三点五直接说,把视频里的猫换成狗,背景改成海边,语速放慢一倍,它直接帮你改好, 全程不用碰软件。对普通创作者来说,这等于把剪辑师、设计师、特效师的火全用文字搞定。 对企业来说,处理客服、语音分析、监控视频、做电商详情页都能一键完成, ai 落地的门槛彻底被打穿了。 而且免费开放会快速抢占用户心智,直接倒逼索用 ai 模型加速迭代,国内厂商压力瞬间拉满。这场大战里, a 股有三个方向直接受益,第一是多模态算力。基础设施视频编辑多模态处理对 gpu、 光模块、高速存储的需求会指数急涨,尤其是支持高并发、低延迟推理的服务器,厂商订单要爆发。 第二是 a x c 视频工具链和 jimmy 生态对接的剪辑创作特效工具,厂商会跟着用户需求增长,加速商业化。第三是国产大模型追赶者, 谷歌免费开放会倒逼国内厂商加快多模态迭代,有视频理解生成技术储备的厂商会拿到更多资本和政策支持。但我得提醒大家,别盲目追高。谷歌免费开放会加具 ai 内卷,依赖付费订阅的 ai 应用可能被分流,业绩压力变大。 国内模型要是跟不上迭代速度,很容易被淘汰。优先选有真实多模态技术、有落地场景的龙头,避开纯蹭概念的小票。总的来说,这门来三点五免费开放,标志着 ai 大 战从参数竞赛进入落地竞赛, 谁能真正降低用户门槛,谁就能抢下一波红利。你觉得国内大模型能跟上这次多模态迭代速度吗?评论区聊聊你的看法,没点关注的赶紧点一个,每天两分钟给你讲透 ai 行业最真实的趋势!


二零二六年的今天, ai 大 模型已经深度融入了我们的日常, g p t 五点五 glm 五 gemini 三点一 pro gemini 三点五 flash、 deep sick v 四 pro, 还有我们熟悉的豆包。今天我们不看冰冷的跑分,只谈真实体验,从日常生活深度学习到心里疏导,全方位聊聊这些主流 ai 的 实际表现。先看第一局日常生活场景。 如果你追求极速响应或者经常需要边走边问, gemni 三点五 flash 会是很好的选择。它的响应速度极快,主打轻量与及时反馈,能在极短时间内处理实时音视频流并做出反应,几乎没有延迟感。而在国内生活的易用性与贴心程度上, 豆包的表现依然非常亮眼。它不仅能很好地对接各种本地服务,而且语音交互足够自然温和,无论是日常闲聊还是规划出行,都像是一位熟悉本地生活的朋友。 而如果你需要一位帮你规划和整理生活的周全助手, gemini 三点一 pro 则展现出了极其卓越的细腻与全面。 它不只是简单的一问一答,而是能帮你把零碎的生活细节有机串联起来。比如你随口提一句下周要出差,它不仅能帮你梳理好日程,还会根据天气预报提醒你带伞,甚至顺手标记出目的地附近符合你口味的咖啡馆, 方方面面都考虑的十分周到。进入第二局,要求更高的学习与工作场景,文科生、法学生和科研工作者们质朴的 g l m 五值得重点关注。 得益于先进的 m o e 架构,他对中文学术语境的理解以及分析处理动辄上百万字超长文献的能力表现都非常出色,能帮你迅速提取出最核心的信息。如果你偏向理工科,需要攻克复杂的数学和物理逻辑推演, deepsevik v 四 pro 则是非常得力的深度推理助手,性价比与逻辑深度兼备。不过,在编辑代码和调试程序这些任务中, gpt 五点五依然代表着目前的第一梯队,它的强项在于大局项目理解能力,即便是复杂的遗留代码,它也能快速理清逻辑关系。在这个场景下, cloud open 四七同样是一个非常稳健的编程辅助选择。此外,在日常学习和跨学科探讨中, gpt 五点五也能像一位全能的学术导师一样,帮我们快速构建知识体系,用易懂的语言讲透复杂的概念。 最后一局是大家越来越关注的心理疏导与情感陪伴。在这个领域,我们需要的是温度,而不是 机械的回答。豆包在这里表现得很像一位耐心的倾听者,能提供温和的陪伴和全天候的倾听,给予充足的情感支持。而 g p t 五点五则展现出了更具专业性的疏导能力, 敏锐察觉情绪的变化,给出具有建设性的启发与疏导。至于 jammin 三点一 pro, 它的核心优势则在于超凡的长文本理解与上下文记忆能力。 在这个场景下,你完全可以把积攒了几个月的日记或者是长达数十万字的情绪随笔一次性打包扔给他。他不仅能轻松吃透这些海量信息,还能站在宏观视角帮你梳理出情绪波动的周期,找出那些隐藏在生活琐事中的压力源头, 这种建立在完整生活记忆之上的深度理解能带给人心安的力量。总结一下,做学术文献分析和智能体开发可以优先选择 g l m 五, 功课梳理、硬核推理 deepseek v 四 pro 效率更高,需要轻松自然的日常陪伴,用豆包追求极速响应。推荐 gemini 三点五 flash, 想要长文本分析与精细生活规划,选择 gemini 三点一 pro 需要全能工具,选择 gpt 五点五,而写代码用 gpt 五点五或是 opus 四点七都可以。那么你目前最常用的 ai 是 哪一位?欢迎在评论区分享,我们下期见!