今天是二零二六年五月二十六号,让我们随便聊聊上周 ai 圈又发生了什么。 先看谷歌这边,这周它们动静挺大的,连着发了三个底层更新。第一个是正式发布了 gemini 三点五 flash, 而且直接把它设成了谷歌全生态的默认工作底座。这模型的定位很直接,它不是那种拿来陪你闲聊的玩具,而是专门面向能干活的智能体和代码执行任务。 从官方数据看,它在各种复杂的编码和智能体基准上,成绩直接盖过了前代的三点一 pro, 输出速度还提了四倍,算是名副其实的新一代工作码。但大家实际体验反馈并没有它吹的那么好。 然后是视觉这边, deepmind 交出了真正的原声多模太达卷,也就是 jamna omni 家族首发版本 omni flash 已经正式取代了之前的 vivo。 作为视觉创作者,我觉得这东西最硬核的地方在于它不再是拼凑出来的流水线, 而是完全原生的任意道、任意架构、图文音式,全都能混着输进去。你不仅能生视频,还能直接用说话 a 的 方式对最高十秒的视频片段做连续的带状态编辑, 但许多人实测下来,生成效果跟宣传片相差有点远。顺着这个干活的思路呢,谷歌还把桌面的开发中书给重构了, 推出了 anti gravity 二点零,这次比较彻底,直接把传统的代码编辑器界面给扔了,做成了一个支持语音输入的独立桌面平台,核心逻辑就是多智能体编排。新版的反重力跟 codex 简直是一个模子刻出来, 也被许多网友以及 codex 的 开发者吐槽过,额度听说也大大降低了。总之,谷歌发布的三个东西在社区的评价整体都是是偏低的,并没有什么十分惊艳的地方。 得看看他们下个月正式版的 gemini 三点五表现怎么样了。下面来看看字节跳动。他们开源了一个叫浪斯的极致多模态模型,现在市面上的多模态模型其实挺割裂的, 董事觉得不会生成,能生成的做不了剪辑。恋思就是想把这事统一了。 他的激活参数只有三十亿,但用了双流混合专家机制,在同一个维度里并行支持图像和视频的语义推理,画面生成,还有编辑。再看个视频生成相关的新闻,美团龙猫团队把他们的数字人框架更新到了一点五版本并开源了。 这不是那种简单的口型对口型演示,而是偏向商用级别的。新版本把音频编码器换成了大参数的 whisper, 纯行动态和全身动作学同自然了很多。最实用的点是他们用蒸馏技术把原本需要五十步的生成流程硬生生压到了八步。 so the next day i picked her up early from school, and i took her to sally sour cream, and what everyone thinks i am and i suppress my discomfort because i'm worried it makes me look weak, and i want to be strong and i think i'm failing all the time and i only take what you。 接着看两家关于智能体工具的进展。企业落地智能体最怕的就是数据和频剧泄露。 为了治这个痛点,安斯基给他们托管的 cloud 智能体,加上了自托管沙河和私有网络隧道以后,借助 cloud flair 或者 virso 这些底层平台,智能体做决策的脑子虽然还在云端,但跑代码和调工具这些脏活 全都被物理隔离在了企业自己的内网边界里,安全系数确实拉高了不少。另一边,马斯克的 xci 这周也终于杀进了终端编程智能体的赛道, 发了个 grok build 测试版产品,直接对标目前的 cursor 和 cloud code, 重点放在了完整的开发工作流上,有独立的计划模式,每次修改代码前都会被拦截审批。当前入口只对高级订阅用户开放,不仅是写代码要工具, 写代码的规矩也得有人管。平时用 ai 写代码,要是没规矩随性发挥,很容易铲除难以维护的废代码。为了治这个毛病,给 tab 官方开源了一个叫 speckkit 的 工具包, 没几天就狂揽了九万五千多颗星。它强制执行一套标准流程,就是让 ai 动键盘前,必须先定义产品规范,再出技术计划, 接着拆解细分任务,算是把传统软件工程的严谨性重新交给了大模型。最后快速过几条工具和研究方向的短讯面壁,智能开源了端侧小模型 mini c p m 五一 b, 支持十三万一千零七十二的超长上下文和双模式切换,把离线桌面桌面助手的落地门槛又拉低了。 法国初创公司 newmind 开源了四 b 级别的多模态模型 new extract 三,专门用来做文档、 ocr 和结构化数据提取,很适合塞进 reg 的 数据清洗链路里。 cp and ai 推出了一种极低成本的预训练架构, 仅用四百亿 token 和一千五百美元就算出了极高的数学成绩,证明重构循环架构潜力巨大。英伟达为了防范开元脚本后门,正式推出贷房篡改签名机制的官方智能体技能库, 所有接口均强制标配漏洞扫描。斯坦福时政研究指出,只要算力充足,大模型直接用未经过滤的低质量原始数据域训练,反而性能更好,颠覆了业界对纯净数据的执念。麻省理工提出了一种叫 v p o 的 向量策略优化算法, 用向量化奖励强制模型输出多样化解法,在不增加算力成本的情况下,大幅提升了推理搜索通过率。好,以上就是上周的 ai 资讯,接下来看下上周全球前十的生成式 ai 产品访问量排名, 然后再看一下近一年生成式 ai 访问量的变化。 最后再看看本周 hugin face 上热度前十的开源模型有哪些, 这期就这样,感谢收看,觉得有用的话点个赞分享一下,下期见!
粉丝2336获赞1.6万

谷歌刚刚发布了 jimmy 三点五 plus, 同时还把他们的编程工具 antigravity 升级了二点零,那这次就很明显了,谷歌的话这次是要全面提升它的这个抠点能力。之前不管是在 coi 还是 ide 还有模型, 其实给我的感觉就表现很一般,那这一次的话,这个模型最大的亮点官方说就是它的这一个速度啊,是前模型的四倍, 所以这一期我们就测一个最关键的问题,这么快的速度,它整个的一个代码质量会不会缩水?那我直接会拿两道真实的一个编程任务,把它和 cloud op 四点七, gpt 五点五放到同样的项目里面,同样提示时看它大家的一个表现情况。那下面的话,我们大概去扫一下它官方改出来的一个奔驰 mark 评分哈, 在编程方面的话,主要就看这一个 terminal, 奔驰二点一,还有这一个 sw 一 奔驰 pro, 从这个评分看的话,这一个 jimmy 三点五 plus 这个评分还是可以的哈,但是基于我之前对于谷歌模型实测的结果来看,就是评分不代表一切,因为之前就感觉它在这个编程方面挺拉的,这次我们就看整个的一个三点五 plus 表现到底怎么样。那这一次的话,我们的整个测试题目哈,就是沿用之前测试 cloud of 四点七,还有就是 gpt 五点五的两道真实的一个编程任务。第一个的话就是我们这一个 skills agent 嘛,需要把它从一个 c o i 做成一个 web ui。 第二个的话是希望他从一个已有的比较复杂一个项目里面把这个认证登录给它迁移过来,这一块也比较复杂,需要支持啊, get 谷歌,然后还要做一个落地页。好,我们来看一下这两个实测项目哈,左边的话,就我刚刚说的这一个 skill is a 镜头嘛,第二个的话就我们图片生成 a 镜头,那这次的话,我们是用了这个 anti gravity 它的一个 c o i 终端工具, 整体这一块呢,它的交互的话是跟呃卡扣的很像,那我这边测试下来,他的速度是真的快,相当相当的快,他说四倍,一点都没夸张。 那大家看一下它这个交互的一个情况啊,其实还是感觉挺挺好的。这个交互,那至于整个模型的能力怎么样,那这两个任务我这边实测下来,它都没有一次性的去完成,它或多或少都有一些小问题。那同样的这个提示值,在同样的项目,我给到了 gpt 五点五 以及 calloff 四点七,它都是能够一次性完成的,不管这两边哪一个项目都可以完成。但是 gmail 三点五 plus 它除了快,但它其实还是会有一些或多或少的 bug 嘛。好,我们来看一下它整体的一个表现情况。 好,我们来看一下这个是 jimmy 三点五 plus 帮我们完成的 skus agent 的 一个 ui 界面嘛,它可以去执行一些操作,比如说我给他一篇文章,可以让他帮我们去总结,它就会去加载这个的 skus。 就 我之前有一期视频 专门讲了这个 skills 的 一个工作原理嘛,那这是它完成的一个效果,整体上 ui 这块还 ok, 那 这边的话是 g p d 五点五给我们完成的,左边也是有我们的一个的一些 skills 是 哪一些?那右边的话就是它整个的一个操作的一个过程嘛。怎么说它这个 ui 的 一个结果的话,我觉得就是呃 g p d 五点五的会好一些。 那关于图片生成这个项目,让它去做一个落地页,以及让它去做一个就是谷歌 get 五的认证登录嘛,那这块它也是完成的,但是不是一次对话完成的。 u i 这块的话就是谷歌还是可以的,就是相较于 g p t 五点五的话,我觉得还是会好一些,就 u i 这块的话,我们还是优先选择就是谷歌的模型嘛。 好,下面我们来看下整体这个评分结果哈,那这个评分的话,还是跟之前一样,我们是把所有的模型生成代码通敏之后,然后改到模型去做 review。 那 这边的话 g p t 五点五是要胜出的,它的分会高一些。 第二个的话就是 cloudoff 四点七会辞职,那 gpt 三点五 plus 的 话,它整体评分效果会低一些,也就是它除了快,那代码质量上的话是会差一些。那这边的话也有些解决方案,比如说你可以用 cloudoff 四点七做设计,或者 gpt 五点五做设计,然后再用呃 jimmy 三点五 plus 去做执行。 那这块儿它还不是还发布了这个 anti graphic 二点零嘛。那这个 id 的 话,你就把它等同于 codex 吧,跟 codex 一 模一样。那我这边的话 现在还登录不进去,不知道啥问题。好,下面我们来进行一个总结。那这次他的整个编码水平的话,就是速度上确实是领先很多,但是在交付的一个结果上来看的话,跟国外两家模型还是有差别,尤其是在一些复杂项目里面,他还是会有偷懒的情况。 如果你是需要去做一些原型啊,或者做一些 u i 啊,我觉得这个 jimmy 三点五 plus 真的 是有比较有吸引力,因为它整个速度比较快,而且它的价格也比较便宜。那如果你是需要一些复杂的项目啊,多文件呀,那阶阶段我还是更推荐大家使用 g p d 五点五,在 codex 里面 你运行起来也非常的快。扣袋子这个 app 我 强烈推荐给大家用,我已经最近用了一个多月了,真的非常非常的好用, card 的 话就是封号真的特别严重,我已经放弃了。 ok, 那 这就是这期视频所有内容了,如果大家觉得这期视频做的不错,可以跟我一箭双雕,我是阿江,我们下期见,拜拜。

朋友们,今天凌晨,谷歌扔出了一枚深水炸弹。就在刚刚结束的 google i o 二零二六大会上,谷歌宣布推出 gemini 三点五 flash 模型,并且向全球所有用户免费开放。这不是阉割版,不是试用版,而是谷歌宣称的迄今为止最快、最有效的模型。 它可以接受任何形式的输入文字、图片、音频、视频,用户甚至可以用自然语言直接编辑视频。谷歌在现场算了一笔账,对于头部企业来说,如果把大部分工作负债切换到 flash 系列模型,每年节省的成本可能高达十亿美元级别。免费开放多模态视频编辑,年省十亿, 这不仅是模型升级,这是全球 ai 巨头在用极致性价比重构竞争格局。很多人可能对三点五 flash 这个命名没概念,我帮你翻译一下。 第一,速度快得离谱。谷歌表示, g m 三点五 flash 在 输出令牌速度上是其他前沿模型的四倍,而在优化平台上的版本,速度还能再提升到十二倍。什么概念?你以前问 ai 一个问题,等三秒才有回复,现在一秒不到答案就出来了。第二,性能不降反升。你可能会想,速度快是不是牺牲了智能? 恰恰相反, gemini 三点五 flash 在 多项精准测试中,超越了四到五个月前的旗舰模型。在代理式 ai 能力、代码编辑、多模态理解等关键维度上,三点五 flash 都达到了前沿级别的水平。用谷歌的话说,性能是旗舰级,成本只有三分之一到一半。第三,真正的多模态来了。 gemini 三点五 flash 可以 接受任何形式的输入文本、图片、音频、视频。更炸裂的是,用户可以用自然语言直接编辑视频。你说把这段视频中的夕阳调亮一点, ai 立刻执行, 不像是模型升级,更像是人机交互方式的彻底重构。第二部分,谷歌的阳谋,用极致性价比打一场价格战。很多人问谷歌为什么要免费开放,低价收费?难道做慈善?答案很简单,抢市场、抢用户、抢生态。第一, ai 的 竞争已经从参数竞赛转向成本竞赛。谷歌现场算了一笔账, 目前头部企业每天在谷歌云上处理海量 token, 如果把大部分工作负债切换到 flash 系列模型,每年节省的成本是十亿美元级别。 对于正在烧钱搞 ai 的 企业来说,成本就是生死线,谁能在保证性能的前提下把价格压到最低,谁就能抢走对手的客户。第二,谷歌要用免费圈住十亿用户。 gemini 应用的月活用户已经超过九亿,一年前这个数字只有四亿。谷歌搜索 ai 模式的月活用户也在一年内突破了十亿。策略很清晰,用免费的 flash 模型留住 c 端用户,用低价的 a p i 吸引弊端开发者。当所有人都习惯了 gemini 生态,谷歌的 ai 收入就会像当年的搜索广告一样源源不断。 第三,谷歌有降维打击的底气。自研芯片,谷歌使用的是自研 p p u, 而不是像其他厂商那样采购英伟达 g p u。 自研芯片意味着更低的单位算力成本、更高的利率。二零二六年,谷歌预计资本支出将达到一千八百亿至一千九百亿美元,六倍于二零二二年的三百一十亿美元。 这种不计成本的投入,就是在为未来五年的 ai 算力霸主地位铺路。谷歌 ai 大 模型升级,最直接的受益者不仅是谷歌自己,还有整条 ai 算力产业链,大模型训练和推理需要海量算力。 杰米尼三点五 flash 的 免费开放,意味着全球用户的使用量将暴增,直接拉动 ai 服务器需求。据产业链消息,谷歌 tpu 机柜总数量预计将从二零二六年的约六万柜,快速成长到二零二七年的约十点五万柜,年增幅高达百分之七十五。工业复联 ai 服务器代工龙头,深度绑定英伟达、谷歌等大客户直接受益。 互电股份 ai 服务器 pcb 核心供应商、 pcb、 数据中心等领域的订单持续增长,大模型参数越大,数据传输需求越高。 光模块是 ai 算力集群的神经系统中继续创全球光模块龙头。一点六 t 光模块已批量交付。谷歌 gemini 流量增长将直接拉动八百 g 一 点六 t 需求。 天福通信一点六 t 光引擎规模量产,深度绑定海外头部大客户业。三点五 flash 的 免费开放受益于 ai 数据中心互联需求。 gemini 三点五 flash 的 一大亮点是端侧轻量化,让更多中低端设备也能流畅运行本地 ai 功能。瑞生科技向 ai 手机 x 二可穿戴设备输出光波导、高端散热系统等感知方案。康奈特光学、夸克 ai 眼镜独家镜片供应商受益于 ai 端侧设备放量。当然,话要说回来, 第一, gemini 三点五 flash 的 免费策略可能会引发整个 ai 行业的价格战,如果竞争对手被迫跟进降价,整个行业的利率可能被压缩。 第二,谷歌 tpu 供应链相关标的近期已有较大涨幅,工业复联中继续创等估值处于历史高位,短期追高需谨慎。第三,谷歌的资本支出虽然庞大,但能否持续产生回报,还需要看 ai 应用的商业化落地节奏。 总之, gemini 三点五 flash 免费开放是谷歌在 ai 成本占中的一次亮剑,它的意义不亚于当年安卓系统免费开放。 用极致性价比抢下生态入口,再用生态反捕算力投入工业复联在造服务器中继续创。在铺光模块,天府通信在生产光引擎,瑞生科技在布局端测硬件。当谷歌用十亿用户、万亿 toker 向全球宣告 ai 不 再是奢侈品时,中国算力产业链上的卖产人正在闷声发大财,这个赛道的故事正在翻开新的一章。 好,这个话题就聊到这。以上内容和提到的公司是基于公开信息的逻辑梳理与产业推演,不构成任何投资建议。市场有风险,投资需谨慎。

gemini 三点五 flash 发布三天变美国大豆包,这不是什么野鸡 ai, 这是谷歌三天前才在 i o 大 会上吹上天的 gemini 三点五 flash, 官方说它速度是一重一线 ai 的 四倍,性能远超自家前代旗舰,二十四小时不到就开始降至现在全网统一评价。快是真的快,蠢是真的蠢,它唯一的优点就是更快的告诉你错误答案。 有人让他写个护肤科普,肩带三点五开始犯病,直接给你输出几十行,死死死。 有人让他算三百加一百四等于多少,他一本正经的告诉你,等于四百六啊。很多人说这是谷歌的服务器,顶不住偷偷砍算。我翻了几百条开发者社区的贴子。第一个真相,他的默认是 high 档位, 而三点五 flyx 官方写的是 medium, 但实际逆向出来的却是 low。 为了达到二百八十九 tok 每秒的恐怖速度,他把所有能省的步骤都省了, 深度推理砍了,逻辑较验砍了,甚至连最基本的算术计算都懒得调用工具。第二个真相,它涨价了三倍,还更费 tok。 上一代三 flyx 的 每百万输出是 tok 零点五美元,输出九美元。 更坑的是,为了完成同样的任务,他会在后台进行更多无效的自我修正,导致 token 的 消耗量平均上涨了百分之四十。第三个真相,发布会吹的 computer use 功能上线直接没了,官方连个解释都没有,好像从来没提过这事一样。 那谷歌为什么要这么做?答案很简单,下个月要发布三点五 pro 了。这是谷歌玩了无数次的老套路,先发布一个吹上天的阉歌版,让所有人来测试,把流量炒起来,等大家骂他笨的时候,再推出一个真正好用的 pro 版,让你心甘情愿掏钱。而且他还故意把旧的 flash 模型下架, 要么用轻的更贵的 flash, 要么等更贵的 pro。 也许从某种角度来说,人家这是精准的商业算计,用一个阉割版模型吸引了全球流量,还涨了价,顺便为下个 pro 版铺路。大模型的军备竞赛早就变味了,现在比的不是谁更聪明,而是谁能把用户当韭菜割的最舒服。

大家好,今天早上,呃, google 开了他们的 i o 大 会,然后也正式推出了 gemini 三点五 flash 的 新的模型,然后我们现在来快速测一下,看它的能力怎么样。 这第一个我要它创建一个 ppt, 然后大概是一个呃客服的一个系统,然后要六页 ppt, 然后它们的字体要清晰啊,然后要每个问题有一个,呃自己的一个,嗯, 要产品要有一个,然后问题有一个,价格有一个,然后啊,等等最后的一些一个流程吧。然后他根据我的需求呢,先制定了一个计划啊,这是他的计划,然后我可可以继续,我们看一下怎么样,这个地方需要跑,那我就继续。 好,这个结果出来了哈,就是就是他做的 ppt, 感觉这个审美还是非常在线,比这个 codex 我 感觉强不少, 就是字体啊,或者是它的这个选择的颜色,还有这个动画设计啊啊,都是挺不错的啊,觉得可以,我们干第二个测试吧。第二个测试的话, 我跟他说要一个这种啊大览图,然后需要有这个产品的一些按,按不同的进行分类,然后他也是啊,搞了一个这个计划 啊,主题啊,字体啊,然后它的画面啊,它的这个整个结构啊,它应该怎么样去去设计,然后它的边框啊,它主要的画板等等,就是它自己有一个有计划以及验证,这都差不多,跟 codex 跟 cloud code, 我 们待会儿看一眼 效果用,哎,好了,第二个也做好了,我们去看一下啊,这是它的一个整体的状态, 都还有各个的一些详细的数据 面框, 根据这个自动进行一个变化,然后它的,哇,感觉这个完全没问题啊。就是这个,我的 u i 还是很能打,前端确实比这个 open i 强不少。我感觉再看一下第三个,三个我要它做一个小游戏吧,看它能不能做。 对,这边同样是有一个,先有计划,然后让你继续啊。 对,这个就是在浏览器里面做一个小游戏,然后就是这个用来收集一些啊 token, 然后用你的键盘去控制上下左右啊,然后重启啊等等,看看行不行。 对啊,这边还是反复地出现这个,而且你点一它不好使,你必须点 submit。 这个是就是他们新的这个 啊, i d e anti gravity 就 反重力。我觉得这个设计还是一个是抄了 codex 二,一个抄的还不好啊,挺挺值得被吐槽的我觉得。 而且他们,呃,我看他们最新的这个就是这个叫 anti gravity, 它另外有一个,如果你想要看它具体代码,就像以前的 i d e 一 样,它把它原本的那个名字改成了 i, 就是 把这个新的,把这个名字 啊做成了新版的 anti gravity, 但是原本的那个就叫做 anti gravity i d e 就 重新改了一下名字啊,也是让人挺摸不着头脑。嗯,有点奇怪。 嗯,看起来也好了,我们去看一眼啊,这是这个游戏的一个页面,我们看看他,是他说哎呦,它是有音效的哇,这个怎么?嗯啊,要接住 a p i, 然后接住接住绿的这个意思吗? 对,那就是要避开对不对?嗯啊对, 让我自己死一下嘛。会重启只有一次 ok 啊,最后得分,然后重启 ok, 还挺有趣的,就是整个没什么问题,音效也很好,然后动作也很连贯,不错不错,达到了这个要求。好,我们现在再看另外一个测试吧,就是一个三 d 的 模型,看它行不行。 三 d 模型啊,相当于要用那个 three d j s 去创建一个,然后是一个旋转的,同样有一个计划,然后让它执行, 同样的我们继续 使让它进行跑这个脚本, 然后这要是做完了,我们可以看一下,哎,中间有遇到一个错误,然后我修复了一下,我们可以看一下啊,工作了十九秒,然后它就生成 三 d 的 for harvard 的, 上面 这个有三点五。 有点看不明白哦,这个是什么东西? ok, ok, 相当于你把鼠标放在上面,它会显示各个模型的一些细节,它感觉整个是一个,它在晃动,现在我点上去之后,它在来回的晃动,也看不清楚,然后这个下边可能会显示一些这个,呃, 基本的东西,就是不动,拉不动,这个有一点点拉垮了,效果不太好,有点,有点不太行。 先看一下他们这个评分的一个标准,他们就今天早上刚刚发布的这个三点五哦,他们在扣顶上,是这边,是啊,七十六点二,然后仅次于这个五点五,然后比这个四点七还要高哦, 然后比之前的 pro 是 他们的轻量级模型啊,他说比他之前三点一的这个 pro 版本还要高哦, 然后就是这种就是 agent 的 能力, agent 能力也是远远的超过了前两个。就是这种啊,也超过了 opus 四点七,仅次于这个五点五,然后 看一下,就总的来说还是像这种打这个中的都是啊,搜塔就相当于是最高分的,感觉 从评分上来看是很优秀的,但是在网上其实已经很多人出现吐槽,就是实际上生生产用起来就是不如啊,首先不如五点五也不如这个啊, opus 四点七哈,这个是大家的一个目前来看测评的一个结果 啊,所以我这边测评主要是看一下前端是不是还是一样能打。因为啊, jennifer 来说他们的一直设计这一块啊,是比那个呃周鹏 i 要好一点点。总的来说就是啊,我的个人体验就是 啊 gemini 这个三点五 flash 我 觉得一般般,就是我如果你要问我日常啊,工作或者是生活,又会用这个啊来作为我的主力模型吗?我觉得答案就还是不会,就是我本来现在用的也不多,因为啊,它在逻辑推理啊以及这种 agantatic 的 能力上还是 明显的弱于 open i 跟这个 cloud。 所以 啊,我会持续关注吧,因为他们下个月应该会推出他们的三点五 pro 啊,那会是他们的旗舰模型,也希望到时候他们能够啊奋起直追啊,这样就是不要被他们两个另外两家落下太多,有机会大家也可以去试一试。

谷歌正式宣布推出 gemini 三点五 flash 模型,一分钟快速了解!谷歌宣布推出 gemini 三点五 flash 模型,这是谷歌迄今为止最快、最有效的模型。谷歌表示,从今天起,谷歌的 gemini 三点五 flash 将向全球所有用户开放,并且免费使用, 用户可以在模型下拉菜单中选择三点五 flash 进行体验。这次 gemini 主要更新是从回答问题的聊天助手升级成能主动帮你完成任务的智能体。 一、更强模型推出 gemini 三点五 flash, 更快,适合编码和智能体。任务二,视频能力升级。 gemini omni flash 支持用文字、图片、视频生成和修改视 频。三、更像智能体新增 spark, 可二十四杠。七、后台处理任务。四、更主动的日常助手 daily brave, 能结合 gmail 日历等生成每日简报。在 ai 智能体方面,谷歌将推出 gemini spark。 谷 哥介绍称, geminis park 是 全天候个人 ai 代理,能够帮助管理数字生活,并在指令下代执行任务。 geminis park 本周面向受信任的测试人员推出,下周将面向美国谷歌 ai ultra 定位用户推出测试版。

家人们,人工智能圈这次真的变天了! google deepmind 刚刚悄悄扔下了一枚重磅炸弹, gemini three point five flash 正式发布了!我原以为它只是个常规的小版本迭代,结果看完第三方权威评测数据,我整个人直接被惊呆了!这哪里是微调啊,这简直是轻量级模型的一场史诗级暴走! 如果你正在寻找一款坚固、极致、速度与顶尖智能的工具,听我的,闭眼冲它就对了。 一打破不可能的,怕累拖前沿。以前我们用大模型总要在速度和智商之间做妥协,想要聪明的,就得忍受它像挤牙膏一样一个字一个字往外吐。想要快的,智商又往往缺那么点意思。 但是 gemini 3.5 flash 把这个行业铁律给砸得粉碎。根据 artificial analysis 的 最新权威评测数据,在综合智能指数上,他直接轰下了五十五分,比前代足足飙升了九分,甚至一举超越 grog 四点三的五十三分和 cloudsonnet four 六的五十二分。 更夸张的是,他的输出速度直接突破了每秒两百八十个 token, 比上一代快了整整百分之七十!他现在是全球智能与速度帕累托最优前沿上无可争议的绝对领跑者。 二、 agent 能力的跨级碾压更让我感到惊喜。也是最想强烈推荐给大家的,是他这次在 agent 智能体能力上的外挂级进化。以前 gemini 处理多步骤的复杂工作流时,总让人觉得有点吃力,但这次他原生支持了思维保留技术,多人对话里那些中间推理过程决不丢掉数据从来不会说谎。在模拟真实世界 agent 任务的 gdp vol a a 严苛评测中, gemini three point five flash 轰出了一千六百五十六分的天花板级一楼天梯分。这是什么概念?他不仅把前代 flash 的 一千两百零四分远远甩在身后,甚至跨级碾压了自家老大哥 gemini three point one pro 的 一千三百一十四分, 距离行业天花板 g p t 五点四仅仅只有一步之遥。用轻量级的费率和速度跑出近乎顶级旗舰模型的 agent 的 操控力,这性价比真的绝了!三、 告别胡说八道与成本考量当然,大模型最让人头疼的就是胡说八道。这次 google 显然下了狠功夫, 在衡量知识储备与幻觉控制的 a a operations 精准测试中,它的得分暴涨,十一分模型幻觉率大幅下降至百分之六十一, 相比前代幻觉的绝对值,整整锐减了三十一个百分点,回答的准确性和严谨性得到了质的提升。不过客观来看,天下没有免费的午餐,因为他的 agent 复杂多轮对话能力变强了,导致输入的 token 量激增, 运行全套智能评测的总成本来到了一千五百五十二美元,是钱袋的五点五倍。但别慌,它的基础定价依然非常亲民,每百万输入 token 只要一点五美元,如果缓存命中,还能享受一折优惠,低至零点一五美元。这个价格对开发者和企业来说依然是真香。警告, 依照的超大上下文,原生多模态支持动态分级思考机制,毫无疑问, gemini 三点五 flash 就是 开启全面 agent 时代的里程碑式轻量模型。 各位开发者、科研党、生产力极客们,赶紧去 google ai studio 或官方平台搞个 api 体验一下,相信我,用过之后你绝对回不去了。

谷歌今天推出了 gemini 三点五系列,打头阵的是三点五 flash, 一 款兼具前沿智能与行动力的代理模型。它在代理和编码基础上超越了三点一 pro, 多模态推理领先,输出速度比同类模型快四倍, 真正做到了质量与速度兼得。更关键的是,他擅长处理长期代理任务,成本往往只有其他前沿模型的一半。结合全新的 anti gravity 框架,可以部署多个子代理,自动完成资产分类、代码维护乃至财务文件,准备 把过去需要几天甚至几周的任务压缩到几分钟。在企业端, shopify 正用它并行分析数据,做出更准的增长预测。银行和金融科技公司用它自动化繁琐流程。 全新的 gmail spark 个人代理将二十四小时为您待命,搜索体验也迎来动态界面。而三点五 pro 预计下月推出。模型内置前沿安全框架,用可解释性工具理解推理更安全可靠。 总结,三点五 flash 以旗舰智能和极致速度重新定义代理模型,让强大 ai 普惠开启行动智能新篇章。

jimi nike 三点五 flash 以及多组 jimi nike checkpoints 目前正在 arina 里高频测试,重点验证的不只是响应速度,还有实际能力表现。更值得关注的是,他有望把接近 pro 机的体验压到更低成本,直接影响轻量化部署和日常调用场景。 pos 二点五这次升级的重点很明确,就是更适合长时间编码任务,它不仅代码生成能力更强,推理和指令跟随也同步提升,复杂项目里连续修改、反复迭代会更顺手。关注全球 ai 速递,获取更多 ai 前沿资讯。

前几天 google 开发者大会发布了专门的三点五 flash, 那 么我也是第一时间用我的 google ultra 的 账号来试试。先说 google 这次产品做的真是一坨屎,很多朋友也看到两个客户端有点懵逼, anti gravity, 我 先简称它为反重力,是 google 编码的客户端,但是是有两个客户端的,分别是反重力二点零和反重力 ide, 那 么一个更像是 vs code 的 串口,一个更简洁。 google 真的 有时候不太注意用户的体验,也没有很好的告诉消费者两个的端口的区别,有些朋友可能找不到这个端口,反正先不管怎么样,先试试 jammer 三点五 flash 的 能力。老规矩,让他帮我们先做一张天气卡,我们来看看到底效果如何。 那么整体效果还是不错,我认为整体的前段能力还是很强的,天气卡的能力比 deepsea v 四要强上一点,感觉差不多能比肩质朴五点一。但是后端很多朋友反映 jamming 的 能力依旧是有问题,而且有嘴硬,幻觉率非常非常高, 那么并不作为大家的优先使用模型。我个人感觉的话, jamming 三点五 flash 也是闹麻了对吧?更像美国豆包。 好来看 api 的 价格,虽然 java 三点五 flash 没有开源,但是可以根据 tpu 的 显存待宽,推理速度可以反推,估计也就是二百五到四百币的 me 或者 flash 模型,但是这个价格太离谱了。 为什么说离谱呢?因为你看 api 的 价格,输入比 vs flash 贵十倍,输出比 vs flash 贵三十倍,那么按照 tpu 反推的话, java 的 利率在百分之九十以上, 那我相信这个价格大家肯定会选择 tpc, 也有朋友说 google 内部有很大的问题,比如说 google cloud 肯定是觉得 tpu 资源卖给竞争对手是非常赚钱的生意,而 jammer 肯定是倾向于把这个 tpu 资源给客户,以确保这个 jammerc 端用户的粘性,所以这种情况是既要又要。我感觉导致 jammerc 三点五 plus 拉完了。感觉这次 jammerc 三点五 plus 就是 感觉它们内部步调不一样,做的也是前后不一致。 这次发布的欧曼奈视频模型如何?我们一起来测试一下能不能和 cds 二点零持平了。不过这次发布的欧曼奈的视频模型跟 cds 二点零完全没办法比,不管是可操作性还是整体镜头的一致性,还是各方面。当然它价格很便宜,可能价格不如这个 cds 的 十分之一,但是做的确实也很拉。 我不知道有后期他会不会去优化这个模型,让这个有更多可编辑的选项,比如声音,包括视频的流畅度有一个更好的提升。 我个人感觉欧慕莱视频模型仿佛面向的不像是这种 c 端客户,不像是这种用户消费者的这种体验的感觉,它更像是面向一个 b 端用户的 样板,他做的不完善,可能后续如果面向 c 端客户把 omnit 视频模型整合进去,我觉得可能会体验感会更强一点,包括 jimmy 三点五 flash, 可能他去把这个产品优化一些,我觉得可能对 c 端的用户会更好一点,包括他自家的编码的客户端都有两个,自己也搞不清楚。 那希望六月份的 gemini 三点五 pro 能带给我们不一样的惊喜,这次 gemini 三点五 flash 确实拉了个大呢,不知道下次 gemini 三点五 pro 能不能重现 gemini 二点五发布时候的那种惊艳感觉呢? ok, 我 们下期再见。

gemini 三点五 flash 终于发布了。按惯例, flash 系列一直是轻量级选手,主打性价比和速度,真正的旗舰得看 pro。 但现在行业趋势就是这样,新一代小模型直接碾压上一代大模型,三点五 flash 也不例外,在编码 agent, 工具调用这几项上全面超越了上一代的三点一 pro。 定价上,输入一点五美元每百万 token, 输出九美元,每百万 token, 比上代三 flash 贵了三倍,但比三点一 pro 便宜百分之四十。全行业 token 涨价确实是大势所趋了。数据说话, terminalbench 二点一,编码精准,三点五 flash 拿下百分之七十六点二,三点一 pro 是 百分之七十点三, gdp 榜 a a 这个衡量真实世界经济任务的榜单。三点五 flash 一 千六百五十六分,三点一 pro 一 千三百一十四分,拉开了三百多分,跑分层面确实有肉眼可见的提升,但也不是全赢。 humanity's last exam 上三点五 flash 只有百分之四十点二,三点一, pro 是 百分之四十四点四, r k g 二上百分之七十二点一,也没打过 pro 的 百分之七十七点一。 这两项考的主要是世界知识储备和纯粹的抽象推理,换句话说,这一代依然是用知识面的缩水换来了实际干活能力的飞跃。速度方面,输出比同级别前沿模型快四倍。三点五 flash 今天起直接成为 gemini app 和搜索 amoled 的 默认模型,全线上线,所有人现在就能用。

一口气看完谷歌 i o 大 会七大更新,先看明星产品 gemini 三点五 flash, 几乎所有机型超越三点一 pro 主打更强的 a 帧能力、更强的抠定能力和更快的速度,速度四倍于同级模型,价格比三 flash 差不多贵了三倍,但比三点一 pro 便宜百分之四十。三点五 pro 推迟到下月发布, 值得期待。第二, gemini 一 款世界模型,能根据图片、视频、音频、文字任意输入生成高质量视频, 创作出来的视频完美卡点。还可以通过跟他对话来编辑视频,换环境、换角度、换风格,多次优化也没问题。而且他对这个世界也很懂,短短一行提示词就能生成黏土动画,讲清楚蛋白质折叠。 第三,谷歌把 antigravity 打造成一个完整生态桌面版。二点零是目前主力入口,中端 c l i 适合快速脚本化清亮场景,自己造 agent 就 用 s、 d、 k 还有企业接入, 实现无缝配合。谷歌这波的核心方向就是专注于多 agent 协助异步任务和更广泛的知识工作,而非仅限于编码。 第四,你的私人 ai agent gemini spark 由 gemini 三点五和 google ant gravity 技术提供支持,在谷歌云上的专用虚拟机上运行,甚至注入了智能编码能力。第五,智能购物车。不论你是在刷 youtube 还是看 gmail, 都能直接添加商品,它还会自动比价向你推荐更加方案。 第六,一些好玩的更新,谷歌的 ai 选映技术,官网里又将会圈一下就能查这张图是不是 ai ask map youtube 把搜索框变成直接对话的窗口, 还有 dog's life, 以前让 jimmy 写东西得字斟句酌的输入提示词,现在直接说就行, jimmy 会自己整理,最后提一嘴谷歌的音频眼镜秋季上市,不得不说这届 i o 大 会信息量真不小。你最喜欢哪个? 关注机器之星,探索 ai 世界。

谷歌 jamming 三点五 flash 昨天上线了,那么它对咱们音乐人有用吗?跟三点一 pro 相比有什么进化吗?谷歌在昨天的二零二六开发者大会上刚发了二十多个产品,我们连夜总结了发布会跟我们相关的几个产品, 其中最新的 gemini 三点五 flash 比较亮眼,我连夜拿了十几首歌给它做音乐分析,结果差点气吐血。咱们直接看图,网上都在吹它比 gemini 三点一 pro api 调用价格便宜了,但便宜的代价是什么? 这他牺牲了对我们很有用的世界知识和推理的能力,对咱们音乐人意味着什么?你让他写代码行,你让他写走心的歌词,拆解复杂的编曲,他直接傻眼,咱们直接上最硬核的专业音乐人拆解 prompt 给三点五 flash 和老大哥三点一 pro 同时为了十首 mp 三歌曲来分析, 结果呢?三点五 flash 除了思考速度快了大概百分之二十,剩下的基本全军覆没,很多编曲的细节他根本听不出来,分析浮于表面,甚至还经常出现幻觉,胡说八道。所以啊,目前的 jamie 三点五 flash 还不太适合我 这样需要大量使用多模态推理能力的音乐人。如果啊,你要做爆款歌曲,要想提高生产力,还是老老实实的用回 jammin 三点一 pro。 或许咱们再等一两个月,等三点五 pro 出现之后,它的多模态能力才会有大幅度的提升。毕竟啊,谷歌的 jammin 才是市面上唯一的最懂音乐,最懂阅历的多模态原 声的东西。把你的参考歌曲 mp 三直接扔给他,让他帮你提炼爆款音子八边去写出带逻辑重音的满分歌词, 最后再扔给 solno 去深沉,这才是真正的降维打击。最后啊,我们再插播一个不大不小的新闻,这次大会上谷歌也正式官宣之前收购的 producer ai, 以后它就改名叫 music flow, 正式加入谷歌全家桶。但是大家先别激动,我立马去官网测了底层的 linear 三 pro, 音乐模型 和功能都没有更新,纯纯就是换了个名字。虽然 jimmy 长期霸占多模态大模型老大哥的位置,但我们也希望他多争气,在未来的三点五 pro 中给我们这些音视频创作者们但 带来更多的惊喜。好了,这里是小旭音乐,你的 ai 时代音乐领航员,咱们下次见!

谷歌 i o 只剩几天, jimmy 奶这一轮更新也开始进入密集测试期。可以看到,这次不是单点试验,而是 flash pro 多个 check point 同步推进,节奏非常紧。 先别急着看版本号,真正值得关注的是,它们在轻量和高配两条线上,已经同时把门槛往上抬了一截。 先看 jimmy nike 三点二 pro 整体不差,但问题也很明显提升,没有形成那种一眼能感受到的跃迁,尤其是前端输出,老是反复冒出相似的 pino 风格,审美很快就会疲劳。可命名一改,局面就变了, jimmy nike 三点二直接切到 jimmy nike 三点五。而且 flash 和 pro 会一起在 i o 上亮相,这说明这次不是小修小补, 而是一次正式升级。真正把气氛拉满的是 gemini 三点五 flash, 它最夸张的地方不是能生成,而是能生成一个完整的 minecraft clone, 有 背景音乐,有组建,有健康条,甚至还能连服务器移动切换 creative mode。 更关键的是,整体完成度已经接近可交互。前端不只是象,而是真的把玩法骨架搭出来了。更有意思的是,名义上它还是 flash t, 但实际表现已经能和更高端的模型掰手腕,甚至在多次前端生成里压过一些老牌强项。它的变化还不只是更强,而是更会做布局更干净,层级更清楚,重复 pawn 明显少了,空间一致性也稳了很多。 最能说明问题的是那只鹦鹉骑自行车的阿斯基二。这种任务最考验长城结构控制,很多模型会中途散掉,但给 minion 三点五 flash 把字幅画完整撑住了,还能调背景色调、字体大小和扫描线, 也就是说,它不只是快,而是开始同时兼顾速度、推理和审美。所以这次最值得记住的不是某一个炫技案例,而是 flash 线的定位变了,它不再只是便宜、响应快的备选项,而是开始往又快又聪明靠近。 ai 竞争真正拉开的往往不是单次经验,而是谁能把高质量输出稳定地做成日常能力。关注全球 ai 速递,获取更多 ai 前沿资讯!

大家知道啊,我一般不轻易说离谱这种词,但就在刚刚,我把谷歌二零二六 i o 大 会上最新发布的 gemini 三点五 flash 接入微信的时候,真的忍不住说了句,这也太离谱了。为什么呢?因为 gemini 三点五 flash 让微信活了过来,我甚至觉得它已经突破了土林测试, 不仅非常认真,非常自然地回复了用户,甚至做到了用户根本不知道他就是在跟 ai 聊天。比如,当用户说话说到一半的时候,他能够带着情绪去回复用户说,哎,你说话只说了一半吧,急死我了,这哪里是 ai, 这是真人吧! 更夸张的是,但 jimmy 三点五 flash 结合十六 ai 桌面智能体,它更是具备了操作电脑的能力,能像真人一样的自己去识别聊天窗口, 点开新的对话,新的私信、新的群,跑过去回复用户。我们的一些用户真的已经开始玩土林测试了,看看到底谁能分清楚这是 ai 还是真人。如果你也想体验这款 jimmy 三点五 flash 加微信智能体,让你的微信自己会看、会想、会说,就在评论区打 ai。

昨天果哥开发者大会新发布的 germany 三点五 plus, 这里现在也是用上了,需要的朋友们可以搞起来。

上班了各位,昨天晚上谷歌又发布了 drive my 三点五 plus, 还有 anti gravity 二点零竞争真的是进入白热化了。 coldest 昨天晚上赶紧重置了一下额度。