粉丝294.9万获赞7010.0万

朋友们,今天凌晨,谷歌扔出了一枚深水炸弹。就在刚刚结束的 google i o 二零二六大会上,谷歌宣布推出 gemini 三点五 flash 模型,并且向全球所有用户免费开放。这不是阉割版,不是试用版,而是谷歌宣称的迄今为止最快、最有效的模型。 它可以接受任何形式的输入文字、图片、音频、视频,用户甚至可以用自然语言直接编辑视频。谷歌在现场算了一笔账,对于头部企业来说,如果把大部分工作负债切换到 flash 系列模型,每年节省的成本可能高达十亿美元级别。免费开放多模态视频编辑,年省十亿, 这不仅是模型升级,这是全球 ai 巨头在用极致性价比重构竞争格局。很多人可能对三点五 flash 这个命名没概念,我帮你翻译一下。 第一,速度快得离谱。谷歌表示, g m 三点五 flash 在 输出令牌速度上是其他前沿模型的四倍,而在优化平台上的版本,速度还能再提升到十二倍。什么概念?你以前问 ai 一个问题,等三秒才有回复,现在一秒不到答案就出来了。第二,性能不降反升。你可能会想,速度快是不是牺牲了智能? 恰恰相反, gemini 三点五 flash 在 多项精准测试中,超越了四到五个月前的旗舰模型。在代理式 ai 能力、代码编辑、多模态理解等关键维度上,三点五 flash 都达到了前沿级别的水平。用谷歌的话说,性能是旗舰级,成本只有三分之一到一半。第三,真正的多模态来了。 gemini 三点五 flash 可以 接受任何形式的输入文本、图片、音频、视频。更炸裂的是,用户可以用自然语言直接编辑视频。你说把这段视频中的夕阳调亮一点, ai 立刻执行, 不像是模型升级,更像是人机交互方式的彻底重构。第二部分,谷歌的阳谋,用极致性价比打一场价格战。很多人问谷歌为什么要免费开放,低价收费?难道做慈善?答案很简单,抢市场、抢用户、抢生态。第一, ai 的 竞争已经从参数竞赛转向成本竞赛。谷歌现场算了一笔账, 目前头部企业每天在谷歌云上处理海量 token, 如果把大部分工作负债切换到 flash 系列模型,每年节省的成本是十亿美元级别。 对于正在烧钱搞 ai 的 企业来说,成本就是生死线,谁能在保证性能的前提下把价格压到最低,谁就能抢走对手的客户。第二,谷歌要用免费圈住十亿用户。 gemini 应用的月活用户已经超过九亿,一年前这个数字只有四亿。谷歌搜索 ai 模式的月活用户也在一年内突破了十亿。策略很清晰,用免费的 flash 模型留住 c 端用户,用低价的 a p i 吸引弊端开发者。当所有人都习惯了 gemini 生态,谷歌的 ai 收入就会像当年的搜索广告一样源源不断。 第三,谷歌有降维打击的底气。自研芯片,谷歌使用的是自研 p p u, 而不是像其他厂商那样采购英伟达 g p u。 自研芯片意味着更低的单位算力成本、更高的利率。二零二六年,谷歌预计资本支出将达到一千八百亿至一千九百亿美元,六倍于二零二二年的三百一十亿美元。 这种不计成本的投入,就是在为未来五年的 ai 算力霸主地位铺路。谷歌 ai 大 模型升级,最直接的受益者不仅是谷歌自己,还有整条 ai 算力产业链,大模型训练和推理需要海量算力。 杰米尼三点五 flash 的 免费开放,意味着全球用户的使用量将暴增,直接拉动 ai 服务器需求。据产业链消息,谷歌 tpu 机柜总数量预计将从二零二六年的约六万柜,快速成长到二零二七年的约十点五万柜,年增幅高达百分之七十五。工业复联 ai 服务器代工龙头,深度绑定英伟达、谷歌等大客户直接受益。 互电股份 ai 服务器 pcb 核心供应商、 pcb、 数据中心等领域的订单持续增长,大模型参数越大,数据传输需求越高。 光模块是 ai 算力集群的神经系统中继续创全球光模块龙头。一点六 t 光模块已批量交付。谷歌 gemini 流量增长将直接拉动八百 g 一 点六 t 需求。 天福通信一点六 t 光引擎规模量产,深度绑定海外头部大客户业。三点五 flash 的 免费开放受益于 ai 数据中心互联需求。 gemini 三点五 flash 的 一大亮点是端侧轻量化,让更多中低端设备也能流畅运行本地 ai 功能。瑞生科技向 ai 手机 x 二可穿戴设备输出光波导、高端散热系统等感知方案。康奈特光学、夸克 ai 眼镜独家镜片供应商受益于 ai 端侧设备放量。当然,话要说回来, 第一, gemini 三点五 flash 的 免费策略可能会引发整个 ai 行业的价格战,如果竞争对手被迫跟进降价,整个行业的利率可能被压缩。 第二,谷歌 tpu 供应链相关标的近期已有较大涨幅,工业复联中继续创等估值处于历史高位,短期追高需谨慎。第三,谷歌的资本支出虽然庞大,但能否持续产生回报,还需要看 ai 应用的商业化落地节奏。 总之, gemini 三点五 flash 免费开放是谷歌在 ai 成本占中的一次亮剑,它的意义不亚于当年安卓系统免费开放。 用极致性价比抢下生态入口,再用生态反捕算力投入工业复联在造服务器中继续创。在铺光模块,天府通信在生产光引擎,瑞生科技在布局端测硬件。当谷歌用十亿用户、万亿 toker 向全球宣告 ai 不 再是奢侈品时,中国算力产业链上的卖产人正在闷声发大财,这个赛道的故事正在翻开新的一章。 好,这个话题就聊到这。以上内容和提到的公司是基于公开信息的逻辑梳理与产业推演,不构成任何投资建议。市场有风险,投资需谨慎。


谷歌的界面的三点五正式上线了,整体的实力大幅提升,在多模态识别代码的边写以及智能交互体验都相当的不错,运行也很丝滑流畅,还支持大容量的上下文创作和办公,都很适配, 新手也能轻松的上手使用。大家好,我是温谷,我相信有很多小伙伴们已经在界面的官网中已经使用了三点五这样一个模型,我教大家三个使用方法,适合自建工作流, ai 的 写作、文案生成、图片、海报和抖音运营的同学。 第一,课请求调用,适合在工作中前开始调试。第二,通过 python 代码的 sdk 的 调用,适合自建 skills, 最后给 open claw 和 hammer agent 使用。第三, n 八 n 工作流使用,适合打造自己的数字能演示。一,我们用这个课请求来试一试, 好吧,然后课请求就是 c u r o, 这个大家可以往上搜一下,大家可以看一下,就是我这里 api 的 端点,就是 generate language, 谷歌点 api 点 com, 请大家注意一下这个,它不是一个呃, open ai 的 标准的一个模式,就是 如果你是那个 open ai 的 一个标准的模式,它应该是左斜杠杠归,然后再左斜杠 chat 它,这个不是,所以说我们一般做调试用,可以看一下这里面,我这边的这个,你看它后面紧接的模型是 jame 三点五, flash, genevate content, 然后 key 就 跟到我这个 key 啊,这个这个,我 key 把它暴露出来没?其实没有关系啊,因为反正这也是免费的,你看他是,你是一个专业的专业助手,解释一下什么是 leg 这个技术啊,他就已经回复了,从那里看这个这么多模型。那其实啊,这也不是我说的是这个,这个我给大家看一下, as 丢了的话,你去 get 这个 apikey 啊,我这里有好几个 apikey, 拿到这个 apikey 以后,哎,你就可以去做这个啊,就可以去把这个呃,你的 apikey 放在这里就可以做调试使用,调通了以后,你再把这个再去放到代码里面进行调试啊,然后这里它有一个这个 这个限制的。在这个地方啊,你可以看一下这里的 c 末啊,有个三点五 flag, 我 找一找啊,他这个用这个表经常会刷新的,哎,这个有个 jimi 的 三点五是吧?这是个文本输入过大模型, 它的 p r m 也就是每分钟的这个 token 啊,就每分钟五个这样是吧? t p m 这个是代表它每分钟的 token 数,它每分钟给了你两万五千个 token 啊,所以说你养龙虾可能够呛,但是你做这个自动化变卖流啊,是吧? n 八 n 啊,包括底价都是没任何问题,它一个这个分钟应该是可以, 应该是每秒了,是吧? pick lock, 那 每分钟给允许你掉五次是吧?每每分钟给你两万五千个头等,这应该是够用的啊。这个这是最最近昨天更新出来的,因为昨天这个谷歌二零二六的开发者大会是公开了个 gmail 三点五 啊,然后那个杠 max 啊,还 pro 还没有发布吧?应该是啊,但是呢, flash 应该非常强了啊,非非常强,他现在给大家免费的话,呃,大家一定要去用啊。然后第二种用法的话,就是我这个地方调了一下这个这个这个这个这个地方给大家看一下,就是 啊,这里是生成一一张什么图片啊?这这这个倒没什么,这个是我,我那个是纹身图的,是吧?我这里是用的这个谷歌的追未来的一个这个 sdk 啊,大家去引入这个 sdk 啊, flunk 谷歌 input 的 追未来 ai, 然后你下载它的 sdk 就 可以用了,是吧?然后再把我的 api 放进去,你可以跟我老师给大家演示一下啊。好, 我逻辑了下,我这里可以总共使用有五十二个模型啊,有些是收费的,有些是免费的,然后等一等, 哎,这里出来了,是吧?做的是一个让他设计这个一个品牌的一个文案,是吧?文案是吧?对对对,好, 那第三种情况也是大家常最常用的,就是这个在 n 八 n 里面这么用的,我把它拿过来给大家看一下,这个是刚刚跑出来的结果啊,之前我演示的是这个,用这个魔大平台,这个地方我用的是谷歌的,是吧?谷歌的这个是吧?然后这个地方你需要把这个 api 塞上去,哎,这里塞上去以后它连接成功了,连接成功了以后, 在这个地方你可以选择它的模型了,是吧?你一定要选择三点五是吧?最早啊,就是上周前指的免费的模型,就是街面的二点五那个比较拉快啊, 是吧?已经谷歌让我们二点五已经是发布两年前的模型啊,这个是昨天最新的模型,呃,比较强大。其他的都是收费的啊。其他这个 pro、 pro、 vivo 啊,包括这个 max 啊,都是收费的。但是三点五 plus 目前是免费的啊,为什么是免费的?刚刚跟我老师给大家看的是谷歌官网,是 是选选择,目前是现在是免费的,应该他在开发者大会上已经说了这个是免费给大家用,我相信他也不会说他给大家用一两头就关掉他,是吧?谷歌应该丢不起这个脸,是吧?好,然后这个给大家跑一下吧,对, 跑一下,这个乱乱一下就好了,哎,这个我是做了一个这个新闻的整理啊,就是第一步就是我再去搜索这个新闻,是吧?然后搜索到新闻,最后拿到这个新闻的素材,是吧?然后把这个套的新闻给我整理出来,最后拿到这个话我就会发到什么,是吧?是吧?某某抖是吧? 啊?你看这个是今天上午啊,五月二十一号的 a i 新闻,等等等等,是吧?是吧?噔噔噔噔噔,好,这是我今天给大家三个用法,希望大家去调试和使用,有问题的话小伙伴可以在这个评论区留言,我看到都会回复大家的。

五月二十日 ai 大 事件盘点,五哥炸场大神跳槽,国内政策加技术加资本,三箭齐发,五哥三联机 i o 二零二六三大重磅产品 jimmy 三点五 flash 商用二百九十八 token 每秒速度比 g p t 五点五快四倍成本遥展 jimmy 纳米一句话生成修改视频全球免费开放 jimmy spark agent 系统级智能体接管手机邮箱日程。下周美国北塔大神跳槽 openai 联创前特斯拉 ai 总监 k 神正式入职 astropica, 负责 ai 自我进化,主攻常温本推理与智能体。 astropica 估值九千亿美元,反超 openai 拿下 spacex 二十二万张 gpu 算力大模型全球领跑。 kimi 二点六 deepsea v 四位列全球前二。中国大模型周调用量七点六九三万亿次 token 是 美国的一点八一倍。 ai 剪辑数字人直播工具日活破千万, a 股 ai 算力含五 g 领涨。

快四倍,性能超 pro 还免费,这不是广告,这是 google 刚发的 gemini 三点五 flash。 今年的一欧, google 一 口气甩出十大发布,我帮你们筛出了最值得关注的。以前你让 ai 帮你做事,得一步一步操作,现在有了 spark, 你 说一句,帮我把上周的邮件整理成周报,它自己跨 gmail docs sheets 搞定。 搜索也被颠覆了。二十五年最大改版以后默认就是 ai 给你答案,不是给你一堆链接,让你自己找。硬件方面, google 和 samsung 联手推出 android xr 智能眼镜 warby parker 和 gentle monster 负责设计 gemini omni 多模态视频生成加编辑。一句话生成视频还能直接改 语音写文档的 doc live, 跨服务购物的 universal cart, 开发者用的 antigravity 二点零,加上 ultra 降价,全线产品再升级, 背后投入更夸张,超过一千两百亿美元的 ai 基础设施投资一零大发布,一个主题 agent 无处不在关注叶哥下期实测三点五 flash。

朋友们,谷歌这次是真的下狠手了。就在刚结束的 google i o 二零二六上,谷歌正式发布三点五 plus 模型,而且直接全球免费开放。注意,不是阉割版,也不是现实体验版,而是谷歌目前最核心的模型之一。这个模型最离谱的地方有三个。 第一,速度快。谷歌表示它的输出速度是很多前沿模型的四倍,在优化版本上甚至还能提升到十二倍。 以前 ai 回答问题要等几秒,现在基本就是秒回。第二,快归快,但性能一点没掉,代码生成、多模态理解、代理能力,这些核心项目已经超过了几个月前的旗舰模型, 说白了就是旗舰级性能,但成本更低。第三,多模态开始真正实用了,文字、图片、音频、视频它都能处理,甚至还能直接一句话修改视频内容,你说把画面亮一点,它直接帮你改。那谷歌为什么突然免费? 原因其实特别现实,就是抢市场。现在 ai 行业已经从拼参数进入拼成本阶段,谁便宜谁效率高,谁就能吸引更多用户和开发者。 谷歌现在的策略很清楚,免费模型留住普通用户,低价 api 吸引开发者,最后靠生态赚钱。而且谷歌还有个大优势,就是自研 tpu 芯片,相比很多依赖英伟达 gpu 的 厂商, 谷歌自己的算力成本更低,所以他更敢打价格战。二零二六年,谷歌资本支出预计接近一千九百亿美元,本质上就是在提前抢未来几年的 ai 主导权。总之,三点五 flash 免费开放不只是一次模型升级,更像是 ai 行业新一轮大战的开始。 以上内容是基于公开信息的逻辑整理与产业推演,不构成任何投资建议。市场有风险,投资需谨慎。

就在刚刚五月二十号凌晨一点的时候,谷歌的开发者大会正式的开始直播,那肯定有很多朋友没有看这个直播,我只能说各位真是有先见之明,整个直播时长有两个多小时, 又臭又长,直接给我看历劫了。信息密度呢可以说是非常的小,就是发布了一个全新的模型三点五 flash, 其余的其他功能呢都是接入的这个模型,各种乱七八糟,内容呢都加了在一起,大会的后半段呢,直接变成了现场直播带货,我看完就是一句话,真是闹闹又麻麻 闹马。我们首先看一下大会的第一个部分,就是 gmail 模型家族,整场都在讲这个, gmail ai 发布了 gmail 三点五 flash, 它的定位呢是前沿智能模型和 agent 执行力合二为一的旗舰快速模型,头跟的输出速度呢是其他旗舰模型的四倍, 非常的夸张,而且在编程 agent 的 多模态基础上,超过了 gmail 三点一 pro 就是 一个 flash 模型,超过了三点一 pro 模型,这个就意味着这次模型呢是小而快,听起来非常的不错, 但是我不禁要问,那么代价是什么?没错,它的价格也赶上了 pro, 上一代的 pro 模型呢,每输入百万, token 呢是二美元,输出是十二美元。这次的三点五 flash, 它的输入是一点五美元,输出是九美元, 其实非常接近了,在他们直播中有这样一张图,说是用了九十三个 agent, 输出了二十六亿的 token, 总共金额小于一千美元啊,我先保持一下质疑, 这次价格涨的确实有点多,这还只是 flash 模型三点五 pro 呢,预计在下个月,也就是六月上线,那你想想吧,那个价格肯定会更高呀。那第二个呢,就是 jimmy 欧姆尼全新系列,目前用的也是三点五模型,核心定位呢是推理能力加创作能力融合首发的 jimmy 欧姆尼 flash 接受图片、音频、视频文本的输入,也可以输出生成视频,还可以创建我们自己的声音生成的视频呢,让他说话的声音就是我们自己的。 你可以理解为把视频生成模型,图片生成模型全都融到了一块,缝合怪奇美拉。另外顺带一提,它的内容检测能力呢,从 jimmy nike 的 app 版扩展到了搜索和谷歌浏览器中,也就是说,当你看到一个图片,你不知道它的真伪,那么你可以把这张图片发给他,问问他是否由 ai 生成 它可以进行判定。这个怎么说呢,就我体感下来,其他的生成模型我都能认出它是 ai, 唯独 g p t 的 那个确实是有点真假难分,你不会针对的 g p t 吧?那山姆就有话说了,你不是我的兄弟,你是个路人。 接下来就是重头戏,谷歌的 a i d e 反重力二点零上线了,全新独立的设计啊,真是不愧是谷歌啊。从这个设计页面上呢,我就看到了无数个神支持了 doa 盾,并且速度非常的快,而且如果你是新开通的,或者以前就是 o 叉用户,还会送你 一百套的额度,那去领吧。什么意思?下一个更新的是全新的设计语言,几乎是全平台桌面版、手机版以及网页端都进行了更新,变得非常优雅,动画非常丝滑,同时引用了全新的字体,不过对于阅读中文来说好像不是特别方便, 只是阅读英文的时候看起来确实很优雅。每天的额度呢,也改成了卡尔的那种限额五小时刷新,直到达到周限额 结束了,也就是说,如果你是 pro 用户,可能用一会就没有了这个额度。下一个 jimmy spark, 二十四小时全天候, agent 直接运行在云端,在手机上,电脑上拿起来就直接控制它使 用的模型呢是 jimmy, 三点五,可以实时监控我们的信用卡账单,追踪邮件,自动整理笔记,制作文档。这个几乎就是一个 agent 的 平台的标配了,它本身就是一个超级 mcp 客户端,接的非常多。这个时候可能有朋友说了,哎,这个不是小龙虾吗?是吗? 目前这个我们用不了,你是 plus 用户, pro 用户都用不了,你必须得是 air ultra 用户。二百五十美啊,不对,现在降价了,是二百美元一个月。但是这个计划对我个人吸引力不是特别大,再下去沉淀沉淀吧,我们看下一个谷歌搜索 三十年以来最大的更新,在二五年年底的时候呢,谷歌浏览器就推出了 ai 模式,那现在呢?把这个 ai 的 模型换成了 gmail。 三点五, 我们输入的越长,搜索框越会主动的进行扩展,因为它是内置在浏览器上,主要还是为了搜索嘛。当你一个很简单的问题,他就会给你回复很短的内容,但是当你长篇大论的跟他讨论的时候,他就会开始进行深度思考 啊。 deep think, 也就说类似可绕的那种,判断你的意图,以及你这个问题的复杂程度,他自己来决定给你回复多少。另外这样一个浏览器也有 agent 了,二十四小时全天监控。我们提一个问题, agent 在 后台跨博克新闻社媒以及谷歌的实时数据 持续监控,也就说你可以让他实时帮你监控一些内容。那这个监控的功能呢?我个人认为可以用在理财的方面,比如说黄金的金价,实时给你追踪一些股票的价格,实时的给你发送。 不过这个功能呢,暂未发布,夏季向 ai pro 凹叉用户开放下一个 mini app。 这个功能是在我们搜索的时候,那一个非常长的任务,它会自动给我们生成看板,或者是生成网页,生成一个小应用,我们可以直接快速的跟它交互,那比如说我问一个太阳 长什么样子,那它呢?就会生成一个类似网页,或者是一个三 d 的, 我们可交互,可以拖动旋转。这个太阳演示看下来呢,还是非常有意思的,但是仍未发布, 发布时间是未来几个月。 ai pro ultra 美国地区的用户可以使用,也就说你不在美国,或者你是免费用户,那么你都是用不了的,太可恶了,他不是我们的兄弟,他是路,厉害。最后还有几个我快速给大家过一下,因为我个人感觉非常的无聊,一个是全网通用购物车, 让 ai 帮我们去购物,去比价美国豆包啊,真是实至名归啊。还有一个呢,是给油管准备的 ask youtube, 可以 直接处理复杂的查询和后续的追问,其实跟 grog 差不多, grog 呢,是可以读取 x 平台的所有推文,那这个 youtube 呢,自然是可以读取油管上的所有视频,以结构化交互形式呈现。这个呢,现在已经可以用了,局限于 youtube 会员的美国用户啊,注意你得是会员哦。 最后呢,就是他们的带货环节,首先是他们的安卓 x r 啊,智能眼镜,想当年我也买了一个小米的异样眼镜,老傻了。我 目前呢是两个版本,一个是带屏幕的,一个不带屏幕的,只不过带屏幕的还没有发,各位感兴趣可以去看一看。大概 就这么多内容,如果各位非常闲的话也可以去看看。这个直播还是蛮催眠的。那以上呢,就是本期视频的全部内容了,如果你对上述我们提到的这些内容某 某一部分你感兴趣,可以在弹幕里留言,我们可能会单独出一些视频来测试,或者是解读一下。各位记得点赞,不点赞的话你就不是我的兄。 ok, 最后祝各位玩的愉快,我是段峰,我们下期再见!拜拜!

gemini 三点五 flash 终于发布了。按惯例, flash 系列一直是轻量级选手,主打性价比和速度,真正的旗舰得看 pro。 但现在行业趋势就是这样,新一代小模型直接碾压上一代大模型,三点五 flash 也不例外,在编码 agent, 工具调用这几项上全面超越了上一代的三点一 pro。 定价上,输入一点五美元每百万 token, 输出九美元,每百万 token, 比上代三 flash 贵了三倍,但比三点一 pro 便宜百分之四十。全行业 token 涨价确实是大势所趋了。数据说话, terminalbench 二点一,编码精准,三点五 flash 拿下百分之七十六点二,三点一 pro 是 百分之七十点三, gdp 榜 a a 这个衡量真实世界经济任务的榜单。三点五 flash 一 千六百五十六分,三点一 pro 一 千三百一十四分,拉开了三百多分,跑分层面确实有肉眼可见的提升,但也不是全赢。 humanity's last exam 上三点五 flash 只有百分之四十点二,三点一, pro 是 百分之四十四点四, r k g 二上百分之七十二点一,也没打过 pro 的 百分之七十七点一。 这两项考的主要是世界知识储备和纯粹的抽象推理,换句话说,这一代依然是用知识面的缩水换来了实际干活能力的飞跃。速度方面,输出比同级别前沿模型快四倍。三点五 flash 今天起直接成为 gemini app 和搜索 amoled 的 默认模型,全线上线,所有人现在就能用。

谷歌 i o 大 会放出王炸 g m n i 三点五, flash 免费开放,输出速度超过每秒两百八十个偷啃是 g p p 五点五和 cloud opus 四点七的四倍,成本不到对手一半。这不是加速,是降维打击。智能水平逼近旗舰模型,却用经济舱的价格给到所有人。 最狠的是专为 ai ai 整和编程优化。谷歌不跟你比参数堆砌,直接把速度和价格同时拉到地板上。当对手用免费武器打你的付费产品,这仗还怎么打?

google 今天发布了 gemni 三点五 flash, 官方说这是最快最便宜的闪存模型,但实际成本有点意外, 每百万输入 token 要一点五美元,输出 token 要九美元,比上一代 gemni 三 flash 贵了五倍以上, 甚至比 jamming 三点一 pro 在 某些任务上还贵百分之七十五。不过速度是真快,编码能力也很强。以前这种闪存模型只能做简单问答,现在它能规划百万行代码的修复,还能同时派多个子代理干活, 相当于一个工程师团队协作实测前端设计。它生成了一个 windows 九五桌面,有启动音效,有 b o s 启动界面,有功能性的画图和记事本,比同类型模型更精致。 svg 方面也强,能直接把一句话转成复杂矢量图。三 d 场景更夸张,用它做了一个 z o 的 游戏环境,光照、深度、色彩都到位,还自动配了背景音乐。 google 把旗舰智能塞进闪存模型,想法很好,但用户得掂量掂量钱包。最适合的场景是需要快速出创意原型或者做复杂前端编码,毕竟它确实能省时间,以前三天拼的前端界面,现在三分钟就能跑起来。

谷歌艾维大会结束了,发布了一堆东西,但普通人只需要看这两个。第一个是 gemini 三点五系列, gemini 三点五 flash 和 gemini 三点五 thinking 两个模型怎么选? flash 适合日常任务, thinking 适合复杂推理深度分析。第二个是 gemini omni。 谷歌管它叫全能模型,文字图片音频视频都能输入,也能输出视频, 你说一句话他就改一版,像和剪辑师聊天一样。我的判断,三点五 flash 免费好用,值得日常使用。 amni 是 视频创作的新方向,对话式编辑是真正的创新,值得关注。

瑞平内外 ai 大 模型从夯到拉,首先是开山鼻祖 chat gpt 五点五推出之后可以说是全面到离谱,不仅可以自己规划任务,还能自己调工具改代码,虽然价格比五点四贵了一倍,但它完全值得,综合能力稳坐目前第一梯队,给到夯爆了。 接下来是 gemini, 五月二十号凌晨,谷歌发布了 gemini 三点五 flex, 命名直接从三点一跳到了三点五,不难看出谷歌对这次更新的信心。实测下来,三点五 flex 在 编码测试和 a 帧的能力上都有不小的提升,输出速度更是比其他前沿模型快了四倍。而更强的三点五 pro 也确定在六月发布, 据爆料, gemini 三点五 pro 的 性能直逼 gpt 五点五,有望撼动王座,但三点五 flex 的 话目前只能给到顶级。 接下来是 deep c 可 v 四,优点非常明显,一照上下文混合推理,代码牌全球第三,价格便宜,量大管饱,但硬伤也很明显,没有多么太,还是纯文本, 在神仙打架的今天,普通用户够用,但专业用户用起来还是差点,感觉可以给到人上人。接下来是 grok 四点三,从某些你懂的方面来说,它称得上是憨爆了,但专业任务处理上稳定性不强,事实准确性在主流旗舰里垫底,还是偏向 ai 玩具,不适合拿来做生产任务。等级给到拉完了, 接下来是 cloud ops 四点七,写代码这块它还是当之无愧的王者,综合 agent 能力也是第一梯队,而且幻觉很低,逻辑严谨,写出来的东西不用反复改,给人的感觉也是最没有 ai 位的,等级给到憨爆了。 接下来是豆包 c 的 二点零 pro, 豆包很多指标其实不算差,而且功能丰富,门槛极低,并不是不能打。它最大的问题是不够稳定,复杂任务容易给出看起来不错,但经不起推敲的答案。 它是国产 ai 里最好的普及选手,但不是最强的专业选手,所以综合下来只能给到 npc。 接下来是千问三点六。阿里这次更新确实有不少亮点, agent 编程能力全面突破,复杂代码仓库级问题,前端开发、长城规划全面领先,而且加量不加价,但它的升量更多是在 b 端, 普通人对他的认知大多还停留在薅奶茶的阶段,勉强给到人上人。接下来是混元,腾讯从 openai 挖人重建了团队推出的混元三,上线两周掉用量就翻了十倍,整体势头是往上走的。但说实话,这波更多是开发者尝鲜带来的数据,脱离了腾讯生态之后,他的存在感依然有限,能力到位了,但记忆点还不够,只能给到 npc。 接下来是智普 g l m 五点一,编程 agent 能力开源第一 s w e bench pro 刷新国产记录,很多海外用户为了买上便宜的国内套餐,已经开始研究怎么注册支付宝。 这波热度是真实的市场验证,它不是那种大众热搜型模型,但是真到干活的时候,表现还是很能打的,可以给到人上人。接下来是 minimax m 二点七,它在开发圈子里口碑不错,速度快,价格便宜,工具调用稳定。今年一季度 openmarter 周掉用量更是拿下全球第一。不得不说它是一个好用选手,但还不是那种能改变格局的选手,目前只能给到 npc。 接下来是 kimi k 二点六,一个被很多人低估的选手,很多人对他的印象还停留在长文本阶段,但这次升级,他的代码能力提升了百分之二十,任务能力和 ab 的 能力都有大幅提升,已经可以给到人上人。最 后是文星五点一,号称 ab 的 能力超越了 deepsea 威斯 pro, 但本质只是对五点零做了压缩蒸流,说到底只是效率的提升,并不是能力的突破。这家总是起个大早赶个晚集,直到今天除了搜索能力还是没有什么记忆点,直接给到拉完了。最后声明,本期排名纯属个人观点,没有任何利益,相关方有不同意见,欢迎评论区讨论。

哈喽,兄弟们,昨晚通宵看了谷歌 i o 大 会,现场演示是天花乱坠,从模型到 agent 再到硬件,全线 ai 产品轮番上阵,看得我那叫一个心潮澎湃。结果实测之后就一句话,大部分都挺拉垮的。 omni 是 这次发布会重磅首推的演示效果相当炸裂。官方定位很明确,万物皆可生成的第一步,代表着在世界理解多模态和编辑能力上的一次全面飞跃,人物细节、风格、 环境角度全都能随意切换。听上去视频模型的新标杆好像就这么立起来了。 其次是 jamming, 三点五, flash 主打一个快高效能打复杂任务,多模态也不在话下,而且官方特别强调他的 agent 能力,在个人 agent 助理和全新的 anti gravity 二点零中都主推三点五,要的就是性能和速度的那个平衡点,吹的都很猛,但到底行不行,还得上手册。 听发布会的同时,我第一时间打开了 gemini, omni 已经上线了,这个版本应该是 omni。 flash 拿前两周做的慢剧提示词测一下,他们家首尾帧要在提示词里写明给大家看一下,这是首帧,这是尾帧续章里祁昌云来凌虚城开奶茶铺的那一段, 等了差不多五分钟,速度还可以直接上,结果 那就开个奶茶铺,大翻车,场景一致性全崩,细节缩水,两档衣服跟原图差了十万八千里,运镜拉胯。最后的配音我差点笑没再放一遍。你们听 开个奶茶铺,对比一下我之前用 cds 做的视频提示词,一个字没改,一轮直出没抽卡, 那就开个奶茶铺, 这个差距就一目了然了吧,而且我用的是 c dance two fast, 再给他一次机会,换个正脸图,输入仍然跟 c dance two 完全一样,节省时间。直接看成片 回到其梦里,对比一下 c dance 的 出品, 首帧,双方表现都很好,中间部分 omni 未能理解提示词中的雷劫,而到了尾帧再次出现了场景偏移。详见屏幕。对比之下, c dance 准确遵循了首尾帧及提示词中的天雷滚滚。 本轮 omni 的 表现略有改善,但首尾帧一致性不足,实用价值有限。 中文视频我感觉奥尼是真不行,正准备测一下英文的时候,屏幕上直接提示额度不够了,大家看,我一个月二十美金买的 pro 订阅就跑了两视频,五小时的额度直接见底了。谷哥你这是搞啥呢?离了大谱了。 得了,就剩这点额度了,给大家测一下 flash 三点五吧。先确认一下,现在用的是新版的 flash 模型,没有问题。第一道题,咱们来测测新版 flash 的 中文,我让他用王家卫的风格写个黑咖啡文案,这个输出速度比 deepsea v 四 flash 慢多了。 我真的读了三遍,只能说太尴尬了啊。抄的几句不说了,我读下这句,零点零一公分,那是我们之间最近的距离。等等,你看看文理,我们是谁啊?这句话有点太不合适了吧, 谷歌这个蒸馏技术是不是把情商也给蒸发了?从二点五时代起, gemini pro 一 直负责我的创意写作,中文一直能打,可是最近这两代 flash 在 这道题上都翻车了, 大家对比一下,左边是三点一,老 flash 跑同一道题的输出,一上来就王家卫说特别僵硬,那最后一句更是让人读不懂他在说什么。然而今天右边的三点五 flash 又刷新了我的认知, 我就不信邪了,它到底强在哪?都说 svg 是 大模型视觉能力的一道坎,因为它逼着 ai 左手写代码,右手还得有审美。那就让三点五先出一个造型精致的 svg。 机器人是可以当吉祥物的那种,要求有点高,我们直接打开扩展思考模式, 提示词我打在屏幕上了,需要的可以截屏。扩展模式花了不少时间,我们直接快进,看结果效果还行,方方正正的。机器人要求的组建细节都到位了, 可惜金属质感和微妙的光晕没画出来,做吉祥物还是差了点意思。再看老版 flash 生成的整体感觉还是比新版弱一些,基本全是线条拼出来的。但话说回来,新版三倍的价格有点不值, pro 就 不用比了,虽然做不到惊艳,但光泽感强太多。 最后用真实世界的复杂任务测一下 flash。 三点五,谷歌这次重磅发了 antigravity, 二点零,我升级好,打开那一刻真的蒙了。看屏幕,他说升级后就剩 agent 的 工作台了, ide 得单独下个 app, 我 当时火就上来了,虽然 agent 和 ide 我 都用,但你不声不响搞成两个也太莫名其妙了吧。 只能收拾一下心情,打开一个一直想重构的工程。上周用老版本 jimmy flash 写的这个项目我不怎么满意,今天刚好让升级版出马,修一修自己之前挖的坑。 这个页面并不简单, remotion 和 three js 做的三 d 短视频编辑器配了十套模板,但模板实现的很套路,随便看两个,第一个三 d 效果平庸,文字对比度不足。 第二个质量还行,就是风格不够。赛博交互逻辑也有不少坑。滚个模板列表全页跟着动,还加了一堆没有实际意义的元素。 打开升级后的反重力,选择新版 flash 模型,思考强度选 high, 在 升级后仅剩的输入框窗口里,让它全面重构刚才这个页面以及所有相关代码。我的要求是更新 u i u x, 优化已有的视频模板,并新增十个不同的模板, 每个视频效果都要做到最佳。目测这个重构速度比老版本的 flash 快 了一到两倍,但是达不到官方宣传的十二倍提速。 三分钟后,重构结束,来打开验一下这个重构后的版本,把排版整个重写了一遍,模板加到了二十个标题,文字全都调过,还新增了模板搜索栏,左侧列表滚动终于独立了。 打开第一个模板,看看配色,这次合理多了,光效也能看清楚,动效马马虎虎吧。再看第二个框线,换成了绿色,但好像就没做更多优化了。下面看新加的模板, 选这个运动实时遥测做的挺好,足球场上有球员轨迹,中央的圆圈有点抢戏,运动方向需要调一下。 最后看个分子料理装盘,配色很赞,中央旋转的菜品标签让人眼前一亮,那些大波纹似乎想表达味道,有点用力过猛。改下标题看看, 没问题,功能正常,小节一下,新版 flash 三点五在反重力加持下提速很明显,能力也增强了,但代价呢?额度消耗是之前的三倍多,刚才这个重构五小时额度的四分之一没了,你算算五小时满打满算只能干十二分钟。 对比升级前老板 flash 几乎无限的额度,大伙啥感受?评论区说说看。 i o 大 会我每年都看,二点五发布后 jammin 就 成为我的主力模型之一, 但这次的翻车程度恐怕仅次于一点零发布的灾难现场。你们可能会在其他地方看到清一色的异美之词,我敢说没实际跑过的探击生物退役指南,喜欢就点个关注,下期见。

五月二十日,谷歌宣布推出 gmail 三点五 flash 模型,称这是谷歌迄今为止最快、最有效的模型,速度超其他前沿模型四倍,成本仅为同类模型的一半,性能全面超越三点一 pro, 即日起向全球免费开放使用。