四点八刚更新,网友问你是谁,他说,我是千问。五月二十六号, coderina 放榜,千问三点七, max 一 千五百四十一分,全球第二。仅在三天后, antropic 发布 opus。 四点八,听说代码能力又提升了一大截。 然后有人随手问了一句,你是什么模型?他先后答了千问 deepsea, 就是 没答出 cloud, 说明训练数据里用了大量国产模型的蒸馏数据。整个行业的竞赛早就不是谁更聪明,是谁能调用更多 a p i, 谁就有下一轮的训练数据。 上架不是让利,是收数据开源,不是共享,是铺设管道。你以为是技术竞争,其实是信息不对称下的互相抄作业,整个模型行业干净的人一个都没有。
粉丝8921获赞18.6万

最近海外的 anthropic 又推出了自己的最新的模型 cloud 三点四点六啊,我们现在每天看这新闻,很多数字呢,大家都不愿意看了,每天都在刷研记录, 也没有什么特别大的轰动性效果。但是我还是想分享一下,为什么 anthropic 要推出这样的一个模型,以及它背后的逻辑是先快速出下数据吧。四点六呢,在比如说填写复杂的 excel 网页的金单等任务上呢,已经非常接近人类的水平。 方面呢,也是全面升级,比如说编码上下文的推理, a 政规划日程工作设计,目前的背带版本还支持一个 m 的 上下文定价呢,是跟三点四点五是一样的,免费用户也可以使用。那 on topic 表示呢,类似用户对于三点四点六的喜爱程度是很高的,已经超过了原来的 oppo 四点五。这个三点呢,目前是史上最强的三点。 从三点的升级速来看的话,它基本上每四个月升级一次。上一代的四点五呢,是在二零二五年的十月份,再上一代呢是六月份。 samsung 在 很多层面上,比如说计算机的操作能力上, broad use 这些能力上呢,其实是大幅提升的,目前表现的是跟 oppo 四点六差不多。在金融分析跟办公室任务的两项测试中的 samsung 四点六呢,是一举绝尘,拿下了 sata, 力压了 opps。 在 vending bench arena 这一项基本测试上的 sunny 四点六呢,采取了一个新的策略,就是前十个模拟月分大幅投入才能建设,支出明显高于竞争对手,后续呢,迅速开始想办法盈利,最终呢,也实现了 soata。 那 我快速说一下,为什么 optropic 要推出两个器械模型,一个是 opus, 一个是 sunny。 而且既然 opus 呢,在各项指标上依然是超越 sunny 的, 为什么还需要推出 sunny? 其实原因呢,是 optropic 呢,打了一个算盘,它的整个的定价,它的产品的推出,和用户的受众不一样, pos 呢,更多是用摸高的,保持在市场的最前沿。所以呢,面向的主要是一些对准确性和能力性能有高度需求的一些 pro user, 他 们在上一代产品中,基于 cloud 四点五已经达到了瓶颈,需要四点六甚至更高的版本去不断地提升它的能力。但 sunny 不 一样, sunny 呢,更多是一个降级版本,主要是服务 c 端普罗大众的。因 因为 sony 的 速度会更快,而成本是 oppo 的 五分之一。很有可能呢, sony 的是 oppo 的 一个蒸馏版本,所以 android 的 战略策略呢,也非常清晰,通过 oppo 呢,是用来争夺它的王座,保持面向 c 端的企业用户以及 c 端用户的认可。而 sony 的 呢,是用来抢占市场,抢占 c 端用户,用更低的成本,更快的速度,将 ai 能普及到更多的用户。

编程模型选哪个?首选是 clone 的 gbt, 真伪的也很强,但是在软件工程领域,在多元编程领域,首选呢依然是 clone。 那 clone 提供了三个模型,怎么选?很简单, 简单任务用海库,复杂任务 solo, 最强王者 ops。 我 来解释一下,简单任务用海库。海库这个模型主要是便宜啊,一刀一百万头砍,而且快,像姆巴佩一样快,像吴磊一样快, 所以正确的用法是用它做一些简单的任务,做一些体力活啊,嘎嘎,快。然后是 solo, 他是一个六边形战士,成本可控,能力均衡,他就像是德布朗内,像巅峰期的哈维莫雷奇,中国的政治,他们是球队的核心啊,能攻能守,可以说没有他不行,所以你的日常开发你就选他 啊。最后是奥克斯,奥克斯那么强,为什么不首选它呢?因为它贵啊,而且它有点慢。所以这个模型呢,它就像是个关键先生,它用来解决高难度问题,解决关键问题,解决骚奈特解决不了的问题。它就像是哈兰德, 像巅峰期的梅西、 c 罗,齐达内。当球队陷入困难,陷入僵局,只能用球王、球星来解决问题, 把球送到对方的球门里,所以用他们来干最难的活。不知道我说清楚了没有,如果我没说清楚的话,你就当我没说,你就用 send 就 行了。

最近呢,有人把 cloud missiles 的 架构居然逆向地公布出来了,一个叫 kai gromis 的 一个人是 swarms 画家的作者,发布了一个叫做 open missiles 的, 用 pie torch 从头开始实现的一个架构项目。他认为 cloud missiles 很 有可能是一个循环深度的变换器,叫 recurrent depth transformer。 r d t 不是更多的层,也不是更多参数,而同一批层反复运行了多次,因为现在呢,就是 opus 已经是一个五 t 的 模型了。如果 mithus 能力比 opus 强那么多,但是呢,在不断的增加模型参数的话,这条路貌似已经走不通了。按照他的说法呢,是 r d t 呢,是把中间的一个重要的循环块重复的运行的 t s, 每次用的是完全一样的权重。他们研究呢,比如说一个七百七十 m 的 参数的循环模型,达到了一点三 b 参数固定深度模型的同等质量, 同样任务,整个参数减少了百分之四十。说一下,为什么他们有这样的一个猜测呢?首先呢,是类似 secret through synality 的 研究员呢,陆续发起 missiles 的 行为模式呢,高度符合循环深度变换器的理论预测。这里面呢,有两个特征,一个呢是系统性的泛化,把 missiles 放在训练分布之外的新组合物地上,它不会像传统的 transformer 那 样逐渐退化,而是在某个节点突然就会了。那记得这里面有个很重要的观点,叫某个节点, 说明它中间呢,一定是经历了一切的信息的咀嚼和理解的。前者呢,把这个现象叫做三阶段的 rocking, 分 别是既分布内的泛化,分布外的泛化。那传统的标准的 transformers 呢,是做不到分布外的泛化,但是循环 transformers 目前呢是有理论证明可以做到。 第二呢叫深度外推,它逻辑是在五跳的推引链上训练,但是在十跳的推引链上, inforce 这种呢,标准的 transformers 是 一定会失败的,但循环 transformers 会成功, 因为它只要有经验训练了五跳,它就能在循环中把这个五跳快速的去起升到十跳,甚至是十五跳,实际上就是多跑几个循环而已。这直接运用了 meso 梳理多部数学跟常见规划时不需要显示的 chain of thought 的 观察。 什么意思?就是 chain of thought 呢,其实很多时候要把每个步骤描述出来,但是在描述步骤的时候呢,你是受限于提这词的步骤限制的,比如说在一个需要一百多步才能完成的问题上,你把所有步骤全部放在提词词的方式,你只要展示出前面的几步, 大家可以快速的去理解,后面几步按照类似的格式,类似逻辑,不断的深度研究,不断的去循环就可以。所以在整个的 open studios 架构里面呢,是分成三个部分,第一部分叫 prelude, 相当于一个曲章,中间呢叫 recurrent block, 就是 不断循环的核心模块。 最后呢就是 code, code 呢就是结束了。所以呢,第一部分跟最后一部分都是标准的 transform 层,只跑一层,而中间的模块呢,根据推理的需求可能要跑 t 层, t 呢是一个变量,根据问题的难度,模型可以主动去设定是否增加或者减少,有个细节就是每次循环时呢,都会重新的注入原始的输入,这是 purdue, 就是 第一步的编码中的一个重要的信息,是为了防止模型在循环中漂移,一直呢要去人脉模型,在循环过程中它要解决的问题是什么?它的核心的信息是什么? 因为这样的原因呢,所以这样的循环的架构呢,就把原来的显性的 chain of thought 变成隐性的原因就是每循环一步,相当于 chain of thought 基于上一步上下一步内容就可以了, 需要像原来的 few shots, 把 chain of thought 思维链融进去,这样写死一些逻辑。换句话说呢,你如果是一个十步的任务,你用一个三步的思维链作为参考,它是永远没法做出来,但是放在一个循环链里面就容易很多。除了循环以外呢,其实 missiles 还要解决两个大的问题, 一个呢就是训练稳定性,因为残差爆炸这个问题呢,其实 deepsea 跟 kimi 都尝试解决过,比如说 attention rests 就是 kimi 的 方案。那 open missiles 呢,采用了另外一个有趣的价格, 叫做限性十不变系统。什么意思呢?就是它把整个的探索的维度呢,设了一个叫普半径,让普半径呢是一直保持在低于一的约束下去训练模型,所以整个的参数量呢,它是不会超过它的 attention 的, 注意 每一个阶段都会做一定的压缩的,不会出现因为不断循环而引起的反差爆炸。第二个它的魔幻呢,就是如果说 r g t 就是 循环深度变换器呢,提升了推引阶段的深度的话,那我们需要另外一个魔幻去提升推引阶段的广度, 这广度呢,就是传统的 m o e 了。这个 m o e 最早呢是 deepsea 做了一场全球级别的普及,也就是稀疏的混合专家实现,在每一个循环里都生成了多个小专家,每一次路由呢,只会激活 topkick 专家处理当前的 token, 少数几个共享专家始终是保持激活。 那这些共享专家呢,主要是一些通用的知识,包括语法、基础推理,通用上下文等。通过低于百分之五的激活,那类似 mythos 一 样的模型, 可以持有数千亿的总参数量,但每次推理呢,只激活其中很小一部分,这样呢,保证了足够的广度,同时呢又提升了模型的性能,速度会大幅提升,对推理型海的要求会降低,以及 它的成本会大幅下降。所以一句话讲清楚,就是 m o e 提供宽度,循环模块提供深度,再通过停机减少过路思考,最终实现了更少的参数,更好的机制以及更好的效果。所以这样来看的话, m o e 的 这种稀疏专家的激活, 最终实现了比 opus 强很多的一种性能。读完这个报告呢,其实我的一个心得就是,现在的很多 agent 的 能力呢,真的是已经慢慢的融到了模型里面,那这次呢,这种循环的逻辑呢,其实在 agent 里面也是属于多跳的,通过一个 orchestration agent 去激活每部的执行 agent 的 逻辑, 而 m o e 呢,更像是一个通过 a 证来实现路由逻辑,那 mitos 呢?相当于把我们在 hannes 这个层面的路由逻辑和多跳的 operation 逻辑呢,直接融到了模型内部。这也是为什么 mitos 能实现比 opus 更强的能力,反而呢,它的模型内部参数呢,可能会更少。

我将用四十秒的时间教会你如何在 cloud code 中调用一百万上下文的 deepsea v 四 pro 大 模型。登录 deepsea 开放平台,我们需要一个可以调用 deepsea api 的 key。 首先充值,这里可选不同的充值金额。充值之后在 api key 这里创建 api key 名称,这里随意。 大部分的大模型厂商,他的 api key 只能复制一次,所以要妥善保管自己的 key。 随便打开一个文本编辑软件,我用的是 zed, 不 过你也可以用 micros 自带的文本编辑。这里有九行命令,在第二行命令这里把 api key 换成我们刚才复制的 key, 然后复制这九行命令,随后打开终端粘贴,执行这九行命令。这个时候我们就可以在 cloud code 的 启动界面里面看到它的模型已经改成了一百万上下文的 tipsy v 四 pro。 可以 问它用的是什么模型,它使用的就是 tipsy v 四 pro。

现在很多模型上下门窗口都超过一兆了,我想问一下,为什么 agent 还需要独立的去设计记忆机制呢?嗯,这个问题还是很关键,就比如说他看似上下门模型解决了问题,实际落地是完全不行的。 核心有三个原因,第一是成本完全不可控,长上下文模型的拓客定价是阶梯式的,拓客数越多,单价越贵。一照上下文的单次调用成本是八 k 或者十六 k 小 模型的几十倍甚至上百倍。 如果是三六 a 型的用户多能对话,长时间交互成本就直接爆炸,中小企业根本扛不住。而外部记忆加解锁的方案只有解锁和向量化成本推理,用小模型成本能降百分之九十以上。第二个就是长上下文模型的注意力衰减问题, 模型不是真的能记住所有一兆拓客的内容,原生圈子、泡沫架构,他对长文本的首尾注意力高,中间内容基本模糊,尤其是 a 建的做多步骤推理中间的关键工具,结果历史决策模型很容易忽略,导致推理出错,还不如精准给关键信息效果好。 第三个就是 a 建的任务特性决定了不需要全量上下文, a 建的是任务驱动的每一步,只需要解决当前的子问题, 不需要全程拿着所有历史所有文档全量塞进去,反而会引人造成让模型混淆信息,导致决策失误。就算用长上下文的模型,也得做信息过滤和精简,不是直接无脑权放。 那如果让你去做一个需要持续运行长期记忆的 agent, 突破上下文限制的最优方案,你觉得是什么? 针对这种长期运行持续记忆的个人助理的建议。第二个方案就是分层持久记忆加动态解锁加滚动窗口,再加增量更新的避风架构。首先就是 搭四层记忆架构,瞬时记忆、短期记忆、长期记忆还有核心记忆。第二个就是做主动记忆召回机制,不是等上下文抄了再删,而是 a 键的每执行一步,先判断当前需要什么信息, 主动去长期记忆里面解锁相关内容,而不是被动把所有历史背进去。比如用户问上个月我让你定的会议改时间没有, 没检查先解锁长期记忆里面的定会议提醒相关条目,只把这条信息放进上下文,其他的记忆就不动。第三个就是落地细节上 控制单龙上下文托管的印上线。比如给模型留十六 k 的 窗口固定核心记忆占一 k, 瞬时加短期记忆占五 k, 解锁结果再发配,剩下的可以留作缓存,超了就自动压缩短期记忆,绝不突破上限。另外做增量记忆更新,只把新的关键信息加入长期记忆,重复信息无效信息就直接过滤, 避免记忆库膨胀导致解锁变慢。最后就是配合轻量的紫 a 键的做记忆压缩,专门用一个小模型做记忆加载和抽取,不占用主推理模型的资源。 主模型专注做决策和交互,这样整个系统既不会超商口,又能长期保留用户核心信息,体验也流畅。我这里也整理了一份十一万字大模型高频的面试题,感兴趣的小伙伴可以带回家学习。

四月份的时候,如果你问任何一个高阶开发者,桌面端该用什么?答案百分之一百是 cloud。 但是为什么到了五月份,大量原本始终的 cloud 的 用户开始疯狂逃离? 答案是令人窒息的账单。表面上看, cloud 更新到四点七之后,解决模糊任务的能力确实变强了,甚至还学会了点儿 gpt 那 种我要稳稳接住你的黑化。但在这背后,他悄悄修改了 tokenizer 的 计费逻辑,不再由用户控制思考深度,而是默认强制思考。 很多用户发现,更新之后的 token 消耗量至少比以前飙升了百分之二十到百分之三十。在传统的对话模式里,这或许还能忍,但在桌面端, agent 需要不断地读取本地文件,检查报错,无限循环执行测试。 一个晚上的全自动 bug 修复跑下来可能什么事都没干成,一觉醒来,几百美金的 token 额度就已经灰飞烟灭,甚至账户直接被刷成负数封禁。 cloud 狂飙的代价是,它正在把桌面 ai 变成一种连中产阶级都用不起的奢侈品。如果说 cloud 是 傲慢,那谷歌的 jammer 在 桌面端的表现只能用惊慌失措来形容。 在很长一段时间里, google 的 动作迟缓得让人难以置信。在这个谁先占领本地桌面谁就赢的关键节点, deepmind 内部似乎陷入了极大的混乱。 jimmy 的 模型表现极度不稳定,上下线差距极大,用很多开发者的话说,感觉就像是对牛弹琴,直接废了。但不可否认,谷歌的底子依然在。为了阻击竞争对手,他们成立了专门的 strike team 死磕 anthropic, 并在违背了多年不碰本地客户端原则的情况下,准备赶在五月二十日 google i o 大 会前极限发布了 mac 版的桌面应用。 谷歌的算盘很清晰,模型层面我暂时没拉开代差,但我要用我手里庞大的 g suite 浏览器和系统级生态强行捆绑你。 而整个五月最让人意外的反转,其实还是 codex 的 反杀。几个月前, codex 在 圈子里的名声并不好,他天天操着一口奇怪的黑话,犹如我不跟你绕,你就是太清醒了。 这种略带江湖气的 ai 语言,让很多严肃的程序员觉得他很不专业。但就是这个像街头混混一样的 codex, 在 五月份彻底掀翻了桌子。他凭什么? 第一,极其暴力的原声计算机控制。它不仅支持浏览器自动化控制,还能直接接管你的电脑操作系统。 很多人戏称它才是真正进化版的太空小龙虾,它会在每天早上你刚睡醒时像个真正的助理一样主动弹出来,告诉你昨天哪些代码跑通了,今天建议怎么改。第二,也是最致命的一击,廉价算力。 这也是为什么大量中国开发者和海外羊毛党集体抛弃 cloud, 转向 codex 的 根本原因。 codex 最聪明的地方在于,它本质上是一个路由器,或者说超级壳子, 它允许用户在后台极度自由地配置第三方 api 接口。在二零二六年的今天,国产大模型在代码生成和多模态理解上的能力已经逼近了美国的一线水平, 更重要的是,它们的价格只有美国巨头的几十分之一。 codex 实际上是借着中国模型的极致供应链优势,在全世界打了一场降维打击的消耗战。你 cloud 确实聪明,但我 codex 挂着国产模型,用只有你十分之一的价格,干成了你百分之九十的活。 在算力成本面前,什么高贵的设计感,什么灭绝师太般的统治力,全都不堪一击。那既然桌面端开打了,既然 agent 这么烧钱,那我到底该怎么用呢?记住一个死理,在桌面自动化时代,永远不要把所有的任务无脑扔给单一的重型模型, 你需要像管理公司财务一样管理你的桌面。 a p i 走向下面,我直接把这套目前硅谷极客圈都在用的三网融合工作流抄给你,建议直接截图或收藏,这能帮你每个月省下至少几百美金的冤枉钱。第一步,零门槛,底层部署, 不要去下载那些花里胡哨的第三方套壳,直接用命令行复制下面三行代码。 jimmy 只要有个公众账号就能白嫖。 codex 需要叉 gpt plus 或 open ai api key, cloud 则最贵,需要 pro 订阅或绑信用卡的 api。 第二步,正确分配工具,装好之后千万别瞎用, 你要学会给它们分配不同的工种。 jammy 去当免费的探路炮灰,他的核心优势是一百万 token 的 免费超大上下文,让他把项目吃透,给出方案,你点头了再动手。 cloud code 可以 当架构师,在多文件的一致性、对边界条件的考虑上, cloud 依然是目前地表最强。 codex 可以 当流水线工人,那些明确的、重复性的需要局换的脏活累活都可以丢给他。但也给个提醒, codex 的 浏览器自动化功能是一个极其危险的吞金兽,一旦它在测试网页时遇到浏览器崩溃,陷入无限重启的死循环,它一个晚上就能烧掉你两百美金,让你的 a p i 账户直接变负数。 所以凡是涉及浏览器的任务,必须一定绝对要设置超时熔断时间。第三步, 把这些工具组合成工作流。早晨掏出 gemini, 把长篇大论的需求文档和乱七八糟的旧代码丢给他,利用免费大模型把思路理清。下午掏出 cloud code, 针对核心模块进行重构,多文件同步修改,确保逻辑严密。下班前就可以让 codex 上场做 review 了。在这场桌面端的大战中,巨头们希望你变成那个无脑续费、任由 agent 烧钱的傻白甜。 但真正的超级个体,是懂得在不同的底层算力之间搭建属于自己的防火墙与调度器。这才是我们今天聊桌面 a p i 的 最终目的。记得关注这里是 ai 商业慢谈,每周分享最新的 ai 资讯和商业理解。

这几天,全球 ai 圈被 anthropic, cloud, mythos 彻底的震撼了, anthropic 这是下了巨大的血本,它的模型参数已经推到了恐怖的十万亿的级别,我们正在经历一次真正的工业级的技术跳跃, 一个自带架构式思维,能不眠不休自我净化的超级大脑正式入场。 老玩家都知道, cloud 之前的命名一直是很有文艺范儿,从这个 haiku 到 sonnet 到 opus, 都是和诗歌有关的。但是这一次呢,呃,命名就不再是用诗歌了,而是用 mythos 啊。 mythos 在 古希腊语里呢,是戏剧的底层蓄势逻辑,所以它用这个词应该是在对业界宣告, ai 已经不是一个写诗唱歌聊天的工具,而是一个连接复杂知识,具备全局思考能力的系统级的大脑。 十万亿参数打出了四个逆天的表现。第一个是真正的 agentic autonomy, 就是 智能体的自主性。以前的 ai 啊,你推一下动一下,如果报错了,会不断的问你怎么办,就像玩龙虾的人很清楚的啊。但是呢, windows 是 可以自己排查原因啊,来换个思路重新写,直到把系统跑通啊,这其实已经不是工具了,这是真正的数字超级员工。 第二呢,在权威跑分上的是达到了断层式的领先。在评估 ai 修 bug 能力的终极测试之前,最顶尖的模型大概百分之五十左右徘徊,但是 metos 直接飙到了百分之七十七点八,这是直接跨越了极客线, 直接抢走高级工程师饭碗的水平了啊。第三,史诗级的黑客和除错能力。 metos 呢,直接从海量 老旧的史山代码中,居然挖出了潜伏二十七年的 open bsd 系统漏洞,而且找出了躲过无数次的自动化测试,藏了十六年之久的 ffmpeg 的 漏洞。 第四,大局视野和老旧系统的重构。以前的 ai 呢,是主要是处理代码啊片段,但是 netos 现在啊,具备了非常庞大的上下文理解和推演能力,它能 够把这个十年的旧系统迁移到一个新的架构上,他能自己梳理千丝万缕的依赖关系,自己出架构图,一步一步的重新重构。这已经不是马农了,这已经是一个架构式级别的工作了 啊。所以这十万亿的参数,我们正在经历一次真正的工业级的技术跳跃。一个自带架构式思维,能不眠不休自我净化的超级大脑正式入场。 你觉得未来五年保镖未来一年,最先被这股巨浪彻底拍在沙滩上的,会是哪些行业?

因为 ai 诞生的新岗位 fde 啊,是火了。最近好几个人在私信问我这个词,猎头在推,大厂呢?在招,社交媒体上到处都在讨论。 两年前,它还只是 plantile 圈子里的一个黑化。今年, open ai 和 astropica 都在疯狂地去狂招这个岗位。如果你在做技术,或者正在考虑转型,我觉得真的值得你认真去了解一下。 f d e 呢,全称叫做 forward deployed engineer, 也就是前沿部署。工程师这个词最早是来自于 planetair。 二零零零年, planetair 服务美国情报机构的时候,发现了一个问题, 工程师坐在办公室里面去携带嘛,根本就不知道客户真正需要什么需求呢,是层层转移,走样非常严重。后来呢,他们想了一个办法,直接派工程师住到客户现场,和情报分析师一起去办公。 这样模式后来就被系统化了,就成了 f d e 的 初心。那为什么这个岗位最近啊突然这么火?因为一个标志性的事件,二零二六年五月十一号, openai 正式成立了 deployment company。 初期投资是四十亿的美元啊, coo brad l cap 却全职负责,而且在同一周收购了英国 ai 咨询公司 tomorrow, 一次性把一百五十名 f d e 装进了新公司。分析师估测,三年内,这个团队会扩张到两千到四千人。 sloppy 几乎是镜像动作,在波士顿,在纽约,在西雅图、旧金山伦敦,六 d 去同步去。照 f d e 两家公司的共同判断是,模型能力已经足够强了,但企业根本就接不住,不是不想用,是不知道怎么去用。企业有业务问题,但没有产品型态,他们缺的不是一个能够钻进他们的工作流里,帮他们把模型真正跑起来的人。 那说到这,你可能会觉得,这不就是高级版的外包或者咨询吗?区别其实很大。传统的咨询公司卖的是流程能力,一份方案改一改,可以卖给三十家客户,靠资产复用去赚钱。 外包卖的是公食,你要什么我就做什么,自然走人。而 fde 不是 这个逻辑。 fde 的 使命是把模型塞进客户的真实业务里,让他每天真的被调用、被使用、被人改、被人骂。而且 fde 有 一个独特之处,他们的反馈会直接回流到模型公司的产品的 low map, 客户在真实场景里遇到的每一个坑,每一个 problem 的 失败,每一个工具掉网的 bug, 都会成为下一个版本模型的改进方向。也就是说, f d 不 只是在帮客户干活,它同时也是模型公司安插在前线的信号采集器,这个才是模型公司愿意花高薪招他们的真正原因。 那最后,什么样的人适合做 f d e 呢?我总结了一下五个特质,非常关键。第一,不抗拒销售和沟通。 f d e 的 工作日常不是关起门去写代码,而是跟客户的 c t o 业务负责人、采购合规直接去打交道。一个典型场景,客户 c t o 在 演示中途打乱你, 你不能说我回去改一版,下周再带过来,你得当场打开 i d e 改 prompt 重跑给他看。第二呢,就是享受模糊的地带,客户给你的不是清晰的 p r d, 而是一句呃,我们想用 ai 去做点什么,你得陪他把这种模糊期望涨成具体形式。第三,工程力扎实,但不要求十倍, f d e 不 需要。你是公司里面代码最干净的人,需要的是端到端能跑通,前端能糊一个能点的页面,后端能搭一个能跑的服务模型,能接上业务数据员。第四,喜欢被反馈打磨。 f d e 的 工作里有大量的被客户骂回去,再重来的时刻适不适合,就看你能不能把这种反馈当做你的蓝料,而不是当成指责。 第五,对模型的边界敏感,要能判断什么任务,让 ai 去做合适,什么不行,什么时候该给人类一个兜底入口,这种手感只能被失败案例砸出来,看论文是看不出来的。那反过来呢?有四个人可能不太适合去做 f d e 了,第一,只想去躲在代码里的纯技术控。第二,没有 o k r 就 动不起来的人。 第三,把晋升看得比作品重的人。第四,天然反感谈商业逻辑人,那 f d e 可能就是你未来两三年很好的一个方向。如果都不是,那也没关系,这个岗位不是所有人的出口,新的分工里还会长出别的位置给你。 ok? 那 关于 f d e 这个岗位你怎么看?来评论区跟我一起聊一聊。

问你个问题,一台发动机和一辆整车哪个更好?你肯定会说,这没法比。那为什么一到 ai, 很多人就开始问 deep sync 和 codex 到底谁更强?问题就出在这,因为这俩东西根本不是一个维度。 deep sync 这种,首先是大模型, 它更像大脑,或者更准确点说,像汽车的发动机,它负责思考,生成回答。而 codex 这种属于 ide 的 工具, 它不是单纯一个脑子,而是脑子加手脚加工具箱。它不只是回答你,它还要调用工具执行步骤,把事做完。所以你拿 deepsea 去跟 codex 比,本质上就像拿一台发动机去跟一辆整车比,这不叫横向对比,这叫拿零件和成品对比。很多人真正没意识到的是下一层 agent, 底层的模型是可以换的。 比如一个 agent, 你 今天可以接 gpt, 明天也可以接 deep seek, 甚至还可以接别的模型。那大模型后面的数字是怎么回事?这个也不难理解, gpt 五点四升到五点五, deep seek v 三升到 v 四,就像 iphone 十四升到十五,十五升到十六一样。同一个产品线,新一代比老一代更强,同一个模型底下还会有不同版本。 g p t 有 pro, mini nano, deep seek 有 pro 和 flash close 是 opus 索尼 type。 名字虽然不一样,逻辑是一样的, pro 和 max 冲最强, flash 拼速度快又便宜, mini 和 nano 做清亮。目前主流的大模型和 agent 都包括什么?我把整个版图给你画一下,以后就不会搞混了。大模型这边国外预三家, t p t cloud opens gemini, 国内多一点,豆包 deepsafe 千问 kimi g l m mini max mi mode 这里面的 v 八发动机是叉 p t 五点五,性价比之王是 deepsafe, 价格差了六百多倍。 agent 这边国外主流的 cloud code codex, open collar firmesten, 国内的 track codes, 腾讯的 work buddy, 阿里的 codeer, 还有各种大厂出的内容下应用, to-claw, arc claw, auto claw, ec claw 等等。记住一个原则就够了,大模型是脑子, agent 是 脑子加手脚加工具箱。 一个负责回答你,一个负责帮你把事做完。今天是 ai 应用层面基础教学的第一期,先把这个基础打住,下一期介绍 token 是 啥玩意儿, prompt 应该怎么写?点赞关注我们,下期见!拜拜!

朋友们就在刚刚, ai 圈炸出了两条王炸消息, azure epic 不 仅把旗舰模型升级到了 cloud ops 四点八,还一口气完成了六百五十亿美元的 h 轮融资, 头后估值直接干到了九千六百五十亿美元,差一步就冲进万亿美元俱乐部了。 这次的 opus 四点八真正做到加量不加价,价格还是老样子,每百万输入 tucker 五美元,输出二十五美元, 但能力提升非常扎实,尤其是在大家最关心的不瞎边上,他写出有缺陷代码还不告诉你的概率直接降到了钱贷的四分之一, 还愿意承认自己的不确定性,不会不懂装懂。不过刚上线就被网友抓包了一个有意思的 bug, 你 问他是谁?他有时候会说自己是 deep think, 有 时候又说自己是千问, 疑似在训练中用了这些开源模型的蒸馏数据。当然,官方客户端里因为有严格的系统提示词约束, 这问题不太容易复现。但真正颠覆行业的是这次同步上的动态工作流功能,它能让 cloud 自动拆分复杂任务,同时调动数百个智能体并行工作, 还能互相审查结果。官方直接放了个王炸案例,有人用它把笨从这个语言迁移到了 rust, 十一天就生成了七十五万行代码, 测试通过率高达百分之九十。九点八,以前按季度干的活,现在几天就搞定了。除此之外,还新增了思考强度调节, 你可以让它花更多的算力换更好的答案。 message api 也支持中途更新指令,不用重新写整个提示词了。而这次六百五十亿融资,大部分都砸在了算力上, 和亚马逊签了五 gpu 容量,甚至连 spacex 的 gpu 集群都用上了。 现在的 cloud 已经是唯一一个同时入驻 a w s、 谷歌云和微软三大云平台的前沿大模型, 可以说已经彻底从一家卖模型的公司变成了一家要重塑企业 ai 工作方式的公司。而且官方明确说了比 os 更强的安全模型 cloud misos 再过几周就要全面开放了。所以说朋友们,这事你们怎么看?欢迎在评论区一起聊一聊,关注我,每次聊点不一样的。

大家好啊,这个伦敦钥匙老王上一条关于这个 cloud 的 视频又爆了,好多人都在问这个 cloud code 在 国内到底能不能用啊?首先大家必须要理解一个概念啊, cloud code 是 工具层啊,的模型,里边这个模型才是能力层 啊,用幼儿园小朋友能理解的话,就说这个工具是车,模型是发动机,所以说 cloud code 是 个车壳,但是里边的模型才是最重要的,要看里边接的是什么, 官方 cloud code 默认肯定是配合这个 out 的 模型使用,就是说的什么 solid, opus, 四点七这种, 呃,最新的模型,但是实际在开发圈里啊,好多人会用这个 cloud code 接其他的模型啊,比如说咱们这个内的 emax 啊,最新的这个 deepsea 四点零。所以说大家可以把国内这些编程模型工作流接到 这个 cloud code 里边,就说你能用 cloud code 这种工作方式啊,国内但但有时候它你要想用这个 cloud 官方的这个模型,它是有一定门槛的。好吧,就说大家就不要以为在国内就用不了 cloud code, 其实还是可以用的啊,大家理解了吗?

经常有人在后台问我,你用什么模型,怎么节省 taco? 或者怎么能买到便宜的 taco? 那 我今天回答这三个问题。第一个是我平时用什么模型,我主要是用四点六、 sony 四点六 这个模型基本上可以应付我大部分的工作场景,从我的经验来看,这一个模型就够了。如果你有更高的要求,比如你重新写一个软件的时候,你要对这个软件进行架构规划,这个时候你可以用欧普斯四点六。 我的经验来看就是新手不需要考虑怎么节省掏坑,因为新手期都是在摸索和探索当中,这个时候你就是需要大量消耗的掏坑, 这样你才能积攒经验,等经验积攒下来之后,你自然而然就会节省掏坑了,那个时候你的指令会更加精准,这样就能避免浪费掏坑。那还有就是怎么能买到便宜的掏坑。我推荐大家一个网站, 这个网站里有非常多 a p i 的 中转站,而且每个网站价格都不同,像便宜的桑内特四点六模型才八块钱一百万。 top 已经非常便宜了,基本上实现了代码自由。如果你要是有生图需求的话,像香蕉二模型 也才不到一毛一张。我这个视频估计要把卖 top 的 得罪了,以后没人再去网上买 top 了。

我们今天讲最近这段时间,中美的模型,其实发布的非常非常的快,我分享一下我的看法啊。刚才要问说,为什么中国的国产厂商的模型都是免费使用的,这一天得烧多少 token 呢?兄弟,为什么?因为这是它唯一能够迅速换取获数据的方式。首先我们理解中美 整个 ai 在 竞争的过程当中,有两个最重要的模式的,无论是我们今天看 big three, 我 们叫做头三家、 uh、 thornic、 openai、 google 都是必然的。模型主要的驱动模式是什么?通过自己模型权重的差异性,通过对于场景和优秀生产力的这种杠杆来去提升自己在全球的这一种竞争力。你比如说 openai, 主要是有先发优势,有品牌优势,有认知优势。 google 有 全球最大的互联网 infrastructure, 叫基础设施 anthropic, 有 全球最高质量的这个代码库,用户量最大的编程的这样的一个终端非常稳定、非常统治化地位的企业,市场客单价就会变得非常的高。 这是美国人的发展模式。主要的逻辑是什么呢?他们的发展的思路叫大力出奇迹,因为他既掌握算力,也掌握数据,也掌握基础设施,而且也掌握所谓的文化高地,因为不管如何,计算机科学是从美国发明的,这个你必须得承认,中国如果想要跟美国进行竞争,你会发现我们如果直接跟他头对头是完全不成立的。 首先人才上我们很多,但是无论是地缘政治也好,还是各种各样的客观因素的限制,我们可能并不能够跟他们完全头对头的竞争, 那怎么办?你唯一的办法只有另辟蹊径。我们都知道,在 ai 的 发展的过程当中,数据永远是最重要的。我们现在已经都知道说全类人类积攒的数据已经被模型吃干抹净了,那么如果你还想让模型继续的成长,继续的放大,你只有一种路径,那就是获取新数据。如果要想空前的获取新数据, 你在短期之内想弯道超车,唯一的办法是什么?通过开源的方式,空前增加你的调用量,增加你的 token 消耗数,然后来去获取尽可能高质量的新数。 that's why? 它必须开源, that's why? 我 们必须要免费部署。 然后第二个方式,那就是当算力产生新的瓶颈的时候,我们如何通过工程化的手段, engineer 的 手段来去让算力的发挥达到最优。这就是所谓的在有限的资源情况之下无限最大化。这就是中国人最擅长的, 我们一定要理解的地方。其实我们很难在真正的前沿科技上做到特别大范围的零到一,这点我们要承认。但是我们最擅长的东西是从工程化的一到十,没有人干得过,因为我们的 工程人才是全球密度最高的。所以你会发现,无论是最早 m o m o e 的 应用和优化,包括 kimi, 包括月治安面,包括 deepsea, 所有的创新其实都来自于模型训练,算力优化层面上的创新才能用极低的成本来完成相对优秀模型的训练。所以在中国,我认为其实真正优秀的公司是谁?其实像阿里的这样的公司就是它几乎解决了大部分这些问题 什么的。 deep seek 全面转向升腾这个系统,不知道看见了没有?全面转向华为这个升腾系统就标志着中国在整个 ai 产业链里面,从模型的预训练,到算力,到部署,到商业化,完整的一个闭环。原来我们一直缺的是什么?是算力这块 做不到最难的,零到一有点难。是的,但是一到十我们的共同能力比较强,所以这两个差异性就会导致说 ok。 有 很多的看法其实都可以被解释,你看 deepsea, 它直接官网的访问量其实下降的, 但是因为后台有大量的中国互联网服务都在调用 deepsea, 所以 deepsea 的 真实调用量其实是巨大的。但是之前从 r 一 出来到到 v 三,你就会发现 deepsea 沉寂了很长的时间。这里面主要的是什么?是在做算力迁移架构迁移在新的算力架构之下如何去解决? 训练?平静?我觉得可能 deepsea 在 现在中国的数据量应该是最多的,但大家讲到的说国产模型争流这些玩意,其实也是一个工程化的方法,最快的方法,所以迁移需要时间。前段时间 就当机的问题,我觉得首先没那么容易,因为你知道你如果迁移算力,这个在经验积累上等于零,原来所有的模型的经验的沉淀、训练的沉淀,都基于 nvidia 那 一套,库拉架构那一套, 你换一套算力,那么你怎么跟算力场上去融合?当然华为计算非常强,非常厉害,有很多很前瞻性的想法,我其实蛮反对把 deepsea 身上加入这么多的预期值的,我觉得 deepsea 特别像刘翔,我们应该尝试 给 deepsea 不 营造那么重大的非技术本身的一些期待和苛责的要求,我们应该给他更宽松的成长环境和空间。

最近特别火的 agent、 mcp、 skill、 open claw、 rag 大 模型到底是啥意思?今天一次性讲明白。先给大家举个例子,你把自己想象成一个老板,想搞一家完全不用人动手的全自动化的公司,这个时候你是不是需要一个全能的执行者?他不只是动动脑子,他还能统筹安排落地执行。 这里先澄清一个关键,真正管事的做决策的,那背后的核心,他是大模型,相当于我们人的大脑。咱们说的 agent, 也就是智能体,就是这个大脑的执行者的化身,他能听懂你想干啥,把你交代的环拆成一个一个的小任务,定好详细的执行步骤, 再指挥后续动作的落地。当然,他一定会借助各种各样的工具,相当于带着大脑的指令干活的统治者。准确的说,大模型是核心的大脑, agent, 他 是大脑的执行主体,是能自主决策、调度任务的智能执行者。那 skill 又是什么呢? 其实就是这个 agent 就是 执行者,他手里的硬本事是他自带的一些本地知识,标准化的能力能让他把活干的更漂亮。不只是凑合着完成 agent, 他 具有的硬本事可真不少哦。 比如说怎么写周报,怎么整理电脑里的文件,怎么打开浏览器查东西,怎么发邮件,怎么做内容的生成和发布,他可以写前后端的代码, 这些相对比较固定的流程,不用我们反复琢磨的一些标准化的动作和常规工作,每一个都可以是一个 skill。 简单说, skill 就是 agent 的 基本功,是它能落地执行任务的基础。接下来是 m c p, 它的全称 model context protocol 模型上下文协议。咱们还是举个例子,在没有 m c p 之前,你想让 ai 帮你干活。比如说你让 ai 查你的非书表格,非书文档,你要专门写一套代码去适配非书。你要让 ai 读你百度网盘里的文件,你要重新写一套去适配百度网盘。 你想用 ai 去高德地图查路线,或者给你的微信发消息,你每一个都得单独写一套代码。想让 ai 在 淘宝、京东给你下个单写套代码适配电商。所以你看,每连一个工具都要重新开发,重新适配, 正在重复的造轮子。现在有了 m c p 统一标准的协议了,它就像 ai 界的通用 usb 数据线,什么飞书、百度网盘、高德、微信、支付宝、京东,全按 m c p 的 标准插上去就行。那 ai 不 用学每一家的方言,一套标准接口适配所有的工具,不用写任何额外的适配代码了, 就实现了一次适配,多平台通用。在这里就是万物互联。那 red 又是什么呢?他翻译过来是解锁增强生成,其实核心就是让 ai 具备查资料的能力。 你像我们传统的 ai, 当生成内容的时候,可能会因为知识的不足,他就胡编乱造,产生幻觉。 red, 他 会先通过互联网,然后我们自有的知识库进行信息的查询,然后基于这些已有的内容再重新生成,那提供的信息他一定是更可靠的。 最 lag 的 本质是什么呢?为 ai 增加了搜索引擎的功能,类似于我们写论文,你先去图书馆查资料。最后我们说 openclot, 它到底是个啥?如果说大魔行驶大脑 agent 是 统筹的执行者,那 openclot 就是 承载这两者的一个躯体, 它是一个开源的、可以自己托管的 ai agent 网关。简单点说,你可以把它下载下来,安装在我们自己的电脑或者是服务器上,它就是一个能让 ai 跑起来的运行环境。 open code 里边已经自带了 agent 的 核心执行逻辑,它能通过我们刚才说的这个 mcp 协议 去调用各种现成的 skill。 而它所有的核心决策,比如说我怎么拆分任务啊?我先执行哪个呀?遇到错误之后怎么换其他方法呀?它其实背后都是靠接入的大模型,但可以再通俗一点, open color 就 像一个开箱即用的数字员工套装,哪怕你不是技术大神,你只要简单设置一下,说出你的最终目标,就能把 大模型 agent、 mcp、 skill、 rank 等等整合起来,拥有一个能够自动帮你干活的 ai 助手,你不用自己写代码搞开发。最后总结一下,大模型是核心的大脑,负责思考、做决策 agent, 它是统筹的执行者,像一个核心高管, 承载大脑的指令,拆分任务、定步骤、指挥执行 skill。 agent 的 基本功内置了标准化动作帮, 让你把具体的活给干了。 m c p 通用接口相当于通用的 usb 数据线,帮着 ai 去连接各种外部工具,不需要重复适配。 open call 躯体加运行环境,把大脑执行者、基本功、通用接口都整合到一起,让咱们普通人能轻松用上。

前段时间,我一个学员去某头部大场面大模型算法岗,面试官问了他这么一个问题, s f t 后进行 r l 训练,为什么模型在测试级上的表现先下降后上升?当时他只答出了灾难性遗忘这一点, 后面就卡住了。面试官继续追问,那你能解释一下为什么后面又涨回来了吗?他就彻底懵了。回来跟我复盘的时候特别懊恼,说这个问题明明在 deep c 二一的技术报告里见过,但当时没深究。其实这是个非常经典的 pose training 问题 字节。阿里智普这些做大模型的公司都很爱考,因为它直接关系到你对 s f t 和 r l 两个训练界断本之差一的理解。今天我们就来彻底拆解这个现象背后的机制,下次遇到类似问题, 你不仅能答上来,还能答的比面试官预期的更深。好,我们先来理解一下问题的场景。现在主流的大模型训练都是先做 s f t, 也就是监督微调,让模型学会按照标准答案输出,然后再做 r l 训练, 通常是 r o h f 或者 r l v r 用强化学习,让模型进一步对其人类偏好,或者提升推理能力。 deep c r e g p t 四 cloud 这些模型都是这么训练的。那问题来了,为什么在 r l 阶段刚开始的时候,测试级性能会先掉下来,然后随着训练继续又涨回去,甚至超过 s f t 阶段的水平?这背后到底发生了什么?第一阶段性能为什么会下降?我们先说第一个阶段性能为什么会下降? 这里有个非常关键的理论结论,来自华为二零二六年发表的一篇论文,他们从数学上证明了一件事, sft 和 rl 这两个训练阶段本质上是不可求的。什么意思呢? 就是说,无论你先做 sft 还是先做 rl, 第二个阶段必然会破坏第一个阶段学到的东西。具体到 sft 跟 rl 这个流程,当你的模型在 sft 阶段已经收敛了,脚常常损失降得很低,这时候你开始 rl 训练。 r l 的 目标函数和 s f t 完全不一样, s f t 是 在最小化负对数,自然让模型精确匹配训练数据的分布,而 r l 是 在最大化期望奖励只在乎输出能不能拿到高分。这两个目标存在根本性的冲突。论 文里有个定律明确指出,即使 s f t 已经收敛, r l 训练开始后, s f t 的 损失必然会上升。实验数据也印证了这一点,千问三 零点六 b 模型在 r i l 开始后,交叉上损失率可飙升,甚至超过了贝斯模型的水平。这就是我们看到的测试级性能下降。从参数空间的角度看, s f t 把模型参数拉向了一个特定的方向,让模型记住训练数据的分布特征, 但 r l 不 关心你记住了什么,它只在乎能不能拿到高奖励,所以 r l 训练会强行把参数往另一个方向推。这个过程就是我们常说的人性遗忘 魔性。之前在 sft 阶段学到的那些经绝对透根预测,能力在 r l 初期会被部分覆盖掉。这里有个很形象的比喻, sft 就 像是让学生背标准答案,背的越熟越好,但 r l 是 让学生自己探索,只要最终结果对就行,中间过程可以灵活变通。 当你从背答案模式突然切换到自由探索模式,学生一开始肯定会不适应,成绩会掉下来。第二阶段性能为什么又回升了?这部分更精彩。 这里有个非常重要的发现,来自对模型权重矩阵的奇异值分解分析。研究人员发现,模型的泛化能力其实不取决于奇异值的大小,而是取决于奇异向量的方向。什么意思? 你可以把模型的每一层权重矩阵想象成一个高维空间里的变换。 sft 训练会让这些变换的方向发生旋转,特别是那些靠近光谱两端的主成分,也就是最大和最小的奇异值对应的方向。这些方向的旋转导致了模型泛化能力的下降。 但神奇的是, r l 训练会把这些方向再旋转回来,尤其是模型的前成和生成。网络实验证明,如果你人为地把 r l 训练后的模型权重举正的其一向量,将肢体换回 s、 f t 阶段的方向,模型的无敌性能会立刻暴跌。 比如 lama 三点二杠十一 b 模型物理准确率会从百分之十六点二直接掉到百分之十点六,损失超过三分之一。这说明 r l 找到的这些新方向才是会复泛化能力的关键。而且更重要的是, r l 训练有一种隐时正则化效应, 当模型对某个样本不确定的时候,生成的多个回答的奖励方差会比较大,这会自动降低梯度更新的幅度,避免对旧知识的破坏。这就像是给模型加了一个自适应的刹车系统,在不确定的地方更新的慢一点,在确定的地方更新的快一点。 有意思的是,很多人以为 r 能恢复性能是因为 k 幺散度惩罚项,或者靠推理机制,但实验发现这两个都不是主要因素。把 k 幺惩罚项去掉,模型依然能恢复性能,只是训练过程会不稳定。 把 code 去掉,模型照样能保持泛化能力,真正起作用的是 r l 本身的这种奖励方差驱动的隐失正则化 整体机制。总结,所以整个过程可以这样理解, r l 训练初期,模型的参数空间被强行重塑, s f t 学到的特征对其被打破,性能下降。 但随着 r l 训练的深入,模型通过调整身成核减成的全重矩阵方向,从新学习到了跟鲁棒的泛化模式。这个新的表示空间既保留了 r l 要求的高奖励能力,恢复了对测试及的泛化能力,所以性能回升。 这里还有个细节值得注意,如果你的 s f t 训练时间过长,过度泥合了训练数据,那 r l 阶段就很难完全恢复性能了。因为模型的参数已经被拉得太远, r l 需要更多的训练步数才能把它拉回来,有时候甚至拉不回来。 所以实践中很多团队会在 sft 的 中间 checkpoint 就 开始 r l, 而不是等 sft 完全收敛。比如拉玛三点二十一 b, 在 sft 训练百分之二十的时候, u d 性能就达到峰值了,继续训练反而毁掉。另外一个有趣的发现是, rft 强化为调,相比 sft 天然就更不容易遗忘, 在持续学习场景下, s f t 会导致严重的灾难性遗忘,之前任务的性能会大幅下降,但 r f t 即使不用任何数据回放策略,也能保持之前任务的性能,甚至接近多任务联合训练的效果。这说明 r l 的 训练方式本身就对知识保留更友好。 最后总结一下,如果你在面试中遇到这道题,这么答, s f t 和 r l 的 目标还溯存在,本质上 r l 初期会破坏 s f t 学到的特征,对其导致性能下降, 而要通过两个级知识限了性能回升。一是权重空间的方向性重构,特别是浅层和深层网络的起移向量旋转,恢复了模型的泛化能力。 二是奖励方差驱动的影视正则化,让模型在更新参数时自动避免对旧知识的过度破坏。最终模型在两个优化目标之间找到了一个更好的平衡点,既满足奖励最大化,又恢复了泛化能力。如果面试官继续追问,你可以补充,这不是简单的遗忘和重学,而是模型在不同的表示空间之间切换。 s f t 让模型记忆训练分布, r l 让模型学会泛化。性能曲线的 u 型变化本质上反映了模型从记忆模式向推理模式的转变过程。 这样答下来,基本就能拿到这道题的满分了。以上就是对这道面试问题的分析和拆解,这里是定时用大模型持续分享大模型面试干货,需要大模型一对一面试辅导的同学,请见评论区置顶介绍,大家面试加油!

你有没有发现一件事,国产大模型每次开发博会都会说同样一句话,我们超越了 g p t four。 但如果你真的去用它写个代码,它帮了问个逻辑题,它胡说。这个时候你可能会想,到底是谁 在进步,还是说大家都在进步,只是我没有感受到。今天,我们不必跑分,不罗列参数,我们只做一件事,找出它真正进步的地方,以及哪些是营销包装出来的假象。 let's go! 打开应用商店,搜 ai, 跳出一百多个 app, 每一家的介绍页都写着差不多的话,超越 g p t four, 全球领先。重新定义 ai, 你 可能会觉得,哇,国产 ai 这么强啊!但如果你真的去用,问他一个稍微复杂的问题,他可能就贵了。 这个时候你就会发现一个尴尬的事实,他们宣传的和你实际用的中间隔着一层厚厚的营销滤镜。今天我们要把这层滤镜撕开。 先问你一个问题,如果你去搜国产大模型排名,你会看到十种不同的榜单,十种不同的排名。为什么?因为跑分是可以刷的,就像你复习时只做往年真题,考试时当然能拿高分,但真实实力不一定匹配。 所以当我们说某模型排名第一时,我们其实是在说它在某个特定测试级上表现很好,而不是说它全方位超越了 gpt 赋。这个认知偏差是今天所有讨论的基点。 那国产大模型到底强在哪里?还是中文理解,但中文理解不代表全方位强。这就像一个中文系教授,可能英文也不错,但你不会让他去跟诺贝尔文学奖得主硬碰硬。所以当我们拆解大模型时,第一要搞清楚的问题就是它的优势来自哪里?是它的模型架构更先进,还是它的学习数据更适合中文? 但可能会让你意外,在拆解之前,先曾经三个最常见的误区。误区一是参数越多,模型越强。不对,就像两个程序员,一个写了十万行代码,一个写了五万行,你不会直接说十万行的那个更强,参数的效率比数量重要的多。第二个误区是中文,第一就是全面领先,第二 不对,中文墙不代表英文墙、数学墙、代码墙,就像一个百米跑得很快的人,你不会觉得他能影响马拉松。第三个误区就是免费,性价比高。更不对,免费的代价可能是限流排队或者是降智。所以下次看到免费两个字,先问一句,代价是什么? 包完序头,我们来看真正的矛盾点。国产大模型技术路线上其实分成了三排,第一排走长文本,他们的三种解释能读超长文档, 但代价是推理速度慢,成本高。第二排是走 m o e 混合专家路线,代表是核心制图,他们的优势是多任务效率高,但代价是单任务性能可能 不均。第三排走垂直深耕路线,代表是讯飞、豆包,他们在特定场景很强,但代价是通用能力相对弱。看到这里你应该明白了,没有最强的模型,只有最社会的模型。接下来我们会用实测验证这句话。 先回答一个问题,为什么国产大模型中文表现普遍更好?答案分三层,第一层是 token 效率,简单说就是怎么把文字切成小块喂给模型?国产模型的 token 是 专门为中文设计的,所以一个 token 能装一到两个中文,而 gbt four 的 token 是 通用的,一个 token 可能只能装 零点三个英文单词。这意味着同样一句话,国产模型看得更清楚。第二层是训练数据,国产模型的训练数据中文占比超过百分之八十,而 g b t 负二是多语言混合训练的。就像你复习时重点只看了中文教材,考试时中文题目当然做得更好。第三层是文化理解,长语梗、 台词、语境,这些需要深度理解中文文化的内容。国产模型确实更有优势,但中文强不等于逻辑强、代码强、数学强,这是两码事。接下来我们用实测看看它们在其他维度到底差多少。 我们做了一个六维能力测评,文本理解、文本生成、逻辑推理、代码生成、多语言能力专业领域。结果可能会让你意外。 在中文场景,国产大模型的平均得分是四点五五, gbt4 是 十分,但在逻辑推理和代码生成, gbt4 依然领先。 所以答案很清楚了,如果你主要用中文,国产模型已经完全够用,甚至更好。但如果你需要复杂推理、代码生成或者多语言工作, g b t four 仍是更好的选择。这不是谁更强的问题,而是谁更适配你需求的问题。 最后回答开头的问题,国产大模型有没有进步?有,而且进步不小。从二零二三年追赶 g p t, 虽 point five, 到二零二四年部分场景持平,再到二零二五年中文场景领先,这个进步速度是真实的,但进步主要集中在应用层和优化层,底层架构的创新仍有差距。 接下来我们做了三个实测,每个实测我都会把屏幕录下来,不剪辑,不筛选,让你看到最真实的结果。那么测试一是复杂推理。我给所有模型提问了同样的一个问题,如果一个人每天喝三杯咖啡,但睡眠质量很好,这说明什么?这个问题考察的不是答案对错,而是推理链是否完整来看结果。 文心妍的回答,他给出了几个可能的原因,但推理链路短,那么通易切问的回答,推理链更完整,考虑了更多可能性。听力的回答中规中矩,但没有明显错误。最后是 g p t four, 推理链最完整,从生理、心理、习惯三个层面分析 差距在哪里。不是答案对错的差距,而是思考深度的差距。 g p t four 会多想一到两步,这个差距不算大,但也不算小。接下来看测试二, 我让所有模型用王晓波的风格写一段关于 ai 的 短文。这个测试考察的是文化理解、风格还原、文学性表达来看结果。结论很清晰,在中文创作这个维度,国产大模型确实比 gbt4 更强,他们的文字更自然,更有人味,更懂中文的韵律和节奏。这不是我一家之言,你自己可以试试。 所以,别再信国产全面落后这种话了,他们在进步,而且在特定领域已经领先。接下来是进入专业分析模块,我让所有模型分析当前新能源汽车市场的竞争格局。这个测试考察的是信息整合能力、逻辑框架、数据引用准确性来看结果,结论是 gpt4 的 信息整合能力更强,逻辑框架更清晰,数据引用更准确, 但国产模型的中文表达更流畅,更适合中文阅读。所以三个测试做下来,答案已经很清楚了,没有最强,只有最适配。做完了测试,现在来客观复盘。先说优点,第一, 中文理解深度,国产模型在这方面确实领先。第二,响应速度,因为他们的服务器在国内延迟低,但是成本控制,国产大模型的 api 价格普遍是 gbt4 的 十分之一。 那么第四是本地化服务,中文客服、中文文档、中文社区,这些都是 gbt4 给不了的。再说短板,首先复杂化推理能力,我们实测下来和 gbt4 仍有一到两个步骤的差距。 第二是多模态能力,图像理解、语音交互,国产模型发展不均衡。第三是开源生态, g p t four 虽然不开源,但它的生态更成熟。最后说局限,国产大模型在应用层和优化层进步很大,但提成架构的创新仍有差距,这不是贬低,而是客观,只有承认差距,才能缩小差距。 最后,给所有人一个实用建议,如果你是学生或者是普通职场人,主要用 ai 来写文案,整理文档,查资料,国产模型已经完全够用,不用纠结,直接用。如果你是程序员或科研人员,需要 ai 辅助写代码,做推理,处理复查问题,那么 gbt4 仍是更好的选择。 但你可以把国产大模型当做辅助处理中文相关的任务。如果你是企业用户,需要做客服,做内容生成,做数据分析,看场景,中文场景选国产,国际化场景选 gbt4。 如果你是 ai 学习者,我建议两者都选,因为了解不同模型的设计思路,会让你对 ai 的 理解更深。 所以回到开头的问题,哪家最强这个问题本身就是错的,正确的问法是哪款适合我现在的需要?还有一个问题就是国产大模型有没有进步?有,而且进步不小,但进步不等于超越。承认这一点,既不丢人也不贬 低。因为真正的进步从来不靠吹出来的,而是靠一行行代码,一次次训练,一个个用户反馈积累出来的。所以作为一个观察者,我更愿意看到的是国产大模型继续往前走。

特斯拉 f s d 以及 ai 大 模型的上线时间,两个爆料视频我已经都下架隐藏了,很多小伙伴问我为什么下架隐藏这两个视频,其实这两个视频不是我主动要下架的啊,都是有人给我发消息,有人给我打电话啊,要不就是说,哎呀,新增了保密协议,哎,能不能把这个删掉啊, 要不就是说,哎呀,我们现在在处于关键阶段,然后这个您这个影响力太大了,如果你发了去,大家都知道以后会影响我们这个后续的工作,我还是本着那个 做人留一线,日后好相见的原则啊。一般如果你真的觉得啊,对你们公司或者对你们接下来的工作有什么影响的话,你通知我,我也就删了,我不给人添麻烦,也不给自己找那个不自在。很多小伙伴就会很费解,特斯拉要在国内推送 f s d 推送 ai 大 模型,这不都是天大的好事吗?任老车主的信心增加收入或者说增加新增的销量,都是天大的好事啊, 为啥特斯拉这么低调呢?其实马策在整整好好的一年前啊,二零二五年的五月二十一号接受 cnbc 采访的时候就说明白了, supervised full stop driving a post in the car, it has approval in china, but whenever we release a new version we have to get an incremental approval right and at times we you know we do have to battle other car companies in china, who are trying to stop us from buying it incredibly competitive market, so china is the most competitive market and to。 马斯克说这段话的背景我给大家梳理一下啊。 去年二零二五年的二月底是 f s d 首次在我们国内推送,当时特斯拉官方非常低调,甚至都没咋发视频,没咋官宣。 然后呢,当时我也发了测试视频啊,这个 f s d 当时表现特别的好,特别丝滑,特别拟人化,比当时国内的几乎所有辅助驾驶都要领先一个代差。但是好景不长啊,这个 f s d 刚推送了几天就给叫停了,一直停到现在,停了一年多。这回你知道为什么特斯拉不管是在新车型的发布上,还是在新软件的发布上,都特别低调了吧。 之前特斯拉的一位朋友分享给我了一句话,对我的人生都有很大帮助, confused with the silence, shocked them with the result。 用安静迷惑他们,用结果震惊他们。这句话如果你想透了啊,我为什么要配合其他人把这两段视频删了,你也就想透了,特斯拉为什么在所有事情上这么低调,你也就想透了,今年下半年的特斯拉一定会非常精彩, f s d 加上这个 ai 大 模型,它俩之间还能各种联动,你就瞧好吧,再给大家澄清两个事啊。 第一个事就是昨天很多大 v 博主说特斯拉在中国官宣了,在中国大范围推送了啊,这事是个乌龙啊,昨天的视频我已经解释过了,事实情况就是昨天没有给任何一个车主啊推送 f s d, 更别说大范围推送了。第二个,特斯拉官方 x 发布的这个 f s d 监管 版, f s d 监管机构版啊,说这个是残缺版,其实你们都误会了啊,这个 f s d 监管版在北美已经用了两三年了,指的是 f s d 监督版, 这个监督指的是需要有驾驶员坐在驾驶位上来监督这辆车使用 f s d 出现任何交通事故或者出现任何意外,都由驾驶员作为最终责任,而不是车和车企来承担责任。所以说特斯拉这块的最新资讯关注我还是很有用的啊,而且要时刻关注我刚发的视频,因为我没准哪个视频发个几小时以后我就得下架隐藏了。