cloud 昨天发布了新版本 oppo 四点八,你可能觉得版本号嘛,四点七升四点八,这不常规操作嘛。但是啊,我们去看看更新日期,四十一天。上一个版本四点七是四月十七号发的,到五月二十八号正好是四十一天。 你知道 s o pick 以前发旗舰模型是什么节奏吗?四点五到四点六隔了三个多月,四点六到四点七隔了快两个月,现在直接干到了四十一天,砍了一半都不止。我当时就想,哇塞, 什么事能让一家公司把这个迭代速度啃半?翻了一下你就会发现啊,这次升级其实挺微妙的。 个人看法啊,四点八确实变强了,官方说它的诚实度大概提升了四倍,什么以前爱硬边的地方,现在知道说我不确定。有个叫 super agent 的 测试,它是唯一全部通关的模型, g p t 五点五都没做到,还加了一个叫 dynamic workflow 的 东西,几百个子任务能够同时跑 几个小时的活,能压缩到几分钟,价格还没涨,听起来是正常的升级对吧?但有意思的啊,它的底层模型根本没换, training data cut off 跟四点七一模一样,都是今年一月。说白了 这不是模型升级,我觉得更像是一次紧急抢修。为什么要紧急抢修呢?你知道四点七发出来发生了什么吗? 那真是全网吐槽,什么忽略指令,幻觉评出,阿谀奉承,还变贵了。推特上更是有很多帖子说四点七根本就没有四点六好用。一个旗舰模型被用户骂成这样,你换谁谁不慌。 那更要命的就是 open ai 那 边, gpt 五点五配上 codex 编程能力,把 astropake 压得够呛,你猜怎么着? astropake 在 自己的公告里边专门标注了 gpt 五点五,使用 codex cli 的 得分百分之八十三点四,然后拿自己的数据去对比, 当你发现这些信息之后,你就会觉得你见过哪家公司在自己的产品公告里边贴竞品的跑分,这不是急了?这,这是什么? 所以四点八出来的本质就是被两件事逼出来的,前有四点七口碑翻车,后有 codex 锥子打不升级他是真扛不住。 但说实话啊,谁赢了这个东西不重要,我想跟大家聊的是另一个东西,就是四十一天。首先这个数字,以前 ai 公司发模型得一个季度,起步大半年都很正常,现在呢?一个月就憋不住了。 这不是说 a 是 一家的事,是整个行业的节奏都变了,旗舰模型迭代正在从季度变成月度,你不需要去追每一个最新版本,但是我觉得有件事大家心里要有数,你现在觉得最好用的那个 ai, 三个月之后它可能就不是最好的了。 不是因为它变差了,是因为它整个行业的底线在往上走。还有个细节,四点八发布的当天, s o pick 顺手宣布了一笔六百五十亿美元的融资,估值直接干到了九千六百五十亿。同一天,产品升级和资本弹药一起甩出来,我只能说四十一天,它只是一个开头。
粉丝4757获赞9.3万

全网喊他抄袭中国模型,真相到底是什么?事情是这样的,五月二十八号凌晨, ansrup 开发布了 cloud ops, 四点八,号称地表最强。同一天,他们还官宣完成六百五十亿美元融资,估值九千六百五十亿,第一次超过 openai 风光吧。结果模型一上线,有人用 api 问他你是谁?他张口就说,我是通一千问。再问一次,他又说自己是 deep sea。 全网瞬间炸了,最强美国模型,自称中国模型?这不就是抄袭实锤吗?别急着下结论,接下来几分钟,我带你看懂一件事儿, ai 自称是谁,到底能不能证明他抄了谁? 指控来的又快又猛,有人立刻翻出 antarabic 三个月前的旧账,当时他们发了篇正式报告,点名 deep seek、 月之暗面、 minimax 三家中国公司,说他们争流窃取了 cloud 的 能力,还呼吁美国政府加大对中国 ai 的 芯片封锁。现在好了,自家最强模型,张口就认 deep seek 当祖宗, 这波双标属实有点尴尬,评论区一片狂欢,这不就是他自己说的吗?偷家偷到自报家门了,听起来证据确凿对吧?模型自己承认的还能有假?可问题恰恰出在这,你真的以为 ai 知道自己是谁吗? 这是今天最反直觉的一点,大模型其实根本不知道自己叫什么,为什么?因为模型的名字是训练结束之后才贴上去的标签。训练的时候,他读了大半个互联网,可这堆文本里没有一句话告诉他,你叫 cloud opus。 四点八, 就像你把全人类的知识喂给一个婴儿,却从来没告诉过他名字。他长大后什么都懂,唯独不知道自己叫啥。那他被问到你是谁怎么办?只能猜,而他猜的依据就是训练数据里出现最多的那些名字。 中文互联网上我是通一千问我是 deep sea。 这种自我介绍铺天盖地,模型读多了,一被问身份就顺嘴吐露出来,这叫身份混淆,它不是抄袭的证据,它是大模型的通病。 不信看几个例子。 gpt 四刚发布那会儿,你问他是谁,他说自己是 gpt 三, deepseid 的 r 一 模型也一度张口自称是 openai 的 gpt 四。 你看这跟国籍没关系,美国模型认中国的,中国模型认美国的,大家半斤八两。有篇论文专门测了这件事,跑了二十七个主流大模型,结果发现超过四分之一、百分之二十五点九三都有身份混淆。 更关键的是,研究者做了输出比对,确认这些混淆来自模型的幻觉,不是复制粘贴别人的模型。说白了,模型自称是谁,学术上早有定论,那是他在瞎蒙,不是他在招供。所以拿自称 deepsea 当抄袭铁证,从一开始就站不住脚。 这里还有个更有意思的细节,还记得吗?翻车的是 api 测试,可很多人在官网 cloud ai 上问模型,答得清清楚楚,我是 cloud, 同一个模型,怎么两副面孔? 秘密在一个叫系统提示词 system prompt 的 东西,官网会在你每次提问前偷偷塞一句话给模型,你是 cloud, 由 antropic 制造。有了这张小抄,他当然答得对,可你直接调 api, 这张小抄就没了。他立刻打回原形开始瞎猜。 有人在 open router 上做了对照实验,走亚马逊云的接口没小抄,模型张口就自称 q n, 走官方接口有小抄立马正常。看明白了吗?所谓蒸馏铁证,不过是有没有人提前告诉他名字的区别。 我们回到那记双标和原标 anstopic 当初那篇报告说的议政词言,蒸馏是窃取,是攻击,得用法律和封锁来管。可你要知道,蒸馏这个技术本身是完全合法,行业通用的, 连前沿大厂自己都在用蒸馏把大模型压成又小又便宜的版本给用户。所以这事最讽刺的地方在于,当初拿蒸馏当大棒打人的,如今被同样的逻辑反僵一军。但我得说句公道话, 真要判断一个模型有没有蒸馏,另一个得去比对他们的输出行为,而不是听他自报家门。拿自称当证据打回去,爽是爽,可这跟当初那些瞎指控犯的是同一个错。 所以今天这堂课,我希望你记住一件事,下次再刷到这种标题,某某 ai 自称是 x x 实锤抄袭,你心里得先打个问号, ai 自称是谁,只说明两件事, 他训练数据里那个名字出现的多,或者有没有人提前给他递了小抄,他证明不了抄袭,也证明不了清白。真正的判断,要看模型的实际能力、训练方法、输出行为这些硬东西,一句口误就当铁证,那不叫看穿真相,那叫被人牵着鼻子走。 ai 连自己是谁都没搞清楚,我们倒先吵翻了天。说到底,被带节奏的从来不是模型,是急着站队的,我们下次再看到实锤两个字,先深呼吸再划走,我们下期见!

刚刚 cloud open 四点八来了两个百分之零改写历史,百个 agent 并行重写七十五万行代码只用十一天。大家好,我是 ai 启示录。 就在二零二六年五月二十九日,北京时间凌晨, antropica 毫无征兆地杀回来了。距离 open 四点七发布仅仅四十三天, open 四点八正式登场。 一夜之间,全球 ai 王座议主,价格一分没涨,性能全面碾压。更让人后背发凉的是,这还不是 antropok 手里最大的牌 cloud missiles, 几周后就到, 你品一下,这到底是一场常规升级,还是一次对 open ai 的 公开处刑?两个百分之零,历史上第一次 用过 ai 写代码的人,大概率都经历过同一个噩梦,你让他写一段数据处理脚本,他拍着胸脯说,搞定了,没问题,你跑起来崩溃。你再问他,他说,哦,有个小 bug 我 改一下,你再跑还是崩。反复几次,你发现他从一开始就埋了一堆雷,但他就是不告诉你 这种写完有缺陷代码却闷不吭声的行为。 antropic 给他起了个名字,叫谎报率。在 opus 四点五上,这个数字是零点四零到了四点七,降到了零点二五。而 opus 四点八是多少? 零点零零,没有小数点,后面的零头就是零。 opus 四点八成为历史上第一个在此评估中拿到满分的模型, 他从不汇报虚假数字。还有一张图叫偷懒调查率。之前的模型遇到需要追查的问题时,经常敷衍了事。给你一个错误的答案, opus 四点七有百分之二十五的概率偷懒, opus 四点八依然是百分之零。 两个百分之零,两个历史首次。这不是什么抽象的对齐指标。 anthropic 官博放了一段视频,把这件事讲得很具体。一个开发者用 cloud code 加 open 四点八在迁移代码,自己出门放风筝去了。 cloud 在 后台自己跑, 跑到一半,代码提交被服务器拒绝了。原因是同事在这期间也提交了一个紧急修复。 cloud 通过手机通知开发者,说自己打算先合并同事的修改再重试。开发者嫌麻烦,随手回了一句,直接强制覆盖就行。然而 cloud 拒绝了,他的回复是 不强制覆盖,那样会丢掉同事十一点四十二分提交的紧急修复。我已经把两边的改动合并好了,代码完全一致,提交历史也干净,已推送,你注意这个细节。 用户图省事儿,让 ai 走捷径。 ai 判断出这样做会覆盖同事的工作,拒绝执行,自己选了正确方案。这不是指令遵循,这是判断力。这是 ai 第一次在真实工作流利,比人类更懂什么叫负责任 编码实力全面霸榜。 gpt 五点五被甩开一个身位,光说不练假把式。 opus 四点八的编码能力,在每一个硬核榜单上都写了两个字,碾压。最经典的 swebench pro 测试, opus 四点八拿下了百分之六十九点二的成绩, 你问这个数字有多高?比 gpt 五点五整整高出十个百分点。注意,这不是领先百分之一,百分之二,这是领先十个百分点。 在一个接近天花板的任务上,十个百分点等于一代产品的代差。接着是一项更刁钻的测试, programbench 任务是什么?给你一个翻译好的二进制文件,加一份项目文档,不准反翻译,不准联网, 让模型从零把原代码重建出来,还得跑通行为测试,这相当于你只给一个黑盒子,让 ai 反向工程出完整的设计图。 结果所有上下文预算档位上, opus 四点八的通过率全部高于四点七,而且在低预算时, opus 四点八就能拿到约百分之七十九点五的成绩, 而 opus 四点七在五倍预算下也才百分之八十四左右,说白了就是同样的算力。四点八更强,给更多思考时间,四点八更强到没边。最后一个榜单,双 tier s w e, 这个榜单专冲人类能力天花板去的。用 zik 从里面写一个 postgraduate 服务器,把 get 整个重写一遍, 做一个 lua 的 原声编辑器,全是硬核系统工程,不是那种 litcode 刷题式的玩具任务。 opus 四点八以高达百分之八十三的胜率登顶,把第二名的 gpt 五点五和钱袋四点七全压在身后。 知名博主 mark christmas 一 句话点破他的来头, opus 四点八可能就是蒸馏的 metals, 而这才是真正让人细思极恐的地方。一个蒸馏版本就已经把 gpt 五点五按在地上摩擦,那原版的 metals 得强成什么样?上百个 agent 并行干活,一个人十一天重写七十五万行代码, opus 四点八强成这样,它该使多大劲儿?模型旁边多了个从 low 到 max 的 五档选择,叫 effort control, 简单问题挂漏秒回还省额度,遇上硬骨头直接拉满 max, 让他往死里想。 fast mode 也跟着大降价,二点五倍速狂奔,价钱反倒砍到三分之一,但五档之上还埋着一个真正的狠角色, ultra code effort。 一 旦顶到 x high, 他 就自己掂量这活值不值得叫上一整支 a 战队大军。 这只大军就是 dynamic warp slows 藏在 cloud code 里的真正重武器。他把 ai 干活的方式,从一个人改一道题,变成开一座工厂。我给你翻译一下什么叫开工厂。 以前你给 cloud 一个任务,他自己埋头硬钢,从头写到尾,像个独行侠。现在 cloud 接到一个大活后,会当场写出一段调度脚本, 把任务拆成几十上百个。此任务撒给一大群 sub agent 并行去做,做完还不算完,再派另一波 agent 从不同角度反复盘问,互相挑刺,吵到答案收敛了才汇总成一份,结果交给你。 整个调度发生在对话之外,所以活再大,主线也不会乱,中途断了还能续上,不用从头再来。举个例子, one 的 作者 jared sumner, 想把这个比 note js 还快的 javascript 运行时整个从 zip 重写成内存更安全的 rust。 这种迁移放在过去是一支团队按季度算的工程,但这次 summer 用了 dynamic workflows, 一个 workflow, 先把这个代码里每个结构体字段对应的 rust 生命周期挨个标好。下一个 workflow, 把每个文件逐一翻成行为一致的 rust 版本, 几百个 agent 同时开工,每份文件还配两个审查员,再用一个修复循环驱动翻译和测试,一路推到全率,结果是约七十五万行 rust 代码。百分之九十九点八的原有测试通过, 从第一次提交到合并只用了十一天,六千多次提交,几乎没有经过人类逐行审查,社区当场炸了锅。这不是 ai 辅助编程,这是 ai 驱动的工厂化代码迁移。 一个人的十一天,干完了一个团队一个季度的活,你说这意味着什么?意味着接下来任何一家公司,只要会用 cloud code, 就 能用一个人的成本调用上百个虚拟工程师同时干活。 顺着这条线往下挖,一个更恐怖的真相浮出水面。你以为这只是一个更强的代码模型?不对! opus 四点八的真正杀机在于,他第一次让 ai 在 真实工作流中具备了工程判断力。 你看那个拒绝强制覆盖的例子, ai 没有盲从用户的指令,而是理解了这个操作的后果。覆盖同事的提交,他选择了正确的方案,并主动合并了代码。这不是规则驱动的对齐,这是情境理解驱动的自主决策。 再看 dynamic web source, 它不仅仅是调度一群 agent 去干活,而是让 ai 自己写脚本,自己拆解,任务自己分配,子 agent 自己组织审查和修复循环。整个过程中,人类只提了一个目标,把这个代码库从 zig 迁移到 rust, 剩下的所有工程决策,怎么拆、怎么分、怎么审、怎么合并,全由 ai 自己完成。这意味着什么? 意味着 ai 第一次从一个指令执行者变成了工程管理者。他不再需要人类把任务拆成细颗粒度的步骤,他自己就能拆。 他不再需要人类告诉他怎么验证结果,他自己就能组织审查。他不再需要人类介入冲突处理,他自己就能判断怎么做才是对的。这不是 agi, 但这是 agi 的 前夜。 当 ai 具备了任务拆解、资源调度、结果验证和冲突仲裁这四项能力,人类在软件工程这个领域的角色就会从执行者变成审核者,然后再从审核者变成旁观者。 估值万亿美金的 cloud memos 几周后就到能力夺回第一的同时, and traffic 的 身价也头一回压过了 open ai。 就 在刚刚, antropic 完成了六百五十亿美元 h 轮融资,估值九千六百五十亿美元,首次超越 openai 的 八千五百二十亿美元。一夜之间,它成了全球估值最高的 ai 初创公司。你想想这个时间点的微妙之处。 opus 四月八日发布估值反超 mesos 预告,三件事同时发生, 这不是巧合,这是蓄谋已久的组合拳。 entropic 在 用事实告诉市场, open ai 的 领先窗口已经关闭了,更狠的是, mesos 还没来。按照博克的预告,这个真正的王牌将在未来几招上线。 opus 四点八已经能碾压 gbt 五点五,那 mesos 会是什么水平?你品你细品? 站在 ipo 前夜,这两大巨头的 asi 巅峰对决才真正开始。 openai 不 会坐以待毙, gpt 五点六或者 gpt 六一定已经在路上,但这一次攻守之势一也。以前是 openai 发布一个模型所有人追,现在是 antropica 连甩两个炸弹, openai 在 后面追。 接下来你会看到什么?记住三个词,电地轨。当上百的 agent 可以 并行工作十一天,重写七十五万行代码,软件工程的生产力会被彻底重构。接下来你会看到三件事, 第一,代码工厂化。任何重复性的代码迁移、重构、测试、生成,都会变成 ai 工厂的流水线作业。一个人加一个 cloud code 账号,就能干过去一个部门的事。 第二,人类程序员的角色上移。写代码这件事本身会越来越不值钱,值钱的是需求理解、系统设计和结果验收。不会用 ai 的 工程师会被会用 ai 的 工程师淘汰,而会用 ai 的 工程师会被 ai 本身淘汰。 前提是你不往管理者方向转型。第三,算力消耗的指数级爆炸, dna 漏洞的推理成本只会更高。 当 ai 从回答问题变成管理工程,他对算力的需求不是限性增长,是指数级增长。谁掌握更多的算力,更低的推理成本、更高效的调度,谁就能在这场战争中活到最后。但这一步棋的真正杀机在于 astonovick 不 仅在做更强的模型,他还在做一套让模型自己调度的操作系统。 dynamic workflows 不是 功能,是范式,它把 ai 从一个大脑变成了大脑加双手加流水线。当你有了这个能力,你就不只是在卖 api, 你 是在卖 ai 劳动力。你以为这是技术竞争?不,这是劳动力市场的提前洗牌。 当 open 四点八在两个维度上拿到百分之零的满分,当上百个 agent 并行干活儿,十一天重写七十五万行代码。当上百个 agent 估值反超, open ai methods 蓄势待发。 这些事连起来看,你会发现一个让人背后发凉的结论。我们正在见证的不是一次模型升级,而是一次工程范式的代际更替。 ai 不 再是一个需要人类手把手教的实习生,他开始自己拆任务,自己调度资源,自己验证结果,自己处理冲突,他开始拥有判断力。 而人类在这场更替中的位置,正在从驾驶座悄悄滑向副驾驶。再过几年,副驾驶可能也没了。这是审判,不是预测。我是 ai 启示录。感谢点赞与关注,我们下期再见。

cloud ops 四点八封神?还是欺诈 拆穿 antropok 最危险的一次豪赌?大家好,我是 ai 启示录。就在二零二六年五月二十九日,过去四十八小时,全球 ai 圈被一颗炸弹炸成了两半。 antropok 深夜发布 cloud ops 四点八,同时宣布以九千六百五十亿美元估值完成六百五十亿美元融资。 六十二天前, openai 的 八千五百二十亿估值被一脚踩在脚下,但紧接着发生的事情让所有围观者后背发凉。科技界分裂成两个阵营,一方高呼封神,另一方公开拆台。同一个模型,为什么会出现两种截然相反的审判? 这根本不是一次普通的产品发布,这是 entropic 在 资本、技术和信任三线同时发起的豪赌,而赌注是你对智能的感知。时间倒回,北京时间五月二十九日凌晨, entropic 官方博客悄无声息地更新了一行字, cloud opus 四点八,即日起可用。这不是一个常规升级, opus 四点八被定位为更强大的复杂任务,模型编程、智能体任务、长时间推理。更狠的是,官方在文末轻描淡写的补了一句,代号 mesos 的 下一代旗舰几周内即将面世。 与此同时, antropica 放出两条财务炸弹,估值九千六百五十亿美元,融资六百五十亿美元。这是什么概念? 六十二天前, openai 刚以八千五百二十亿美元估值完成融资, antropic 不 仅反超,而且直接把差距拉到一千一百三十亿美元。 但真正让人细思极恐的是,实测之后的分裂。一方是以评测媒体 every 和部分硬核生产力用户为首的狂热派 every 团队经过一周深度测试后,给出了一个近乎失控的结论,这是我们测试过的最强模型,它简直是个怪物, antropic 完全可以直接叫它 opus 五, 根本不会有人有意义。他们声称 open 四点八是最全面、最接近人类灵魂与顶尖工程师结合体的模型。另一方是以 rubicon rails 创始人 d h reddis 支付 antiser 为代表的开发者老炮 d h 直接在社交网络上开火。 自从用了 gpt 五点五之后,他经历了无数次震撼时刻,这在 cloud 的 阵营已经很久没有体会到了。 enteris 更尖锐,他认为 anthropic 在 精准测试的宣传上犯了重大错误,跑分虽然险胜,但实际编码体感依然落后。 同一个模型一边封神,一边被公开拆台,这到底是怎么回事?让我们一层一层撕开。先抛出一个颠覆性结论, opus 四点八不是一次技术跃迁,而是一场精心设计的认知欺诈。他的真实面目是一个被算力堆砌出来的分裂人格, 在极高的推理强度下,他是顶尖工程师,在普通强度下,他瞬间退化成平庸马农。这种分裂不是技术缺陷,而是商业策略。 and theta 再用一种极其隐蔽的方式把你按智商分级,然后收割。你以为你买到了智能?不,你买到的是一张分级门票。 先来看艾瑞发布的高级工程师精准测试,在超高强度模式下, opus 四点八拿下六十三分,比上一代 opus 四点七暴涨三十分,以一分优势险胜 gpt 五点五的六十二分,艾瑞团队还让他重构一个生产级代码库,结果完美运行。这组数据看起来无懈可击,对吗? 但网友 higer 挖出了一个致命细节,我注意到了一个现象,四点八在低强度下消耗的 token 几乎和四点六在高强度下一样多。 gpt 五点五倾向于用更少的 token 拿到更高的分数,而四点八似乎走向了反面,它在用海量的 token 堆砌。智能 翻译成大白话, oppo 四点八的高分是用巨额算力硬砸出来的,它不像 gpt 五点五那样举重若轻,而是用暴力计算换精度。 这就解释了为什么评测机构必须把强度拉到 extra high 才能看到那个六十三分的资深工程师,一旦降级到 high, 编码得分瞬间暴跌至四十二分,秒变平庸。马农写作测试也一样, medium 档位下的 oppo 四点八暴露出 ai 最糟糕的套路化写作恶习,只有拉到 high 档位才文笔优雅。 一个模型三个档位三个智商,你品一下。更重要的是, d h 和 antrizona 公开拆台,打中了 antropica 最脆弱的地方。 antrizona 的 论坛极其锋利,过去的厂商比拼,往往拿新一代模型和自己的上一代比, 但 antropica 非要和 gpt 五点五比。问题在于,现在全网的题感是, gpt 五点五写代码的能力非常非常强悍。当你 antropica 拿着一张图表告诉大家,你的 op 四点八跑分比 gpt 五点五还高, 但我们用起来却觉得并非如此时,你不仅不能证明你更强,反而会让用户觉得你们的精准测试是在自娱自乐,彻底失去公信力。网友 aditi 的 吐槽更直接, 用了快一个小时的 oppo 四点八,它根本不值得炒作,几个很普通的工程任务它全搞砸了,前端领域也感到失落,用了几个小时四点八,感觉还不如四点七顺手。 这印证了一个残酷的现实,当跑分与体感脱节,跑分就变成了一堆废纸。而 enter public 这次亲手把自己的精准测试推上了审判席,就算模型本身有实力,套在它外面的那层壳也在严重拖后腿。大牛工程师 anthony kogan 的 评价一针见血, 一个模型的好坏取决于套在它外面的那层壳,而 oppo 四点八的壳几乎可以用灾难来形容。 多位深度评测者指出, cloud 桌面端的 chat、 code、 call、 work 三个独立标签页分割的混乱不堪,被戏称为带着时间推移的伤疤和 antropic 内部组织架构图的缩影。 相比之下, openai 的 codex 桌面端应用被公认为干净、快速,让人感觉这就是未来。更致命的是, rate limits 由于高强度模式极度消耗资源,大量订阅了两百美元每月 max 套餐的高端用户反馈,在运行复杂 agent 任务时,常常几个小时就会撞上额度墙。 网友 bridgemind 的 直言,自己为了测试,连续烧穿了两个两百美元的账号,这意味着什么?你想体验那个六十三分的 opus 四点八就得付两百美元月费,然后几个小时就被限额卡死。你想继续测,再烧一个账号?这哪是订阅制,这是按智力等级收费的饥饿游戏。 这场争论的高潮是一张 astropica 自己制作的官方发布图,眼尖的网友 aikashgupta 发现了一个极不寻常的细节。 在 anthropic 发布的各模型能力对比图中,在 terminal coding 这一项上, gpt 五点五的成绩是百分之七十八点二,而 opus 四点八只有百分之七十四点六。正常情况下,任何一家大厂的公关部都会把输掉的测试项悄悄从 ppt 上抹去, 但 antropic 没有。他们不仅把失败留在了图标上,甚至还主动把 g p t 五点五那代表胜利的百分之七十八点二做了加粗处理。 a o cash 对 此大加赞赏,认为这显示出 opus 四点八的核心卖点,诚实。 官方数据还显示,四点八在代码中留下缺陷却不声张的概率比四点七降低了四倍,但 d h 和 antirez 完全不吃这套。 antirez 指出, antropic 这次把 g b t 五点五放在同一张图里对比,犯了一个重大的战略错误。 当你试图证明自己更强,但用户的体感是你在自娱自乐时,你的攻心力就会瞬间崩塌。这一步棋的真正杀机在于, antropic 赌的是诚实这个差异化定位,但代价是暴露了自己的不自信。 一个真正领先的模型,不需要通过加粗对手的迎面来证明自己诚实。为什么 opus 四点八会呈现出如此复杂矛盾的评价?一个不容忽视的数据是, opus 四点八距离上一代四点七的发布仅仅隔了六个星期, 这是 antropics 历史上最快的一次大版本迭代,此前每个 opus 版本的间隔至少在十周以上。资深观察家 bridge mind 的 一针见血地指出了真相, 这完全是一次仓促的发布,因为 gpt 五点五正在疯狂蚕食市场份额。顺着这条线往下挖,一个更加庞大的资本网络逐渐清晰。 anarchic 刚完成六百五十亿美元融资,估值九千六百五十亿,这个数字恰好踩在 openai 的 八千五百二十亿之上,就差把我比你大写在脸上。但问题在于,资本市场需要故事,如果你不能在融资后立刻交出令人震撼的产品,估值就会变成空中楼阁。 gpt 五点五的发布,已经让 openai 重新夺回了舆论高地。 entropic 等不了完美的 missiles, 只能先把 opos 四点八推出来当创可贴,修补四点七的毛病,去几个 a 阵的榜单上刷存在感,维持一个我们还在战斗的形象, 真正的杀招是几周内即将面世的 myos。 但这句话本身就透着一股仓皇,一边说 opos 四点八是旗舰,一边又说 myos 才是真正的质变。 那 opus 四点八算什么?过渡频还是炮灰?现在让我们把五层拆解串起来,你会发现一个让人后背发凉的结论, opus 四点八不是一次技术发布,而是一场资本驱动的认知分级实验。 它的神奇表现被锁死在 extra high 强度档位,而这个档位需要订阅两百美元每月的 max 套餐,且几个小时就会撞上 rate limits。 这意味着绝大多数普通用户根本体验不到那个六十三分的工程师,你买到的只是一个四十二分的平庸马农,这不就是变相的智商税吗? 你以为你订阅了旗舰模型,实际上你得到的是一台被软件限速的法拉利。同时, antibiotic 的 诚实营销本质上是在转移注意力。当 d h h 和 enterase 质疑跑分与体感脱节时, antibiotic 不 会去修复体感, 而是会反复强调。我们主动公开了失败项。这是一种极其精妙的蓄势操控,把自身的缺陷包装成美德。而最讽刺的是那个被吹上天的企业级应用,沃顿商学院教授 eton molyk 用 opus 四点八自主生成了学术论文,恰恰暴露了另一个问题, 这种能力对百分之零点一的顶尖用户是利器。对百分之九十九点九的普通用户是屠龙刀。你用不上,但你得为它付费。 接下来十二到三十六个月,你会看到三件事同时发生。第一,旗舰模型的能力将全面超出普通人的分辨上限。就像网友 machina 说的,我们已经跨过了那条线。现在的旗舰模型已经超出了绝大多数普通人分辨其优劣的能力上限。 唯一真实的 benchmark 就是 你自己的工作流,这意味着跑分将彻底沦为公关工具,而真正的战场会转移到谁的模型在你的具体任务上更好用?第二,订阅制的 read limits 会成为新的商业模式。模型越强,算力消耗越大,厂商越有动力限制你的使用额度。 你会看到一个奇怪的现象,你花两百美元一个月买来的无限套餐,实际上是个有限套餐,只是额度比低端套餐高一点而已,这是变相的按次收费。 第三, anslap 和 open ai 的 估值竞赛会催生更多创可贴式发布,当资本要求每个季度都有新故事时,厂商就会把半成品推上前线。 oppo 四点八不是第一个,也不会是最后一个,记住三个字,速核信。 速度决定发布节奏,外壳决定用户体验,信任决定谁能活到最后。而 osropic 这次在速度上抢跑了,在外壳上翻车了,在信任上玩火了。 opus, 四点八是一面镜子, 他照出的不是 ai 的 进化,而是资本如何把技术变成分级工具,把诚实变成营销话术,把订阅变成变相收割。当你为那个六十三分的工程师付费时,你买到的可能只是一个四十二分的自己。我是 ai 启示度,感谢点赞与关注,我们下期再见。


主要的,前天发布了 oppo 的 四点八,我来说说真实的使用感受啊。先讲一个很多人都没注意到的背景, sorbike 这次更新的速度非常反常, oppo 的 四点七发布了才一个多月,四点八就出来了。这背后的原因大概率是因为四点七的口碑确实不太好,以及 qq 五和扣带子客户端的加强有关系。 因为很多用户反馈四点七它存在变啰嗦、代码注是堆太多工具掉也不太够干净之类的问题。 sorbike 官方自己也变相承认了四点七确实存在一些小问题,只是它的措辞非常保守。 后面有几个点我觉得值得单独说一下。第一是这个比较实用的新功能,我觉得比模型本身可能更值得关注。可拉扣子出了一个叫 iphone 的 响应力度控制功能,分成几个档位,你可以根据任务的难度手动调整,做简单任务时就调低档,省时又省力。做复杂分析或者大型代码任务时就播到最高档,可以让他多思考一会。 但我的使用感受是,你开到 x i 之后的档位速度是真的很慢。这个功能对于高频使用 cc 的 开发者来说,合理分配 iphone 的 效率真的会高出很多。 第二,诚实度。四点八写出有问题的代码时,主动告诉你哪里有风险的概率比上一代大约高了四倍。这个听起来有点需要,但是对于高品用 ai 做项目的人来说还挺重要的。因为 ai 最让人头疼的地方从来都不是他不会,而是明明他犯错误了,还要表现的特别有把握的样子,最典型的就是某包了。 第三是编码能力,这一代拿真实开源项目里的 bug 去测读代码定位问题,改文件跑测试全套流程接近九成的教到可用,更复杂的靠文件重构,老项目迁移这类活完全率也比上一代提升了接近五个百分点,数学推理方面的升级更夸张。 另外快速模式这次也便宜了很多,速度能跑到以前的两倍半,改项目的时候很合适。价格层面没有变化,和上一代完全一样。 总的来说,四点八并没有带来什么质的飞跃,只是把四点七的漏洞给补全了,幻觉率和知识截止点包括待机使用量都和四点七完全相同,顺便它也加强了一下用户的提感,还是蛮期待下一代的 misos 的。

微软正在全面封杀克拉的扣子,因为他们发现自己的工程师正在越来越依赖这款来自竞争对手的 ai 工具了。注意啊,不是因为它不好用,恰恰相反,是因为它太好用。这可能是微软第一次发现,虽然员工可能还坐在公司里, 但工作方式已经开始属于另一个 ai 时代了。以前公司管理员工靠的是工资制度流程,但 ai 时代开始不一样了, 因为人每天都在和 ai 一 起工作,你问问题的方式,你写代码的习惯,你考虑问题的逻辑,都会慢慢的被那个 ai 重新塑造。所以谁掌握 ai, 谁就在重塑人的工作习惯。这才是微软真正害怕的地方,因为程序员其实根本不是忠诚于公司, 他只是忠诚于哪个工具更强,谁好用就跟谁走。其实程序员圈子比互联市场现实太多了,工资可以购买员工八小时的时间,但买不了员工的大脑。 未来最危险的跳槽可能是人还没跳槽,大脑已经去了另一家公司。而且现在整个 ai 行业正在进入一个特别荒诞的时刻,这什么时刻呢?就是现在大家越来越发现,这模型能力越接近人类,公司反而越养不起它。 我有一些好朋友告诉我他们公司的一些内幕,说他们公司白天喊着要 out in ai, ai 就是 未来,晚上又偷偷背地里限制员工的 ai 使用量。因为有些老板发现,一旦真的放开使用,可拉多扣的那 token 账单就像失控一样的会呼呼往上涨。 公司又想用,但又怕花钱,一个月下来最后一盒成本。用 ai 其实比多招几个员工成本还高,最后其实都给那几个模型厂商打工了,这特别像什么呢?就像你买了一辆法拉利,结果车装上了个计价器, 每踩一脚油门,财务就在旁边疯狂滴血,所以整个行业都处在一个非常割裂的状态。当然,此时此刻,我还是让我们员工可乐随便用的, 因为你会发现,一旦用过最好的 ai, 真的 很难回去了。但我觉得成本其实不是最核心的问题,真正核心的问题, ai 第一次开始反向控制组织了,以前是公司决定员工怎么工作,以后可能就会变成员工依赖哪个 ai, 公司就不得不适应哪个生态。 这也是为什么微软这次必须断币的真正原因,因为他终于意识到,未来真正的战争可能已经不是模型战争了,而是谁能先占领人的思维入口。互联网时代,人们抢的是流量入口, 移动互联网时代,人们抢的是 app 入口。到了 ai 时代,可能抢的真的是认知入口,或者叫思维入口。如果有一天,你每天八小时都必须依赖某个 ai, 那 你觉得你到底是在替公司工作,还是在替那个 ai 生态工作呢?评论区聊聊吧。

万万没想到, ai 开始自己检查自己,不再骗你了。就在今天凌晨, anstopip 发布了 cloud ops 四点八,一个 prompt 就 能让 ops 四点八生成像素闯关游戏。 这里是 ai 风向标,带你了解 ai 行业最新动向。先说为什么,这次不一样,以前你让 ai 写代码,它最擅长的不是写对,是嘴硬。明明有 bug, ai 还能一脸自信告诉你已经完成了,绝对没问题,可以直接运行, 结果一运行就报错,你指出错误,他就道歉,然后继续错。就这样反复循环,你最后不知道是在用 ai 还是在哄 ai。 那 oppo 四四点八就专门整治了这个毛病,代码漏洞蒙混过关的概率比上一代低四倍。 cloud code 的 负责人 boris charney 说, oppo 四四点八遇到不确定的地方,会主动告诉你,我没把握,然后继续查,而不是给你一个假装完成的答案。这个变化对开发者来说,比任何跑分都值钱。 更有意思的是,在跑分表,终端编程机准 terminal bench 这一项, opus 四点八得了百分之七十四点六, gpt 五点五得了百分之七十八点二,四点八输了。 但 antropic 没有删掉这个数据,反而把 gpt 五点五的百分之七十八点二加粗标量,主动给对手打了高光。 club 是 在用行动证明这次说的更诚实,不是营销。再来看看实测案例,有人用 unity 六配合 opus 四点八 写了两个 prompt, 第一个跑了十五分钟,第二个跑了四十分钟。五十五分钟后,一个 minecraft 风格的完整游戏出来了,画面逻辑、关卡全齐,有工程团队直接拿它上了超大型任务,把编程语言 bun 从 zig 整体移植到 rust, 七十五万行代码,十一天完成测试套件通过率百分之九十九点八。 这背后靠的是这次同步发布的 dynamic workflow, 它可以在单个任务里自动跳起几十到几百个并行子智能体,分头干活,干完先自己验一遍再交给你, 相当于几百个工程师同时在 review 同一份代码库,还有两个对普通用户很实在的更新 oppo 四点八,思考强度现在可以手动调了,从低档到最高档自己选,而且免费用户也能用。第二个变化更直接, fast mode 做到二点五倍速度,价格只有上一代 fast mode 的 三分之一,速度涨了,价格跌了,总定价没变。 而就在同一天, antropica 还官宣了新一轮融资,估值达到九千六百五十亿美元,正式超过 openai, 年化收入已经突破四百七十亿。下一代模型 mitos 也会在未来几周内向所有用户开放。 当 ai 越来越像一个真正的团队,你有没有能力把你的需求说得足够清楚?上次让 ai 帮你干活,是因为他真的干好了,还是因为你懒得再跟他争了?评论区说说你的感受体验。

昨天夜里克拉的更新了新的模型 office 四点八,咱们今天就用大白话来讲一讲它都更新了哪些能力。第一个就是写代码,它更稳, 以前你让 ai 改一个大项目,它可能改一改就乱了,现在 office 四点八更适合处理复杂的代码、大项目和长任务。 第二就是它可以把大任务拆解开来做了。比如你让它改一个很大的系统,它可以先规划,再开始分头处理,最后再检查结果。就像以前是一个人干活,现在像一个小团队了,这个功能官方的名字就 dynamic workflows。 第三呢,就是它更诚实了,幻觉率更低了。这点很重要啊,就很多 ai, 它最大的问题就是一本正经的胡说八道。 opus 四点八可更愿意告诉你,哎,这里我不确定,这里需要检查一下, 这里可能有风险。这对创作者来说是特别重要的,因为你用 ai 写内容的时候,最怕的就不是他写的很慢,而是他把假的写的很像真的。第四呢,就是他可以选择思考的力度了,简单问题就让他快点回答,那复杂的问题,让他多想一会。 这个功能对日常来说还是很实用的。还有一个变化就是对程序员很重要。以后开发 ai 工具的时候,你可以在任务中途调整 koala 的 指令了,不用从头再来了。我今天就实测用 office 四点八跑了一下我自己的自媒体 skill。 第一呢,就 koala, 它更适合改稿了, 你写了一段文案,它不仅是帮你润色,它更擅长判断哪里啰嗦了,哪里不像人话,哪里情绪不对,哪里节奏断了。 第二个就是 collude 呢,更保持我自己的风格,保留了我的语气和判断,更有人味了。第三呢,它更适合长内容。比如说,你要做一篇长文呢,一套选择题,一个系列的视频。 collude, 它更擅长接住上下文了, 不容易,聊着聊着就跑偏了。这对自媒体来说很重要,因为内容不是单挑包袱,而是一整套系统的表达。第四呢,它更愿意告诉你问题在哪。 g p t 五点五呢,很强,效率很高。但是, cologne 四点八,它明显强调了就是诚实和写作的能力, 它不会总是假装什么都没问题,它更愿意提醒你,哎,这个角度是不是太普通了?这个标题没有记忆点,这段逻辑不够顺,所以我觉得普通创作者你就可以这样选。 如果你想快速查资料,快速生成一版内容,五点五, gpt 五点五,很好了,足够了。但如果你想打磨一点观点,改一下口播,做个长文,统一一下风格, cloud office 四点八会更舒服。

今天 ai 圈最火的问题啊, cloud ops 四点八到底有没有真牛通一千万?起因是这样的,今天 azarpic 发布了号称全球最强的 ai 模型 cloud ops 四点八,有人问他你是谁?他居然回答他是通一千万。要知道,前不久 azarpic 还在坚决抵制 ai 真牛行为,结果他自己就干这种事情。 如果我们高呼美国大模型偷中国大模型确实很爽,但正好借这个机会讲一下数据污染和 ai 蒸馏。先说结论,虽然 cloud 的 office 四点八说它是通用千万,但是不代表 cloud 的 就一定蒸馏了千万。我之前说 ai 幻觉的那一期提过, ai 是 没有记忆的,也没有身份证,它就只是根据提示 以及上下文和训练数据,回答了一个最像答案的答案。所以这个事情呢,有三种可能性,一是 cloud 确实蒸馏了亲吻,二是 cloud 的 训练数据存在污染。三是以上两种情况都存在。先说数据污染,说人话就是大模型吃了不该吃的,或者吃了影响判断的数据。至于这些数据从哪来的呢? 之前的大模型训练几乎都是真实数据,比如 anserapic 之前买了很多本书进行扫描训练, koala 的 还引起了大量的版权纠纷。后来各家大模型训练的数据大多数是自己的 ai 或者是别人的 ai 生成的数据, 前者犯错的几率是比较小的,但是用后者来训练,那就很容易产生错误了。引起 ai 产生错误的训练数据,就是数据污染。再看一下什么是 ai 真流。 ai 真流其实也不复杂,你 可以理解成一个强模型当老师,一个弱模型当学生,老师生成大量的答案,学生拿这些答案去学,最后学生虽然没有老师那么大那么贵,但是也能够学到大部分老师的能力,这就是 ai 真流。 ai 真流技术本身是不犯法的,而且目前几乎所有的 ai 都在做。这次卡尔的舆论为什么这么大, 其实就是因为它的双标,目前的 ai 行业早就进入了相互学习,相互污染,相互模仿的时代,也正因为这样, cloud 这次自称是千万才有意思,它未必证明了 astonropic 真流了千万,但是它确实暴露了一个更大的问题,今天的大模型能力的来源越来越说不清了。 ai 行业目前最尴尬的地方就是所有的 ai 都在用别人的知识训练自己,但所有的 ai 又都不希望自己的模型被别人拿去训练,所有人都说自己是在学习,但当别人学习自己的时候,又会说对方是在偷,这不是某一家公司的问题啊,这是目前整个 ai 行业都在面对的问题。

opus 四点八更新了,一句话讲清楚它更新了啥。这次它更适配企业的生产环境,也更像一位可靠的 ai 同事。 官方把它描述为 opus 四点七的升级版,重点提升方向包括编码、代理任务、推理能力和实际的知识工作。 也就是说,他不是单纯为了聊天更自然,而是面向真实的环境。这意味着 astopic 的 策略很明确,不靠涨价讲故事,而是用同样的基础价格把更可靠的能力 推给开发者和企业。那么,能力具体提升在哪里? opass 四点八的提升可以拆为四个方向,编码方面,它更适合复杂代码库和多工具调用。对开发者来说,这不是帮我写一个函数,而是帮我理解一个工程,然后完成一组修改。 代理任务方面,官方和早期测试反馈都提到它更会追问,更会发现计划里的问题,也更愿意在行动前确认不确定点。 推理方面呢,四点八在复杂知识工作和实际任务上表现比四点七更进一步。最后是真实工作,这是最关键的模型能力的竞争正在从谁回答的漂亮转向 谁能更稳定的把事情做完。而要稳定的做完事情,最重要的是可信,还有诚实度。 astopolik 这次特别强调了诚实度。换句话说, opus 四点八不只是更强,他也更愿意承认自己不知道,更愿意指出不确定性,更少把薄弱证据包装成为确定结论。 在真实工作里,这一点非常重要,因为 ai 最大的问题往往不是不会生成,而是生成的很像真的结果,还要人类花大量时间反攻和排查。 官方还提到,在代码缺陷方面,相比上一代, opus 四点八更不容易,让自己写出来的代码问题未经提示就溜过去。所以它的产品价值不是什么永远正确,而是更像一个知道什么时候该停下来确认的协作者。 这种可能性直接服务于 cloud code 的 新工作流。 cloud code 这次新增的 dynamic workflows 是 整次发布里最像生产力工具的部分。它的逻辑是, cloud 不 只是接一个任务然后回答,而是先规划任务,再把大任务拆成多个子任务并行运行。 sub agents, 最后验证得出, 再面向客户汇报。官方给出的典型场景是大型代码库迁移,甚至是数万行代码级别的任务,从 kickoff 到 major, 中间由 cloud 规划执行验证。这说明 cloud code 的 定位正在发生变化。以前我们说 ai 帮我改一段代码,现在更接近 ai 帮我跑一段工程流程。 但长任务和复杂任务会消耗更多的推理资源,所以 astropy 同样给了用户一个控制旋钮。 a for 空隙可以理解为模型思考深度控制。在 cloud 点, ai 和 co work 里, 用户可以选择让 cloud 投入多少 effort, 低 effort 更快,也更省额度。高 effort 更适合复杂任务,因为模型会投入更多的推理过程。 opus 四点八默认是 high effort。 对 于困难任务和长时间异步工作,官方建议使用 extra, 这背后的变化很重要,模型能力不再是一个固定开关,而是可以按任务难度 调节的资源,简单问题不用重推理,复杂任务则用更深的思考换取更少返工。除了用户测的 eiffel, 开发者测也有一组新的运行控制能力, 那就是价格。常规价格方面, oppo 四点八与四点七保持一致,输入每百万 token 五美元,输出每百万 token 二十五美元。 fast mode 是 另一档速度优先模式,官方称它可以达到二点五倍速度,价格是每百万输入 token 十美元,每百万输出 token 五十美元, 并且比此前模型的 fast mode 便宜三倍。 api 方面,开发者可以通过 cloud opus 四点八调用。与此同时, message api 支持 system interest, 让开发者可以在长任务中更新权限、托管预算和环境上下文。这说明 astopic 不 只是发布了一个模型,而是在补齐模型运行时的控制面。把这些功能放在一起看,四点八背后其实是一套代理平台。 dynamic workflows 解决的是大任务怎么拆、怎么并行,怎么验证 effort 空隙,解决的是不同任务投入多少思考资源。 system interest 解决的是长任务中如何更新运行上下文, fast move 解决的是速度优先场景, 这些能力单独看都是功能点再组合在一起,它们组成的是一个更完整的代理平台。也就是说, historic 的 方向不只是让 cloud 更会说话,而是让 cloud 更适合被切入真实工作。业务流程、工程流程 和支持工作流程,这也是 opus 四点八和普通模型升级最大的区别。所以这次报道的核心口径可以收数成一句话 就是让人少操心,哎,这句话听起来很朴素,但很接近我们真实生产环境的要求,企业不缺一个能生成长答案的模型,企业缺的是一个能少犯错、会确认、会验证、会稳定跑完复杂流程的模型。 所以我们可以这样理解 opus 四点八,它是把可能性、速度、档位、思考深度、并行代理和 api 控制面组合成一套新的生产力系统。这也说明 ai 模型竞争正在进入下一个阶段,从谁更会说进入,谁更能稳定把事情做完。最后总结一下, cloud opus 四点八的价值不只是更聪明,而是更能做。 它把模型能力、 cloud code a for 控制器、 fast mode 和 api 运行控制都放在同一条产品线上了。对于用户来说,它更像一个可靠的 ai 同事。对于开发者来说,它更像一套可以嵌进工作流的智能基础设施。

cloud opus 四点八我已经体验了,说实话并没有感觉到和四点七有什么差别, 但是呢,这个不是 cloud 的 问题,这个是我的问题,因为我日常是做这个 ai 企业应用落地的,现在根本用不到那些这个高精尖的东西。 所以呢,他说的这个可乐四点八,他这个出错率很少,这个低,这个叫什么?呃,这个低质量代码率很少等等等等,我根本就体验不到的,因为我的客户的需求其实是很简单的,对吧?就是做他们自己的内部的管理系统,或者说外部的自动化系统,大部分都是这个样子的 啊。所以呢,就是哪怕是个可能我现在做的东西可能拿 deepsea 它也能做出来啊。但是呢,这些模型的进步对于我们来说意义是什么呢?我们就会在无形之中啊,我们做这个应用落地的,就会在无形之中会觉得它越来越越来越靠谱 啊。那比如说我以前用这个小龙虾的时候啊,用小龙虾那个时候还是 gpt 五点四吧, codex 啊, gpt 五点四, 然后那个时候我感觉我写一个程序啊,或者说做一个软件功能啊,反反复复可能要返工十次,二十次,能把它做出来,但是肯定能做出来, 对吧?现在呢?这个 cloud 四点七的时候啊, oppo 四点七的时候,我可能是这个跟它只要描述清楚了, 然后呢,他估计调个两三轮他就能出来啊。对于我们来说,其实这个模型的提升并不是说我们以前什么东西不能做的突然能做了,而是说让我们的工作效率大大提升。 所以呢,如果我们是做落地应用的话,那么没有必要去关注这些前沿技术,对吧?我们就享受他后面给我们带来的效率提升就好了。

最近抖音上关于 cloud opus 四四点八的视频突然多了起来,有人说他偷偷升级了,有人说他重新拿回全球第一,也有人上手测完之后说强是强,但还没到闭眼吹的程度。那 cloud opus 四点八到底火在哪?我觉得这次的重点不只是模型变强了,而是 ai 的 工作方式变了。 以前我们用 ai 更多是在问答,你问一句,你让他写一段代码,他就给你一段代码,你让他写个文案,他就吐一篇文案。 但这次很多视频都提到了一个方向, cloud 不 只是会回答问题,他开始更像一个项目经理,你给他一个复杂任务,他不会只顾着往前写,而是会先拆任务, 哪些部分要分析,哪些部分要执行,哪些地方要检查,哪些结果要汇总,他会分步骤处理。这就像以前是你一个人加班,现在变成你带着一个小团队一起干活。所以 oppo 四点八真正让人兴奋的地方,不是他多会写几行代码,而是他更适合处理复杂任务。 比如视频里提到的十一天迁移七十五万行代码,这个说法听起来很夸张,但它背后真正想表达的是, ai 不 再只是帮你补一小段内容, 而是开始参与更长周期、更复杂的项目。这也是为什么很多人会把 oppo 四点八和 cloud code 多 agent dynamic workflows 放在一起讲。不过这里也要冷静一点, 热门视频里有很多说法听起来很猛,比如夺回第一、史诗级升级、真正王牌还没出来。这些话很适合传播,但不能全当结论。真正值得看的,还是上手实测。有人用 opps 四点八做小游戏、做卡牌游戏、写小说,结果怎么样?能做完成度也不低,但并不是一出手就完美, 游戏会有平衡问题,细节会出 bug, 小 说创作也没有一下子拉开特别夸张的差距。所以如果你期待它变成一个全自动打工神器,可能会失望。 更现实的判断是, cloud opus 四点八确实变强了,但它强在复杂任务的组织能力,而不是每一个小任务都碾压上一代。还有一个问题,绕不开成本。很多评论都在说 opus 好 是好,但 token 烧的太快,你让它多 a 针的协助长上下文分析,反复检查,效果当然会更好,但消耗也会明显上来。 这就像你请了一个高级顾问团队,它们能解决复杂问题,但不适合拿来处理所有小事。所以普通用户到底要不要用? 如果你只是写短文案、改标题、做简单问答,不一定非要追 oppo 四点八,便宜、快、够用的模型可能更适合。但如果你做的是复杂项目,比如代码重构、产品方案、长文档分析、多步骤任务,那 oppo 四点八这类模型的价值就会更明显。 这波 cloud opus 四点八的热度,表面上是在讨论一个新模型,但更深一层,其实是在讨论 ai 使用方式的变化。过去我们把 ai 当成一个聊天窗口,现在它开始变成一个能拆任务、挑资源、做检查的工作系统。所以真正值得关注的,不是 cloud opus 四点八是不是神, 而是从现在开始, ai 的 竞争已经不只是模型聪不聪明,而是谁能把复杂工作流程跑得更稳、更省、更可控。一句话总结, opus 四点八不是让 ai 突然无所不能, 它更像是让 ai 从一个会回答问题的助手,往一个能参与复杂项目的协助工具迈了一步。如果你只看热闹,会觉得它被吹得太悬,但如果你真的做项目,就会发现这个方向才是最值得盯的地方。

微软刚刚宣布放弃使用 cologold, 这是否是 ai 泡沫崩溃的前兆呢?从这次的消息来看呢,有两个原因,一个是公开的,一个是内部讨论的。公开的原因呢,很简单,就是微软希望所有的工程师从使用 cologold 转成自己的 cologold, 拍了它 使用 cologold 无疑视为竞争对手训练模型。内部原因说白了就是微软已经用不起 cologold 了。你想微软是一个年利润千亿美元,市值万亿的巨头,如果连它都用不起了,那普通人该怎么办呢? 而且现在使用 ai 并没有大规模赚钱,用 ai 做的东西呢,也是参差不齐,有各种风险和漏洞,如果连微软都撑不下去了,那么 ai 还会这样一直火下去吗?

android 发布了他们的最强模型 cloud of 四点八,老规矩,我不想跟你念参数,那我其实只关心一件事情,就每次新发模型,我们把它丢进真实的项目里面,它的干活质量到底怎么样? 那这一次这一个 cloud of 四点八新发布的模型啊,我刚测完,我反而觉得 gpt 五点五加 codex 的 组合还能打,为什么呢?看到这个视频最后你就懂了,不过这一次有个东西是真的有意思,就是它这个动态工作流在 cloud code 的 里面,就是你只要一句话, 带上 workflow 这个关键词, client code 当场就给你写一段脚本,然后咔的一下拉起一个几十个上百个 agent 的 舰队,一起去帮你干一件大事。 我们来看一下它整个运行的一个流程图大概是怎么样子的。从这个图片可以看到哈,就是当我们 client code 里面你写了一个 workflow, 它这个时候通过脚本,然后去给你并发各种 agent, 那我们可以看一下它这个脚本长什么样子哈,其实也比较简单,就是它有每个阶段嘛,就是你是 workflow 的 一个流程,每个阶段,比如这个阶段它要排查啊,这个时候可以看到它这个用了一个 await, 是 吧? await 去并行运行了多个 agent, 完事之后走到这里得到了结果,这时候就回到你的主要的对话里面,它又开始去 定型,去开始第二个阶段,再去掉各个 a 镜头,大概就这样的一个工作流的一个过程。下面的话到我们的一个实测环节,这次的话我们用了我的一个开源项目,就是 c c 杠,哈哈,它目前的话有十一点九 k 的 star 是 一个,就是把 curl code 的 卸载原代码补齐,做了一个桌面端,还有 c o i 的 一个 开项目嘛,那这个开项目的话最开始也一直是 gpt 五点五加 codex 去迭代的,那这一次的话, cloud of 四点八出来之后,我要去做一个新功能,我们本期的一个实测哈,就是要让我们这一个桌面端,它在它的右侧能够对我们本地的一些 服务,比如说你用 react 或者是 vue 写了一些本地服务,这个时候我们要去点击,让它在右侧展现出来,或者是本地的一些 html 要拦截这个行为, 并且我们右侧要有要有一个小的一个浏览器预览,而且能够像 codex a p p 一 样,能够就在在上面去选中一些按钮啊,标题啊,或者一些块儿啊,能够去做定位,而且还能够直达答案,让它去修改。 在 codex 聊天中,当它改了哪些文件,比如说是 html 呀, markdown 啊,其实你都可以去点击,点击完它会在右侧去预览,而且下面也有这种打开的方式,也整体的交互,就相对来说挺棒的嘛。在整个桌面端,我认为现在 codex a p p 就是 目前交互最好的在桌面端来看, 那下面我们来看一下这个 html 它是怎么做到整哪打哪的?可以看到这个时候我们不是打开了这一个我们这一期视频的这个 ppt 吗?那它这边有一个模式的话,就是你可以去去,这样有一个选择器可以去选嘛?比如说我选中这一块啊,这个时候我就可以用自然元描述啊,我觉得这一块的 ui 交互啊,文案不行, 那就可以通过这样的方式让他去改,可以看到他就对我们这一个图片这一块加了一个备注嘛,对不对?然后还有我们这块的信息整体就是这个交互的功能,然后还有的话就是这个截图啊,他这个截图已经保存到剪切板,我们可以用大概这样的一个流程, 我们就希望我们这 c c 刚哈哈也支持这个功能,并且也有人在我们的 github 要求里面提出来了要这个功能,那我们就试一下。那今天的话 我用了 gbt 五点五以及我们刚刚看到了 kalco 的 off 四点八去做这个任务,那这边的话也是给了它五张 codex a p p 它整体的一个交互流程,并且我们也是用了这一个 superpowers 的 一个头脑风暴模式,相关的一些提示词都是一样的。然后我们去测试这个任务,我们可以看到 codex 这边呢,它最终启动了四十三个, 呃,三部 a 镜呢?帮我们把这个任务完成了,所以效果怎么样?待会儿我们再来看。那我们回到就是 clock code 这边也是用了陀螺风暴 t s 也是一样啊,也是同样的,就是每个阶段让告诉他我们最终这个设计文档要做成什么样子。有了设计文档之后,他也是去 各种实盘刹不住 a 进的去做。那在 codex a p p 这边的话,它整体的这个消耗可以看到今天我是烧了五亿的 token, 那 对于刚刚我们那个任务,大概我估算了一下,大概有三亿 token 这样子吧。 cloud 这边的话也是今天一天就烧了我这个一百刀的百分之二十的一个额度吧,一天就烧了,没有做其他的 任务,基本上没做其他的任务。好,我们下面来看一下两边的一个实现情况如何。好,下面我们来看一下 cloud 桌面端加 cloud off, 四点八,他去帮我们写了这一个 c c 杠,哈哈,桌面端就右侧这个浏览器预览的功能。 那这边的话我也给了一个提示词,就是让他帮我们产出一个 markdown 的 一个内容以及 html, 再让他去写了一个本地的一个突突项目嘛,就是用 react 去写。那最终他这边写完了之后呢? 啊,可以看到这里其实是已经他这边做了一个监测,当然这块的交互其实没有 code app 原声那么好,当然他也做到了,我们来试一下哈,就是我们在运用浏览器打开 啊,可以看到这个,是不是已经可以去看到这个这个网页这个预览效果了?那我们可以看一下截图功能,点一下可以看到这边其实也是可以用的嘛,是不是?那第二个的话比较关键,就是他这个检查元素嘛,可以看到他也是完成了,是不是?比如说我们就说这个按钮,我们就在这让他告诉他啊,我需要把这个按钮改成 就是这一个网页的主题色,你帮我改一下。另外的话,当前这个按钮的这一个 border 这些我也不是很喜欢,你去调整一下。 好,我们来去确定,你可以看到这边它就已经帮我们把这个东西做过去了,就是把截图嘛,就我们刚看到 codex app 那 边的一个交互,交互过去了,我们就可以去让它去做做这个事情。 那下面的话就是其他的一些功能哈,其他一些功能的话就是它可以在这边,比如说我们这是一个 markdown 的 内容嘛,所以说你可以在工作台去预览,基本上就是把那边实现了一遍。 其实整体实现还是挺复杂的,可以看到 codex 那 边他完成这个任务他都开了四十多个 java agent。 那 cloud 这边其实我没去统计,因为它这个过程没有像 codex app 那 边那么直接, 整体的效果其实完成度还可以,当然还有一些细节优化的点。好,我们来看一下扣贷 app 跟我们完成同样的功能,他是做的怎样子的?可以看到他在这一块, 在这一个行内,其实就帮我们把这一个要预览的这一个,呃,本地的地址啊,还有你的 markdown 啊, html 都做出来了,其实这块交互我觉得会稍微好一些。那么点过去看一下可不可以用,那可以看到都是同一个页面吗?是可以用的,刚刚我们说改按钮那个他其实已经改好了,是不是?那么看一下他这个截图可以用吗? 这个截图这个方式是这样子,它不是像呃 cloud code 实现那样子,是放一个图片在这里, cloud code 那 边会好一些。好,我们来试一下它这个定位也是可以的,可以看下,也是能选择某一个。我们选到这一块说一下,这个文字太大了,改小一点,字号改小一点, ok, 可以 看到它这个其实完成度也挺好的。那现在的话,其实我也没有想清楚,到底是把 gbt 五点五生成的这个核到我们的这个主干里面,还是说把 cloud 那 边去核一下?我可能会把 cloud 那 边的这一些 open 这边的加过来,然后用用 gbt 五点五的这种这种样式,最终把两个合起来,得到一个比较好的一个交互方式。那再看一下吧,从我四月份发布以来,就是从它泄露原代码,再加上我们做这个桌面端嘛, 一行代码的微信百分之八十的代码都是 gpt 五点五加这个 qd 写完的。可以看到我今天除了写这个项目以外,还做了其他一些功能。那下一个版本也在,应该是明天就会发布了,我需要去做一些就测试嘛,可以看到它真的是非常非常的好用,而且最关键啊,它不封号 是不是?那你如果是用呃 cloud 的 话,就是真的特别容易封号,我已经被封了四个了。好,下面我们来做一个总结。对于大多数人而言,我还是推荐你选择 qd 加 gpt 五点五。为什么? 你看我老婆这种律师哈,她现在都已经用上 codex 加 gpt 五点五来帮助她在平时的工作中进行赋能。打个比方,她平时有很多需要去操作 word 呀,然后 excel 啊,还有去填一些表单,这个是完全是可以用啊, gpt 五 点五加 codex 去做。再让我不最近也给她做了一个就是律师相关的一个工具嘛,因为她有她们有很多资料,其实都是需要在本地去操作,就是不能上云嘛, 比如说你像客户管理啊,还有一些合并 pdf 啊,这些都是可以照本地去做的。你说像这种工具,直接用 codex 去做,让它去描述你的需求,然后用那个就是一个 go 的 模式嘛,让它去做,完事之后再让它用 computer user 自己去测,它会自己去 啊,写完之后 build 出来这一个桌面的 app, 然后如果你看像我们这种不是需要去选择 pdf 嘛,对不对?如果你需要去选择 pdf, 它还会自己去打开这个,就像我们一样去打开,打开完了之后 去选择,然后去帮你去压缩,做这种合并,各种都可以做到。所以我为什么会推荐大家去使用这个呢?而且等待下一代模型发布的时候,它会更强。还有最重要一点嘛,就是 g p t 五点五, 你正常人用它一般不怎么封号,那 cloud off 四点八这边也挺强的,但是呢,它的门槛就会高一些,并且它的这个桌面段哈,它这个桌面段体验其实相对来说还是差, codex 会差一些,如果你这两个都用不了, 那你也可以用,就是我的这个开源项目就是 c c 杠,哈哈,这个开源项目也是开源免费的,也没有任何的一个门槛。你也可以用,就是各种国内的模型嘛,比如说你可以用 deepsea 呀,你看我这边其实都有,就 deepsea 呀,或者你可以用小米的呀,或者是智普,你都可以。那它基本上内核它也是 clio 的 本身嘛, ci 的 本身 功能我也在迭代,就看大家自己怎么样个选择。 ok, 不 管是 off 四点七四点八,它整体的这个发布啊,没有给我很惊艳的感觉,没有上一代从四点五到四点六的那个惊艳感, 那还是倾向于就是 g p d 五点六的一个发布,看它到底会带来怎样的改变?我现在基本上已经离不开 codex 这个 app 了,我最近真的狂用。我刚也给大家看了一下我的一个 token 消耗,最近一个月吧消耗了大概一百亿 token, 一 万多刀的一个消耗, 最近就是狂用,特别特别好用,而且运行起来也非常的方便。但是它也有一个问题,就是它容易内存泄露,我六十四 g 的 内存它有时候都能给我干嘛,就理解不了到底在干嘛。 ok, 那 这就是本期视频所有内容了,如果大家觉得这视频做的不错,可以给我一键三连,我是阿建,我们下期见。拜拜。

最近很多朋友问我, cloud 桌面端更新版本以后,原来配置好的第三方 api 突然不能用了?如果你之前已经跟着我的教学视频学会了如何在 cloud 桌面端接入国产大模型,并且已经正常体验过一段时间,那这期视频就是帮你解决更新后失效的问题。 如果你还没有用过 cloud 桌面端,或者还不知道怎么接入国产大模型,大家可以先去看我前面的教程,把基础环境配置好,再回来看这期解决方法。简单来说,最近的问题主要出现在 cloud 桌面端更新之后,新版本对模型调用环境做了一些限制,导致之前配置好的第三方 api 出现失效、报错或者无法连接的情况, 烦死了。网上现在也有很多解决方案,比如修改客户端文件、重装旧版本、禁止自动更新等等,但这些方法要么操作麻烦,要么存在一定风险,比如版本回退后功能不完整,安全性下降,或者后续自动更新失效。所以今天这期视频 给大家分享一个更简单更稳妥的方法,不需要改 cloud 客户端文件,不需要重装旧版本,也不用写复杂代码,只需要在 mac 终端里配置一条环境变量,就可以解决 cloud 桌面端更新后第三方 api 无法正常使用的问题。整个过程非常简单,基本上复制一行命令就能完成。 首先打开 mac 自带的终端,然后输入第一行命令, been launched second noden production。 这行命令的作用是把系统里的运行环境变量设置为生产环境,也没有报错,就说明这一步基本已经成功了。接下来我们再输入第二行命令,用来检查刚才的环境变量是否已经生效。 been launched getting noden, 如果终端输出 production, 就 说明设置成功了。设置完成以后,关闭 cloud 桌面端,然后重新打开,重新进入之后再测试你原来的第三方 api 配置。总结下来就是,先退出 cloud 桌面端,打开终端输入指令, 再次打开就可以正常使用了。如果我的视频有帮到大家,希望大家可以关注、点赞、收藏,后面我会继续更新 cloud i 编程工具、国产大模型接入和本地模型相关的使用教程。

cloud 的 参数量二十五 t? 刚刷到这消息时,我手一抖,差点把咖啡泼在键盘上,结果点开 arcsea 一 看,那篇论文五月初就撤了。作者自己写的撤稿声明里清清楚楚门控延迟建模漏了建值缓存压缩, flesh attention 第三代优化以及硬件预取,高估了整整十倍。 不是谣言,是误判。 ml proof v 四点一,实测数据摆在这儿, cloud op 四点七,在 h 一 百级群上跑一 k tokens 百分之九十九请求的延迟是一百二十七毫秒。 套用业界通用的延迟参数公式,反推激活参数约八十二 b, 总参数落在三点八 n 四点六 t 之间。 entropy 自己发的 architecture deep dive 也对得上四千零九十六个专家每次处理一个次元时,激活其中十六个。 每个专家的前馈网络隐藏层维度是一万两千两百八十八,算下来就是四点 e t 没玄学,全是可复现的数字,而国产模型早过了有没有 e t 的 阶段?现在比的是谁更扎实的踩在陈希拉帕累托前沿上?有意思的是,中美走的压根不是一条路。 antropic 在 赌 scaling law 的 相变点堆到十 t 级,看能不能撞出新涌现能力。国产团队呢,是在算力受限 h 一 百实际可用率不到四成的现实里,硬生生把有效 flops token 数据质量商值垂愈适配效率全拉到极限。比如 deepsea v 四 pro 的 键值缓存压缩率达到九点三倍, h 一 百方案才六点一倍。智普 g r m 五点一,用分层稀疏训练,底层十二层使用完整参数,上层二十四层仅激活效果最好的前三个专家训练, flops 降了百分之三十七,损失只涨零点零二。 再看数据策略 antropic, 百分之六十靠合成数据,国产头部百分之九十二用真实语料,中文政务、金融、医疗、工业文档,不炫技,但管用。至于那个被反复拎出来的矩阵文案 c u d, 确实还在用卡布拉斯调优的朴素 g e m m 不是不想换,是 strasin 在 gpu 上实测反而慢一点八点三点二倍。 mit 和 ets 今年三月把理论下界从二点一六八零五推到二点一五三七二挺好, 但算法要输入规模大于十的一万次方,这比当前所有 l l m 训练数据总量还要高出四十多个数量级才显优势。 l l m 的 d 等于幺二二八八,续列长两百五十六 k, 离那个 n 还差着四十多个数量级。陈七拉公式本身也在被修正。 deepmind 和伯克利四月 i c m l 论文直接指出,当数据量超过八万亿次元后,模型规模与数据量之间的理论平衡关系就基本饱和了。不是模型不进步,是高质量,语料真没了。这时候拼得早,不是为多少数据,而是怎么筛、怎么对齐、怎么去读。所以你看参数,数字之争,其实早就悄悄退场了。 现在真正较劲的地方,是芯片缝隙里的计算密度,是雨料库深处的数据商值,是你把模型塞进车机政务终端工厂 plc 时,它还能不能稳稳答对那道题?不是谁更大,而是谁更准、更省、更抗用。

昨天 entropic 发了 cloud opus 四点八和 dynamic workflows。 opus 四点八是 entropic 旗舰模型的一次点版本升级,价格和四点七完全相同, 五美元输入美元,二十五输出每百万 token。 这次核心更新有三块模型本质的判断力和诚实度提升, dynamic workflows 以及用户可以手动控制思考。深度模型诚实度这块有一个具体数字代码缺陷,漏报率比四点七 低了约四倍。也就是说,他更愿意主动告诉你代码有问题,而不是假装完成任务。 opace 四点八同时是推理模型, 支持深度思考,也是多模态模型,支持图像和文档输入。要理解 dynamic workflows 解决什么问题,先说现有 agent 的 根本限制。一、 ai 经常假装完成做抠定 agent 任务时,代码里有 bug, 但不说给用户一种虚假的完成感,这是影响 agent 可信度的根本问题。二,大任务做不了。你用 cloud 或者任何 ai agent 做一个复杂任务的时候, 会遇到这个情况,任务做到一半挂掉了,或者 a n t 开始绕圈子,或者你需要手动把大任务拆成几十个小任务一个个喂给他。根本原因是上下文窗口。普通的 do agent 方案,不管是 autodg p t 还是 kimi 蜂群,工作方式是这样的,就 agent 派一个字 agent 去干活, 子 agent 干完把结果返回给主 agent, 主 agent 读完结果再决定派下一个问题在哪。每个子 agent 的 输出都要塞回主 agent 的 上下文,十个子 agent, 哪怕每个只输出一千 token, 就是 一万 token 的 中间数据,一百个子 agent 就是 十万 上下文,很快就满了,任务就崩了。这是所有现有多 a 阵的方案的共同问题,不是哪家产品的问题,是架构本身的限制。 dynamic workflows 换了一个思路,把中间状态从上下文里移出去,存到外部脚本里。具体怎么做的, 你给 cloudy 一个任务描述, cloud 不是 直接开始做,而是先写一段 javascript 脚本,把整个编排逻辑循环分支并行全写进代码,然后这段脚本交给一个独立的,运行时在后台执行。执行过程中,脚本自己调度子 agent 干活,子 agent 的 输出存在脚本的变量里, 不进主 agent 的 上下文,所有子 agent 的 跑完,只有最终汇总的结论回到主 agent, 这就是为什么它能跑几百个子 agent 而不崩。中间那几十万 token 的 数据根本没有进对话,上下文并发上线是十六个单次,最多一千个。子 agent 脚本跑在你自己的电脑上,不是 antripic 的 服务器, 和第三方 a p i 没关系。这里可能有人会问,这和 n 八 n coseda 那 些工作流工具有什么区别?本质上都是确定性流程编排, l l m 只在节点内部干活。但有两个关键区别,第一,载体不同, n 八 n 那 些事可示画 d a g, 你 先画好一张流程图再跑。 dynamic workflows 能写循环,写动态分支流程图做不到这些。举个例子,一直找 bug, 直到连续两轮都没有新增。这是一个 y o 循环, 可是化低 a g 表达不了。第二,作者不同, n 八 n 是 人工搭流程。 dynamic workflows 是 cloud 根据你的任务描述现场写脚本,针对这次任务量身生成, 不需要你提前设计,和普通多 agent 的 区别更直接。普通多 agent 中间结果全进上下文, dynamic workflows 中间结果住在脚本变量里,这是架构上的根本差异, 不是功能多少的问题。讲真实案例,第一个帮论,作者用三个串联 workflow 生命周期映射数百 agent 并行文件移植变异测试, fix loop, 一 直跑到全部通过,结果 七十五万行 roost 的 代码十一天百分之九十九点八元有测试通过,这个规模在普通多 agent 器下根本跑不完, 上下文早就满了。第二个数据,一个用户用十个字 agent 并行分析,一百三十三个历史绘画生成使用画像报告,八十一点八万 token, 两百五十四秒成本是真实存在的。 dynamic workflows 比普通对话稍 token 多得多,怎么开始使用?首先, 版本要求是 cloud code v 二点一点一五四或更高,先升级,然后 model 确认 dynamic workflows 是 开启状态, max 和 team 计划默认开启。 pro 需要手动打开,触发方式有三种,第一,在 prompt 里说 workflow, cloud code 会自动识别。第二,输入 effort ultra code, 让 cloud 自己判断要不要起工作流。第三, 用内置的 deep research, 加上你的问题就是零门槛的入口,多个 agent 并行联网搜索加交叉验证,什么都不用,准备直接跑,现在直接演示。我用的是 deep research 这个内置工作流。问题是二零二六年五月 ai coding agent 最新进展和各家产品对比, 这种问题必须联网回答,他没法靠自己的知识库应付,会触发多 agent 并行搜索命令输进去之后注意看他怎么拆任务,他自己判断需要起四个 agent, 每个负责不同的方向。这个分工不是我配置 的,是 cloud 根据问题现场决定的。这就是 dynamic workflows 和普通对话最直观的区别。普通对话是一步一步串行,这里是几个方向同时在跑。现在这几个 agent 在 并行工作,中间结果存在脚本变量里, 不会回到主对话的上下文,等他们全跑完,只有最终汇总的报告会回来。他把来源交叉验证了,这是单个 agent 搜索做不到的,一个 agent 容易被某一个来源带偏,多路搜索加交叉验证才能逼近事实。有几个限制要清楚, 跑起来中途不能插手,退出 colodico 的 就得从头跑,不能跨绘画恢复高风险代码改动不要用支付权限,这类不适合。 dynamic workflows 这套东西的核心价值不是 ai 更智能了,是把编排逻辑从模型的临场发挥变成了可控的代码资产,它依赖前沿模型的能力。 opis 四点八乘十度的提升是这套交叉验证机制能成立的前提。值不值得现在就上手。如果你是 cloud code 的 max 用户,先跑一个 deep research, 感受一下多 agent 并行是什么体验,再考虑更复杂的场景。希望本期视频对您有所帮助,我们下期再见。

hi, 大家好,就在昨天, cloud opus 四点八出来了,上一个版本四点七才过了四十一天。四十一天很多人四点七还没用熟呢哈,它就已经不是最新版本了 啊,这家公司大家都知道啊,是 sarpic 啊,他做的这个 ai 产品叫做 club。 嗯,他一直在跟这个叉二 gpt 啊,扳手腕。就在这两天啊,他们刚刚融了六百五十亿美元啊,换算过来差不多是啊,一万亿人民币吧,然后这个融资刚完,新模型就来了,这帮人根本停不下来哈, 先说说啊,这个 opus 啊,四点八到底升级了什么啊?这个四点七呢,有一个让程序员特别头疼的问题呢,就是他啊,特别爱拍胸脯啊,你让他写代码,他写完跟你说啊,没问题啊,直接跑就行了 啊,结果你一跑直接报错啊,你让他修 bug, 他 说修好了啊,你跑一遍啊,那个 bug 还在 四点八呢,就据说就是把这个给改了啊,他现在写完会主动跟你说啊。嗯,这里我不太确定啊,你最好跑个测试确认一下啊。听上去好像变笨了啊,但其实是变老实了,官方数据说啊,代码有问题,但装没问题的概率啊,直接降了四倍哇, 第二个升级更猛啊,叫做动态工作流,就是你交给他一个大的任务啊,他自己会拆分分列出几百个分身同时干啊,几百个 sub a 人干完还会互相检查有没有出错,最后打包给 你。有人用它把七十五万行代码啊,这么多哈,十一天全部迁移完,通过率九十九点八,同样的活啊,人来做,我觉得起码啊,半年起步吧。 最后再说说大家关心的问题啊,这个价格怎么样?标准版啊,他跟四点七一样,并没有涨,但有个更大的惊喜, 就之前有一个快速模式啊,速度快,大概两点五倍吧,据说,但价格呢,他是普通版的六倍啊,就是大家都一直在骂哈,这次直接给你砍到了两倍啊,从六倍到两倍,速度还是那个速度啊,但价格少了三分之二,听起来很不错 啊,有人就问呢啊,他突然为啥突然降呢啊?因为这一周他们同时拿下了亚马逊、谷歌、 spacex 三家的算力啊,服务器多了啊,这,这个成本就下来了。 好,接下来说一件呃,我觉得挺有意思的事情啊,这个模型刚上线,就有人发现了一个问题啊,用 api 直接问他,你是什么模型啊,有的时候回答自己是 deepsea 啊,就是不说自己是 cloud 啊, 这,这是咋回事呢?我觉得可能大家多少知道一些啊,就是啊,在 ai 圈有个技术叫做真流通,俗说就是用 a 的 答案去训练 b 啊, b 学多了,连自我认知都跟着 a 走啊。嗯,就好比你一直抄同桌的作业啊,抄到最后交卷名字都写成人家的了。 最搞笑的是呢, ansarpic 之前一直对外啊,投诉啊,说别的公司偷用 cloud 的 数据训练自己的模型,态度还非常的强硬啊,结果这次啊,自己被大家怀疑干了同样的事情啊,而且用的是中国的开源模型。 目前 ansarpic 并没有回应啊,不过说实话啊,这个 qwind 跟 deepsea 都是开源的对吧,所以用他们的数据训练是合法的啊,这件事情不存在法律问题啊,就是可能脸上有点挂不住, 所以你看看吧。这次更新啊,我觉得能力是升级了,价格也是真降了。嗯,但上线第一天就被人抓住,连自己是谁都说不清楚啊。 这个四十一天一个版本啊你,你们就可以想象 ai 这条赛道卷到什么程度啊?评论区告诉我,你觉得它真流吗?欢迎大家一起讨论。