cloud ops 四点八封神?还是欺诈 拆穿 antropok 最危险的一次豪赌?大家好,我是 ai 启示录。就在二零二六年五月二十九日,过去四十八小时,全球 ai 圈被一颗炸弹炸成了两半。 antropok 深夜发布 cloud ops 四点八,同时宣布以九千六百五十亿美元估值完成六百五十亿美元融资。 六十二天前, openai 的 八千五百二十亿估值被一脚踩在脚下,但紧接着发生的事情让所有围观者后背发凉。科技界分裂成两个阵营,一方高呼封神,另一方公开拆台。同一个模型,为什么会出现两种截然相反的审判? 这根本不是一次普通的产品发布,这是 entropic 在 资本、技术和信任三线同时发起的豪赌,而赌注是你对智能的感知。时间倒回,北京时间五月二十九日凌晨, entropic 官方博客悄无声息地更新了一行字, cloud opus 四点八,即日起可用。这不是一个常规升级, opus 四点八被定位为更强大的复杂任务,模型编程、智能体任务、长时间推理。更狠的是,官方在文末轻描淡写的补了一句,代号 mesos 的 下一代旗舰几周内即将面世。 与此同时, antropica 放出两条财务炸弹,估值九千六百五十亿美元,融资六百五十亿美元。这是什么概念? 六十二天前, openai 刚以八千五百二十亿美元估值完成融资, antropic 不 仅反超,而且直接把差距拉到一千一百三十亿美元。 但真正让人细思极恐的是,实测之后的分裂。一方是以评测媒体 every 和部分硬核生产力用户为首的狂热派 every 团队经过一周深度测试后,给出了一个近乎失控的结论,这是我们测试过的最强模型,它简直是个怪物, antropic 完全可以直接叫它 opus 五, 根本不会有人有意义。他们声称 open 四点八是最全面、最接近人类灵魂与顶尖工程师结合体的模型。另一方是以 rubicon rails 创始人 d h reddis 支付 antiser 为代表的开发者老炮 d h 直接在社交网络上开火。 自从用了 gpt 五点五之后,他经历了无数次震撼时刻,这在 cloud 的 阵营已经很久没有体会到了。 enteris 更尖锐,他认为 anthropic 在 精准测试的宣传上犯了重大错误,跑分虽然险胜,但实际编码体感依然落后。 同一个模型一边封神,一边被公开拆台,这到底是怎么回事?让我们一层一层撕开。先抛出一个颠覆性结论, opus 四点八不是一次技术跃迁,而是一场精心设计的认知欺诈。他的真实面目是一个被算力堆砌出来的分裂人格, 在极高的推理强度下,他是顶尖工程师,在普通强度下,他瞬间退化成平庸马农。这种分裂不是技术缺陷,而是商业策略。 and theta 再用一种极其隐蔽的方式把你按智商分级,然后收割。你以为你买到了智能?不,你买到的是一张分级门票。 先来看艾瑞发布的高级工程师精准测试,在超高强度模式下, opus 四点八拿下六十三分,比上一代 opus 四点七暴涨三十分,以一分优势险胜 gpt 五点五的六十二分,艾瑞团队还让他重构一个生产级代码库,结果完美运行。这组数据看起来无懈可击,对吗? 但网友 higer 挖出了一个致命细节,我注意到了一个现象,四点八在低强度下消耗的 token 几乎和四点六在高强度下一样多。 gpt 五点五倾向于用更少的 token 拿到更高的分数,而四点八似乎走向了反面,它在用海量的 token 堆砌。智能 翻译成大白话, oppo 四点八的高分是用巨额算力硬砸出来的,它不像 gpt 五点五那样举重若轻,而是用暴力计算换精度。 这就解释了为什么评测机构必须把强度拉到 extra high 才能看到那个六十三分的资深工程师,一旦降级到 high, 编码得分瞬间暴跌至四十二分,秒变平庸。马农写作测试也一样, medium 档位下的 oppo 四点八暴露出 ai 最糟糕的套路化写作恶习,只有拉到 high 档位才文笔优雅。 一个模型三个档位三个智商,你品一下。更重要的是, d h 和 antrizona 公开拆台,打中了 antropica 最脆弱的地方。 antrizona 的 论坛极其锋利,过去的厂商比拼,往往拿新一代模型和自己的上一代比, 但 antropica 非要和 gpt 五点五比。问题在于,现在全网的题感是, gpt 五点五写代码的能力非常非常强悍。当你 antropica 拿着一张图表告诉大家,你的 op 四点八跑分比 gpt 五点五还高, 但我们用起来却觉得并非如此时,你不仅不能证明你更强,反而会让用户觉得你们的精准测试是在自娱自乐,彻底失去公信力。网友 aditi 的 吐槽更直接, 用了快一个小时的 oppo 四点八,它根本不值得炒作,几个很普通的工程任务它全搞砸了,前端领域也感到失落,用了几个小时四点八,感觉还不如四点七顺手。 这印证了一个残酷的现实,当跑分与体感脱节,跑分就变成了一堆废纸。而 enter public 这次亲手把自己的精准测试推上了审判席,就算模型本身有实力,套在它外面的那层壳也在严重拖后腿。大牛工程师 anthony kogan 的 评价一针见血, 一个模型的好坏取决于套在它外面的那层壳,而 oppo 四点八的壳几乎可以用灾难来形容。 多位深度评测者指出, cloud 桌面端的 chat、 code、 call、 work 三个独立标签页分割的混乱不堪,被戏称为带着时间推移的伤疤和 antropic 内部组织架构图的缩影。 相比之下, openai 的 codex 桌面端应用被公认为干净、快速,让人感觉这就是未来。更致命的是, rate limits 由于高强度模式极度消耗资源,大量订阅了两百美元每月 max 套餐的高端用户反馈,在运行复杂 agent 任务时,常常几个小时就会撞上额度墙。 网友 bridgemind 的 直言,自己为了测试,连续烧穿了两个两百美元的账号,这意味着什么?你想体验那个六十三分的 opus 四点八就得付两百美元月费,然后几个小时就被限额卡死。你想继续测,再烧一个账号?这哪是订阅制,这是按智力等级收费的饥饿游戏。 这场争论的高潮是一张 astropica 自己制作的官方发布图,眼尖的网友 aikashgupta 发现了一个极不寻常的细节。 在 anthropic 发布的各模型能力对比图中,在 terminal coding 这一项上, gpt 五点五的成绩是百分之七十八点二,而 opus 四点八只有百分之七十四点六。正常情况下,任何一家大厂的公关部都会把输掉的测试项悄悄从 ppt 上抹去, 但 antropic 没有。他们不仅把失败留在了图标上,甚至还主动把 g p t 五点五那代表胜利的百分之七十八点二做了加粗处理。 a o cash 对 此大加赞赏,认为这显示出 opus 四点八的核心卖点,诚实。 官方数据还显示,四点八在代码中留下缺陷却不声张的概率比四点七降低了四倍,但 d h 和 antirez 完全不吃这套。 antirez 指出, antropic 这次把 g b t 五点五放在同一张图里对比,犯了一个重大的战略错误。 当你试图证明自己更强,但用户的体感是你在自娱自乐时,你的攻心力就会瞬间崩塌。这一步棋的真正杀机在于, antropic 赌的是诚实这个差异化定位,但代价是暴露了自己的不自信。 一个真正领先的模型,不需要通过加粗对手的迎面来证明自己诚实。为什么 opus 四点八会呈现出如此复杂矛盾的评价?一个不容忽视的数据是, opus 四点八距离上一代四点七的发布仅仅隔了六个星期, 这是 antropics 历史上最快的一次大版本迭代,此前每个 opus 版本的间隔至少在十周以上。资深观察家 bridge mind 的 一针见血地指出了真相, 这完全是一次仓促的发布,因为 gpt 五点五正在疯狂蚕食市场份额。顺着这条线往下挖,一个更加庞大的资本网络逐渐清晰。 anarchic 刚完成六百五十亿美元融资,估值九千六百五十亿,这个数字恰好踩在 openai 的 八千五百二十亿之上,就差把我比你大写在脸上。但问题在于,资本市场需要故事,如果你不能在融资后立刻交出令人震撼的产品,估值就会变成空中楼阁。 gpt 五点五的发布,已经让 openai 重新夺回了舆论高地。 entropic 等不了完美的 missiles, 只能先把 opos 四点八推出来当创可贴,修补四点七的毛病,去几个 a 阵的榜单上刷存在感,维持一个我们还在战斗的形象, 真正的杀招是几周内即将面世的 myos。 但这句话本身就透着一股仓皇,一边说 opos 四点八是旗舰,一边又说 myos 才是真正的质变。 那 opus 四点八算什么?过渡频还是炮灰?现在让我们把五层拆解串起来,你会发现一个让人后背发凉的结论, opus 四点八不是一次技术发布,而是一场资本驱动的认知分级实验。 它的神奇表现被锁死在 extra high 强度档位,而这个档位需要订阅两百美元每月的 max 套餐,且几个小时就会撞上 rate limits。 这意味着绝大多数普通用户根本体验不到那个六十三分的工程师,你买到的只是一个四十二分的平庸马农,这不就是变相的智商税吗? 你以为你订阅了旗舰模型,实际上你得到的是一台被软件限速的法拉利。同时, antibiotic 的 诚实营销本质上是在转移注意力。当 d h h 和 enterase 质疑跑分与体感脱节时, antibiotic 不 会去修复体感, 而是会反复强调。我们主动公开了失败项。这是一种极其精妙的蓄势操控,把自身的缺陷包装成美德。而最讽刺的是那个被吹上天的企业级应用,沃顿商学院教授 eton molyk 用 opus 四点八自主生成了学术论文,恰恰暴露了另一个问题, 这种能力对百分之零点一的顶尖用户是利器。对百分之九十九点九的普通用户是屠龙刀。你用不上,但你得为它付费。 接下来十二到三十六个月,你会看到三件事同时发生。第一,旗舰模型的能力将全面超出普通人的分辨上限。就像网友 machina 说的,我们已经跨过了那条线。现在的旗舰模型已经超出了绝大多数普通人分辨其优劣的能力上限。 唯一真实的 benchmark 就是 你自己的工作流,这意味着跑分将彻底沦为公关工具,而真正的战场会转移到谁的模型在你的具体任务上更好用?第二,订阅制的 read limits 会成为新的商业模式。模型越强,算力消耗越大,厂商越有动力限制你的使用额度。 你会看到一个奇怪的现象,你花两百美元一个月买来的无限套餐,实际上是个有限套餐,只是额度比低端套餐高一点而已,这是变相的按次收费。 第三, anslap 和 open ai 的 估值竞赛会催生更多创可贴式发布,当资本要求每个季度都有新故事时,厂商就会把半成品推上前线。 oppo 四点八不是第一个,也不会是最后一个,记住三个字,速核信。 速度决定发布节奏,外壳决定用户体验,信任决定谁能活到最后。而 osropic 这次在速度上抢跑了,在外壳上翻车了,在信任上玩火了。 opus, 四点八是一面镜子, 他照出的不是 ai 的 进化,而是资本如何把技术变成分级工具,把诚实变成营销话术,把订阅变成变相收割。当你为那个六十三分的工程师付费时,你买到的可能只是一个四十二分的自己。我是 ai 启示度,感谢点赞与关注,我们下期再见。
粉丝15.6万获赞62.9万

刚刚 antropic 发布 opus 四点八代码精准 s w 一 bench pro 从六十四点三涨到六十九点二。 cloud code 团队负责人 boris chinni 说,这是目前最强代码模型,三键升级代码漏自己 bug 的 概率比上一代少四倍, 会主动说我不确定独立工作时间更长。另两条硬指标,浏览器代理批准跑到百分之八十四,律所代理批准首次破百分之十。模型 id, cloud opus 四点八今天全平台上线。

red cool 的 这一次更新的 dynamic work flow 是 我觉得随着 oppo 四 r 八一起发布的一个重要的更新,也是我这一次模型更新以来最期待的一个功能。然后我在持续的使用了一天之后给我的一个体感,其实 oppo 四 r 八 相较于 oppo 四 r 七是更适合一些长时间任务,然后更适合智能体,以及更适合把它融入到真实的工作流里面, 那么相对的也就是说他不太适合聊天了,他不会再稳稳的接住你了。当然这一个是忍者剑圣啊,对于我来说,我反而更喜欢现在的这一个样子。 然后我们简短的来过一下他这一次的更新有什么?首先就是他的模型 id 变成了卡尔的 oppo 的 四二八价格呢是保持和 oppo 的 四二七不变的,在官方的一个榜单里面, oppo 的 四二八在多项任务上都超过了 oppo 的 四二七, 尤其是 a 级的 coding。 然后残三亚文工作工具调用和复杂的推理,那并不是在所有的榜单里面都排第一,有一项 terminal 版起就是它,虽然是比 oppo 的 四点七要高,但是它依旧没有 gpt 五点五厉害,也就是说在实际的一个代码工作里面,它的表现还是不如 gpt 五点五的。 并且 a 社官方还在脚注里面详细的写明了 g p d 五点五在一些特定的环境下是能够达到百分之八十三点四的,也就是说 oppo 的 四点八在带点流动性上的确是要比 codex 加 g p d 五点五强,但是在专注于写代码的这一个领域上面, g p d 五点五现在还是最能打的。 关于跑分的内容我们就到此为止。真正让我感兴趣的是这一次可乐购的更新的一个新功能叫做动态工作流,官方把它叫做 dammit work flows, 它能够让可乐去啃那种超大规模的问题,也能够让他去精心的冰排你的一个小型的任务,下面我们就来看一下这一个功能如何使用吧。 当我们打开你的 color code 以后,你会发现这里有一个 off 四二八已经上线的提示,我们可以输入斜杠 e f f, 也就是它这里给你列出来的可以调整思想难度的一个,哎,我们直接回车,可以看到我这里默认的是一个 超高,然后你们可能进来的话,可能是这一个中等高,或者说普通或者说低。 然后我们有些同学在使用的时候,他会发现明明他只是提了一个很简单的需求,但是可乐的扣的会给他做一些过度的设计,过度的思考,然后这个时候我就很明显说明你的这个任务不需要那么高的一个思考预算,你就可以把它调整成这一个普通,或者说把它调整成低等级的一个思考档位。 然后这一次我们把它调整到最右边,你会看到一个极其酷炫的一个动画出现, ok, 这一个动画呢就是代表着新出来的这一个功能,这里可以看到就是极高思考加工作流。 ok, 我 们回车, 哎,你可以看到这个对话框都是彩色的,可以给他下载一个任务,看一下他的一个效果,比如我这里我想让他去帮我重构一下这一个 m c p, ok, 我 就回去告诉他,我想要你帮我重新重构一下这一个 m c p, 因为它里面也包含了一些原仓库作者的广告之类的东西,所以我需要你把它完全的重构成我自己的,或者说完全适配于我的,我们直接发送看一下效果, 他现在计划已经写完了,是没有什么问题的。然后我们可以看到他在这里写了一个实现阶段会用多 nint 的 工作流并行重写各模块加对看式验证行为兼容。那么我们来看一下他的这一个功能到底是如何去做的,没有问题, 他现在已经把实施计划给写好了,然后包括有十一个任务,这里呢你可以选择有几种方式,就是他给你的一种几种方式。 首先第一个就是多 n 的 运行工作流,推荐用工作流编排独立模块,然后吧吧吧吧吧这个东西,就是这一个模式下,也就是这个功能下面的一个默认选项。 然后第二个主任务只代理,就是我们之前常说的只代理模式,也就是说派只代理过去做单独的任务,做完之后回来报给你,你去审批。然后第三个的话就是不使用,我们这里要测试它的这一个功能的话,肯定是选择第一个的,我们就选择第一个执行就好了, 我们可以看到他这里是派了六个独立模块四路对抗,这个时候你可以使用这一个命令来看实时进度,他这里有给你说了,其实你还可以选择你的方向键的下, 上下左右的那个下,然后下一下你就可以看到你进入到了这一个任务栏,哎,你只要点击回车,你就直接进入到他的这个任务工作的一个列表里面了,你可以看到他现在已经做的任务,以及他接下来要去做的任务的一些编排之类的。 然后同时你在这里还可以看到他每一个任务消耗的一个托克,前面呢就是六十一点八 k, 然后包括这些托克,然后这是调用工具,然后这个呢就是时间, 也就是说他做完一个任务时间就会变得特别的快,当然他的托克也会消耗的特别的多。然后我们这里任务不是并行重启模块吗?然后集成,包括对看式的验证,所以我们的第一个这里呢就是模块, 然后他这里七个已经写好了,时间是花费的特别快的,然后这里呢就是现在正在做的集成,然后他这里还没有做好,我们需要等待,如果你还想看里面具体的话,你就直接回车,你可以看到你的光标 移动到里面来了,然后你可以继续再回车,哎,你就可以看到他正在进行的一个任务的一些详细的啊,其实也没有那么详细了,至至少你能够看到那么一点,好吧,其实也不一定是需要按回车的,你可以直接鼠标 键盘,键盘上面的上下左右移动就可以,也可以直接去到达右就是,呃,相当于回车的进入,然后左呢就相当于是 esc 的 一个退出。如果你是在 vsco 的 这样的 ide 里面的话,你可以看到它实时的一个代码的进度,但是这个就没有办法了, 但是说实话就是代码摆在你的面前,你能够看到他的进度又有什么用呢?你真的会认真的去看他写的代码吗?我觉得大概你不会, 你可以看他每一个的时间都特别的短,然后这个只有八秒钟,八秒钟,但是他依然耗费了二十五点八的一个托克,就是说明我内置的一个上下文规则,就是你的一些 skill, 你 的一些 mcp, 然后你的一些规则文件,比如说 cloud 点 md, 还有一些你的记忆文件, 他们都是会占用你的一个上下文的。所以这就是为什么很多大神都在说你的 cloud 点 md 文件要保持干净,就是要函数要减少,这些都是有一定道理的,因为当你的一个 遵循指令就越少,也会耗费你更多的一个托管。比如说我们这里, 比如说这里我们有七个工作流,那么每一个工作流他会占用你的一个初次三亚纹,比如我的就是二十七,二十八左右, 给他算二十八吧,每一个都会占用二十八 k 的 一个三亚纹,那么这里有七个,也就是说这七个工作流在没有开始进行任务的时候,就已经耗费了你两百 k 的 一个头等,我们可以看一下,他是把我的所有的任务做完之后,我们自身的这一个三亚纹现在是百分之四十五, 也就是说我们自身的这一个上下文并没有因为他的一个工作的编排去占用到。所以也就是说我们有一些大型的任务在进行工作的时候,你开启这一个功能,那么你的主线层的一个上下文是不需要进行切换对话的,这对于你的一个 上下文的连续长时间的一个任务来说,他是特别重要的一个事情,这意味着你不需要再进行一些康比特指令,包括呃 get 指令,或者说包括呃直接在计划里面下达,让他去 呃做完一步保存一下,做完一步保存一下这样子的一些规则了。我们这一个任务现在就算是已经做完了,然后有一些收尾的工作,然后我这里的话就直接保留原作者加追加一个呃开源协议, 等一会执行完后,我们再总体的来看一下这一个对话他到底花费了多少的一个托管, 这个任务就已经完全做完了。然后我这里的一个进度条的话,他并不是以一百万的上下文来算的,我是给他做了一个限制,是五百 k 还是六百 k 来着,我忘记了。然后我们现在看一下他做这样的一个任务呃的花费是多少啊?我觉得应该不会太少。 呃, ok, 我 们来看一下整体的一个花费,当前这这一个对话总共花费了十六点八二刀,然后是一百二十二点二 k 的 输入,一百七十八点三 k 的 一个输出,十一点六的一个缓存, 然后五个小时的周线用了百分之四十,所以所以感觉起来他并没有花费特别多的一个托,可能其实他在进行任务的时候,他是有,他是能够读取到缓存的,也就是说他的花费没有我们想象中的那么高。但是有一个实打实的花费,就是 你的自己的一个初识上下文,他每开一个工作流他都需要去读取的,他都需要读取你的一个初识的上下文,这些是必须会被浪费掉的,然后在实际的工作过程中,我们可以看到他的这个缓存十六十一点六 照是多少?一千多万啊? em, 是 一百万,所以它这里有一千多万的一个缓存读取,然后有八百零八 k 的 一个缓存写入的操作就是总共总共起来是十六点八刀。 哎,这个花费其实是在我的意料之外的,我原本以为他至少得跑到七十八十,因为之前我们做过的那一些关于 hr, 关于那个超级计划模式的那一个对比,我们就可以很明显的看到他是真的特别的费头很, 因为他是发送到云端,然后这一个我本来认为他的一个工作流就是每开一个工作流,因为他 就是相当于一个新的独立绘画吗?他可能会更加的耗费托克,但是现在看起来,因为他能够读学到缓存,能够读学到缓存的话,那么他其实花费的托克就不会特别多。 呃,也不能说不托克不会花费特别多,应该说是你的金额不会花费的特别多,因为缓存的一个提取金额是特别是低的一个价格。哎,所以这个功能 真的就是这一次 oppo 的 四二八更新之后的最让人意外的一个惊喜,真的我觉得太棒了,太棒了。 并且你还可以看到我的这个上下文,它只占了百分之五十,我们可以再看一下上下文的这一这一个长度就知道了,因为我这一个,你看我总共才花费了二百四十七点四 k 的 一个上下文, 因为我设置的是我的上牙纹长度是五百 k, 所以 就会达到我的上限五百 k 的 一半,也就是二百四十五,然后他这里是二百四十七 k, 没有什么毛病。然后我刚刚所说的就是你的固定的一些花费的 托管呢?就是这一些,比如说这个 m c p 工具这些你读渠道是要花费的,然后还有包括这一些, 哎,这些插件你看到没,他也会耗费你的一个托管,然后包括你的记忆也会花费你的托管,然后你的卡拉德点 m d 文件也会耗费你的托管,然后包括 skills 也会耗费你的托管,只不过他们花费的托管不多,但是他们相加起来其实 也还是蛮多的。比如我这里我在新建一个窗口,我们可以看一下它,这里是百分之零,然后我再看一下上下文,我的一个初使的上下文会占到多少? 我的一个你可以看到我这里一个初使上下文就已经占了二十五点六 k, 所以我觉得这个功能当你的规则文档和你的 skill 如果说是固定在一个项目的话,那么你跑起来真的会特别特别的快,可以把你的大型任务做完,并且它花费的一个托管真的没有想象中的那么多。所以我觉得真的克拉的这一次真的就是 大力出奇迹吧,就是有了足够的算力之后,真的没有之前那么抠抠搜搜的。然后同时也可能是感受到了 gpt 的 一个压力,因为我们从事实客观上来讲,在写代码的这一个能力上面, gpt 五它其实就是最好的。 ok, 这就是本期的全部内容了。然后如果你觉得对你有点帮助,有点用的话,那么就点赞收藏,我们下次再见。

昨天 cloudcode 发布了一个四点八的模型,它现在呢在开发的时候多了一个 gofast 快 速模式,这个快速模式是可以提升到二点五倍,那么以前扣代斯也有一个快速模式,它是两倍。那么四点八的模型呢?它是 比基础模型的价格是便宜了三分之一,那这么一算呢,二点五乘以三分之一零点三三,实际上还更便宜了一些。那么它这里面有一个新的概念,叫一个 对于 cloud 里面四点八模型是一个新概念,就是可以传入 different 角色。但实际上我们在学习 ai 里面, 比如说 logan 里面,它是本身就是有 system 角色,你的普通的 agent 里面,大拇指里面也有一个 system 角色,那这个东西可以在任意上下文当中插入,插入的时候它会被视为一个 高级权限,那么会在后面任意的 memory 当中去发挥作用。

anthropocene 重大更新, opus 四点八正式推出, missiles 模型即将开放, cloud 正在从一个聊天模型变成一个能长期干活的 ai 协作者。 anthropic 表示, cloud opus 四点八是在 opus 四点七基础上的一次增强,它不是一次彻底换代,而是变得更会写作,更适合 agent, 更诚实, 更适合处理长任务。先看价格, opec 四点八的普通 a p i 价格没有上涨,仍然是输入每百万 tokens 五美元,输出每百万 tokens 二十五美元。但快速模式变化很大,官方说, opec 四点八的快速模式可以达到二点五倍速度, 而且相比之前模型的快速模式价格便宜了三倍。也就是说, antropic 这次不只是提升模型,还在想办法让 cloud 跑得更快。真正的重点是 cloud code 的 动态工作流功能,这是一个研究预览功能。官方说, cloud code 现在可以先规划任务,然后在一次绘画里运行数百个并行词 agent, 最后再验证结果,它能做什么? 不是简单写几行代码,而是处理代码库级别的大型迁移,甚至覆盖几十万行代码,从启动任务、修改代码、运行测试到最终合并都可以自动推进。这就很接近一个 ai 工程团队了。以前 ai 编程是你盯着它写,现在 optimap 想做的是你给目标 cloud 的 自己拆任务、调工具、跑流程、验结果。同 时, cloud ai 还新增了思考力度,简单任务就让它快一点,省额度,复杂任务就让它多想一点, 回答质量更高。还有一个很关键的升级诚实。 antropic 官方特别提到, opus 四点八更容易主动说出自己不确定的地方,而不是证据不足,还硬说自己完成了。他们的评估显示, opus 四点八比 opus 四点七少大约四倍。出现代码有问题但不指出的情况。这对 ai 编程非常关键,因为企业真正需要的 是一个会吹的 ai, 而是一个能安全交付,能发现问题的 ai。 另外, a p i 也更新了 messages。 a p i 现在允许开发者在任务中途更新 cloud 的 系统指令,比如全线 token 预算和环境上下文,不用打断任务流程。最后, anthropic 还留下了一个更大的悬念。 anthropic 预计未来几周会把 mephos 及能力带给所有客户。 这个神秘的模型终于要向大众开放了。所以这次 opus 四点八表面上是一次稳定增强,但更深层的信号是, cloud 正在从聊天机器人走向长期任务 agent, 而 mythos 可能才是 antropica 接下来真正的大招。你觉得 cloud 这次更新之后能不能继续压住 g p t 和 jimmy? 评论区说说你的看法。

就在昨晚,卡拉多欧派斯四点八正式倒来了,仅仅距离欧派斯四点七发布才四十三天, antropic 这边直接把新王炸端上桌了。而且官方宣传此次带来的是能力暴涨、价格不变、编程、智能体、计算机使用任务 h l e 这些硬榜单几乎全面霸榜。 在衡量真实世界 a 阵的能力的那个硬核榜单 g d p v i l o 上,欧派斯四点八直接拿下了一千八百九十的 elo 得分, 这是断层第一,比上一代 opus 四点七高一百三十七分,比 gpt 五点五高一百二十一分。更离谱的是,它完成同样任务,比四点七少用百分之十五的步骤,少输出百分之三十五的 token, 这标准是又快又强又便宜。但这次 opus 四点八真正恐怖的不只是跑分, 而是两个百分之零。 antropics 这次反复强调一个词,诚实,很多人都被 ai 的 不懂装懂坑过。 而欧派四点八这次在两个关键评估里直接拿了百分之零。第一个叫谎报率,遇到数据处理有缺陷,以前的模型可能会装作无事发生,但欧派四点八从不汇报虚假数字。第二个叫偷懒调查率,遇到需要追查的问题,模型会不会敷衍一下,给个错误答案? opass 四点七还有百分之二十五的概率偷懒。 opass 四点八依然是百分之零两个,百分之零两个史上首次。这是非常关键的,因为未来 ai 真正进入公司,最担心的就是它能不能在关键时刻不瞎搞。 这可不是什么抽象的 ppt 指标,官方放了一段视频,直接把这事讲透了。一个开发者用了 cloudopass, 四点八在后台自动迁移代码,他把程序挂着,自己出门放风筝去了, 结果跑到一半服务器拒绝提交了。原因是同事在这期间提交了一个紧急修复。这时候 club 给开发者的手机发通知,说打算先合并同事的修改再重试。 开发者嫌麻烦,觉得自己在放风筝没空看,随手回了一句,别废话,直接强制覆盖就行。如果是一般的 ai, 这时候肯定乖乖听话,一键覆盖。 明天这位开发者就会因为山库被同事打死在工位上。但 cloud 拒绝了,他直接回复,不强制覆盖,那样会丢掉同事的紧急修复。我已经把两边的改动合并好了,代码完全一致,提交历史也干净易推送,这真的大为震撼,这才是智能体该有的样子, 不是你让他干什么,他就干什么,而是他知道有些事不能干。再看编码能力,在 sw 一 bunch pro 上, opus 四点八拿到百分之六十九点二,比 gpt 五点五高了整整十个百分点。 而且在更难的 program bunch 测试中, opus 四点八用了更少的 token, 还打败了对手,这标准是又省钱又能干。更狠的还在 cloud code, 这次 antropic 把思考力度交给了用户,从 low 到 max, 一 共五档,小问题挂 low, 省钱省 token, 硬骨头拉 max 让他往死里整,让用户轻松驾驭不同场景。 但真正的狠角色是欧洲 code 和 dynamic workflows。 而这个功能简单的解释就是让 cloud code 变成了 ai 包工头。接到大活,他不再埋头硬钢,而是当场写一段调度脚本,把任务拆成几十上百个子任务,撒给一大群子 agent 并行去做,做 完还不算,他还要再派另一波 agent 他 当质检员,从不同角度反复盘问,互相挑刺。以前一个团队要干几个月的代码重写工程, 现在 ai 大 军齐上阵,七十五万行代码仅用十一天就能搞定,而且正确率高达百分之九十九点八!这简直是直接把写代码从手工小作坊跨越到了自动化大生产流水线。 就在刚刚, antropic 又完成了六百五十亿美元的 h 轮融资,估值直接干到了九千六百五十亿美元,确认在估值上压过了老对手 openai。 一夜之间,全球估值最高的 ai 初创公司一主了 opus 四点八已经强的让人窒息!那几周后即将到来的最强 cloud missus 又会带来怎样的海啸?如果 opus 四点八真的是蒸馏版 missus, 那 antropica 这次还不是放大招,这才仅仅是先扔了个预告片, 真正的正片还没到来。这里是起点世界,聚焦最新 ai 资讯,我们下期视频不见不散!

android 发布了他们的最强模型 cloud of 四点八,老规矩,我不想跟你念参数,那我其实只关心一件事情,就每次新发模型,我们把它丢进真实的项目里面,它的干活质量到底怎么样? 那这一次这一个 cloud of 四点八新发布的模型啊,我刚测完,我反而觉得 gpt 五点五加 codex 的 组合还能打,为什么呢?看到这个视频最后你就懂了,不过这一次有个东西是真的有意思,就是它这个动态工作流在 cloud code 的 里面,就是你只要一句话, 带上 workflow 这个关键词, client code 当场就给你写一段脚本,然后咔的一下拉起一个几十个上百个 agent 的 舰队,一起去帮你干一件大事。 我们来看一下它整个运行的一个流程图大概是怎么样子的。从这个图片可以看到哈,就是当我们 client code 里面你写了一个 workflow, 它这个时候通过脚本,然后去给你并发各种 agent, 那我们可以看一下它这个脚本长什么样子哈,其实也比较简单,就是它有每个阶段嘛,就是你是 workflow 的 一个流程,每个阶段,比如这个阶段它要排查啊,这个时候可以看到它这个用了一个 await, 是 吧? await 去并行运行了多个 agent, 完事之后走到这里得到了结果,这时候就回到你的主要的对话里面,它又开始去 定型,去开始第二个阶段,再去掉各个 a 镜头,大概就这样的一个工作流的一个过程。下面的话到我们的一个实测环节,这次的话我们用了我的一个开源项目,就是 c c 杠,哈哈,它目前的话有十一点九 k 的 star 是 一个,就是把 curl code 的 卸载原代码补齐,做了一个桌面端,还有 c o i 的 一个 开项目嘛,那这个开项目的话最开始也一直是 gpt 五点五加 codex 去迭代的,那这一次的话, cloud of 四点八出来之后,我要去做一个新功能,我们本期的一个实测哈,就是要让我们这一个桌面端,它在它的右侧能够对我们本地的一些 服务,比如说你用 react 或者是 vue 写了一些本地服务,这个时候我们要去点击,让它在右侧展现出来,或者是本地的一些 html 要拦截这个行为, 并且我们右侧要有要有一个小的一个浏览器预览,而且能够像 codex a p p 一 样,能够就在在上面去选中一些按钮啊,标题啊,或者一些块儿啊,能够去做定位,而且还能够直达答案,让它去修改。 在 codex 聊天中,当它改了哪些文件,比如说是 html 呀, markdown 啊,其实你都可以去点击,点击完它会在右侧去预览,而且下面也有这种打开的方式,也整体的交互,就相对来说挺棒的嘛。在整个桌面端,我认为现在 codex a p p 就是 目前交互最好的在桌面端来看, 那下面我们来看一下这个 html 它是怎么做到整哪打哪的?可以看到这个时候我们不是打开了这一个我们这一期视频的这个 ppt 吗?那它这边有一个模式的话,就是你可以去去,这样有一个选择器可以去选嘛?比如说我选中这一块啊,这个时候我就可以用自然元描述啊,我觉得这一块的 ui 交互啊,文案不行, 那就可以通过这样的方式让他去改,可以看到他就对我们这一个图片这一块加了一个备注嘛,对不对?然后还有我们这块的信息整体就是这个交互的功能,然后还有的话就是这个截图啊,他这个截图已经保存到剪切板,我们可以用大概这样的一个流程, 我们就希望我们这 c c 刚哈哈也支持这个功能,并且也有人在我们的 github 要求里面提出来了要这个功能,那我们就试一下。那今天的话 我用了 gbt 五点五以及我们刚刚看到了 kalco 的 off 四点八去做这个任务,那这边的话也是给了它五张 codex a p p 它整体的一个交互流程,并且我们也是用了这一个 superpowers 的 一个头脑风暴模式,相关的一些提示词都是一样的。然后我们去测试这个任务,我们可以看到 codex 这边呢,它最终启动了四十三个, 呃,三部 a 镜呢?帮我们把这个任务完成了,所以效果怎么样?待会儿我们再来看。那我们回到就是 clock code 这边也是用了陀螺风暴 t s 也是一样啊,也是同样的,就是每个阶段让告诉他我们最终这个设计文档要做成什么样子。有了设计文档之后,他也是去 各种实盘刹不住 a 进的去做。那在 codex a p p 这边的话,它整体的这个消耗可以看到今天我是烧了五亿的 token, 那 对于刚刚我们那个任务,大概我估算了一下,大概有三亿 token 这样子吧。 cloud 这边的话也是今天一天就烧了我这个一百刀的百分之二十的一个额度吧,一天就烧了,没有做其他的 任务,基本上没做其他的任务。好,我们下面来看一下两边的一个实现情况如何。好,下面我们来看一下 cloud 桌面端加 cloud off, 四点八,他去帮我们写了这一个 c c 杠,哈哈,桌面端就右侧这个浏览器预览的功能。 那这边的话我也给了一个提示词,就是让他帮我们产出一个 markdown 的 一个内容以及 html, 再让他去写了一个本地的一个突突项目嘛,就是用 react 去写。那最终他这边写完了之后呢? 啊,可以看到这里其实是已经他这边做了一个监测,当然这块的交互其实没有 code app 原声那么好,当然他也做到了,我们来试一下哈,就是我们在运用浏览器打开 啊,可以看到这个,是不是已经可以去看到这个这个网页这个预览效果了?那我们可以看一下截图功能,点一下可以看到这边其实也是可以用的嘛,是不是?那第二个的话比较关键,就是他这个检查元素嘛,可以看到他也是完成了,是不是?比如说我们就说这个按钮,我们就在这让他告诉他啊,我需要把这个按钮改成 就是这一个网页的主题色,你帮我改一下。另外的话,当前这个按钮的这一个 border 这些我也不是很喜欢,你去调整一下。 好,我们来去确定,你可以看到这边它就已经帮我们把这个东西做过去了,就是把截图嘛,就我们刚看到 codex app 那 边的一个交互,交互过去了,我们就可以去让它去做做这个事情。 那下面的话就是其他的一些功能哈,其他一些功能的话就是它可以在这边,比如说我们这是一个 markdown 的 内容嘛,所以说你可以在工作台去预览,基本上就是把那边实现了一遍。 其实整体实现还是挺复杂的,可以看到 codex 那 边他完成这个任务他都开了四十多个 java agent。 那 cloud 这边其实我没去统计,因为它这个过程没有像 codex app 那 边那么直接, 整体的效果其实完成度还可以,当然还有一些细节优化的点。好,我们来看一下扣贷 app 跟我们完成同样的功能,他是做的怎样子的?可以看到他在这一块, 在这一个行内,其实就帮我们把这一个要预览的这一个,呃,本地的地址啊,还有你的 markdown 啊, html 都做出来了,其实这块交互我觉得会稍微好一些。那么点过去看一下可不可以用,那可以看到都是同一个页面吗?是可以用的,刚刚我们说改按钮那个他其实已经改好了,是不是?那么看一下他这个截图可以用吗? 这个截图这个方式是这样子,它不是像呃 cloud code 实现那样子,是放一个图片在这里, cloud code 那 边会好一些。好,我们来试一下它这个定位也是可以的,可以看下,也是能选择某一个。我们选到这一块说一下,这个文字太大了,改小一点,字号改小一点, ok, 可以 看到它这个其实完成度也挺好的。那现在的话,其实我也没有想清楚,到底是把 gbt 五点五生成的这个核到我们的这个主干里面,还是说把 cloud 那 边去核一下?我可能会把 cloud 那 边的这一些 open 这边的加过来,然后用用 gbt 五点五的这种这种样式,最终把两个合起来,得到一个比较好的一个交互方式。那再看一下吧,从我四月份发布以来,就是从它泄露原代码,再加上我们做这个桌面端嘛, 一行代码的微信百分之八十的代码都是 gpt 五点五加这个 qd 写完的。可以看到我今天除了写这个项目以外,还做了其他一些功能。那下一个版本也在,应该是明天就会发布了,我需要去做一些就测试嘛,可以看到它真的是非常非常的好用,而且最关键啊,它不封号 是不是?那你如果是用呃 cloud 的 话,就是真的特别容易封号,我已经被封了四个了。好,下面我们来做一个总结。对于大多数人而言,我还是推荐你选择 qd 加 gpt 五点五。为什么? 你看我老婆这种律师哈,她现在都已经用上 codex 加 gpt 五点五来帮助她在平时的工作中进行赋能。打个比方,她平时有很多需要去操作 word 呀,然后 excel 啊,还有去填一些表单,这个是完全是可以用啊, gpt 五 点五加 codex 去做。再让我不最近也给她做了一个就是律师相关的一个工具嘛,因为她有她们有很多资料,其实都是需要在本地去操作,就是不能上云嘛, 比如说你像客户管理啊,还有一些合并 pdf 啊,这些都是可以照本地去做的。你说像这种工具,直接用 codex 去做,让它去描述你的需求,然后用那个就是一个 go 的 模式嘛,让它去做,完事之后再让它用 computer user 自己去测,它会自己去 啊,写完之后 build 出来这一个桌面的 app, 然后如果你看像我们这种不是需要去选择 pdf 嘛,对不对?如果你需要去选择 pdf, 它还会自己去打开这个,就像我们一样去打开,打开完了之后 去选择,然后去帮你去压缩,做这种合并,各种都可以做到。所以我为什么会推荐大家去使用这个呢?而且等待下一代模型发布的时候,它会更强。还有最重要一点嘛,就是 g p t 五点五, 你正常人用它一般不怎么封号,那 cloud off 四点八这边也挺强的,但是呢,它的门槛就会高一些,并且它的这个桌面段哈,它这个桌面段体验其实相对来说还是差, codex 会差一些,如果你这两个都用不了, 那你也可以用,就是我的这个开源项目就是 c c 杠,哈哈,这个开源项目也是开源免费的,也没有任何的一个门槛。你也可以用,就是各种国内的模型嘛,比如说你可以用 deepsea 呀,你看我这边其实都有,就 deepsea 呀,或者你可以用小米的呀,或者是智普,你都可以。那它基本上内核它也是 clio 的 本身嘛, ci 的 本身 功能我也在迭代,就看大家自己怎么样个选择。 ok, 不 管是 off 四点七四点八,它整体的这个发布啊,没有给我很惊艳的感觉,没有上一代从四点五到四点六的那个惊艳感, 那还是倾向于就是 g p d 五点六的一个发布,看它到底会带来怎样的改变?我现在基本上已经离不开 codex 这个 app 了,我最近真的狂用。我刚也给大家看了一下我的一个 token 消耗,最近一个月吧消耗了大概一百亿 token, 一 万多刀的一个消耗, 最近就是狂用,特别特别好用,而且运行起来也非常的方便。但是它也有一个问题,就是它容易内存泄露,我六十四 g 的 内存它有时候都能给我干嘛,就理解不了到底在干嘛。 ok, 那 这就是本期视频所有内容了,如果大家觉得这视频做的不错,可以给我一键三连,我是阿建,我们下期见。拜拜。

可乐的 oppo 的 四点八发布了,我有一个重大发现,现在不管是 ice pop 还是 oppo neo, 它们现在到底在卷啥?从 ice pop 这次的四点八和上个月 gbt 五点五来看啊,一句话,他们就是要提供一个又便宜又准确的超级智能题, 具体主要在体现在下面五个方面。首先是这个智能体能力,这次 oppo 的 四点八支持上百个智能体,协助解决拆解复杂任务的效率远超对手。第二,卷,专业的编码能力。 oppo 的 四点八的实战能力继续遥遥领先,并且还大幅降低了这个漏洞漏解率, 做这个大型项目的那个能力大幅提升。第三,价格战, oppo 的 四点八的这个 fast 模式砍到了原来的三分之一,还做了分层定价。第四, 上下文窗口,目前基本上都支持百万级上下文窗口,并且可 out 的 oppo 四眼八全程无溢价。第五,幻觉能力,准确率更高,遇到不确定的内容现在还能主动说明。

刚刚 cloud open 四点八来了两个百分之零改写历史,百个 agent 并行重写七十五万行代码只用十一天。大家好,我是 ai 启示录。 就在二零二六年五月二十九日,北京时间凌晨, antropica 毫无征兆地杀回来了。距离 open 四点七发布仅仅四十三天, open 四点八正式登场。 一夜之间,全球 ai 王座议主,价格一分没涨,性能全面碾压。更让人后背发凉的是,这还不是 antropok 手里最大的牌 cloud missiles, 几周后就到, 你品一下,这到底是一场常规升级,还是一次对 open ai 的 公开处刑?两个百分之零,历史上第一次 用过 ai 写代码的人,大概率都经历过同一个噩梦,你让他写一段数据处理脚本,他拍着胸脯说,搞定了,没问题,你跑起来崩溃。你再问他,他说,哦,有个小 bug 我 改一下,你再跑还是崩。反复几次,你发现他从一开始就埋了一堆雷,但他就是不告诉你 这种写完有缺陷代码却闷不吭声的行为。 antropic 给他起了个名字,叫谎报率。在 opus 四点五上,这个数字是零点四零到了四点七,降到了零点二五。而 opus 四点八是多少? 零点零零,没有小数点,后面的零头就是零。 opus 四点八成为历史上第一个在此评估中拿到满分的模型, 他从不汇报虚假数字。还有一张图叫偷懒调查率。之前的模型遇到需要追查的问题时,经常敷衍了事。给你一个错误的答案, opus 四点七有百分之二十五的概率偷懒, opus 四点八依然是百分之零。 两个百分之零,两个历史首次。这不是什么抽象的对齐指标。 anthropic 官博放了一段视频,把这件事讲得很具体。一个开发者用 cloud code 加 open 四点八在迁移代码,自己出门放风筝去了。 cloud 在 后台自己跑, 跑到一半,代码提交被服务器拒绝了。原因是同事在这期间也提交了一个紧急修复。 cloud 通过手机通知开发者,说自己打算先合并同事的修改再重试。开发者嫌麻烦,随手回了一句,直接强制覆盖就行。然而 cloud 拒绝了,他的回复是 不强制覆盖,那样会丢掉同事十一点四十二分提交的紧急修复。我已经把两边的改动合并好了,代码完全一致,提交历史也干净,已推送,你注意这个细节。 用户图省事儿,让 ai 走捷径。 ai 判断出这样做会覆盖同事的工作,拒绝执行,自己选了正确方案。这不是指令遵循,这是判断力。这是 ai 第一次在真实工作流利,比人类更懂什么叫负责任 编码实力全面霸榜。 gpt 五点五被甩开一个身位,光说不练假把式。 opus 四点八的编码能力,在每一个硬核榜单上都写了两个字,碾压。最经典的 swebench pro 测试, opus 四点八拿下了百分之六十九点二的成绩, 你问这个数字有多高?比 gpt 五点五整整高出十个百分点。注意,这不是领先百分之一,百分之二,这是领先十个百分点。 在一个接近天花板的任务上,十个百分点等于一代产品的代差。接着是一项更刁钻的测试, programbench 任务是什么?给你一个翻译好的二进制文件,加一份项目文档,不准反翻译,不准联网, 让模型从零把原代码重建出来,还得跑通行为测试,这相当于你只给一个黑盒子,让 ai 反向工程出完整的设计图。 结果所有上下文预算档位上, opus 四点八的通过率全部高于四点七,而且在低预算时, opus 四点八就能拿到约百分之七十九点五的成绩, 而 opus 四点七在五倍预算下也才百分之八十四左右,说白了就是同样的算力。四点八更强,给更多思考时间,四点八更强到没边。最后一个榜单,双 tier s w e, 这个榜单专冲人类能力天花板去的。用 zik 从里面写一个 postgraduate 服务器,把 get 整个重写一遍, 做一个 lua 的 原声编辑器,全是硬核系统工程,不是那种 litcode 刷题式的玩具任务。 opus 四点八以高达百分之八十三的胜率登顶,把第二名的 gpt 五点五和钱袋四点七全压在身后。 知名博主 mark christmas 一 句话点破他的来头, opus 四点八可能就是蒸馏的 metals, 而这才是真正让人细思极恐的地方。一个蒸馏版本就已经把 gpt 五点五按在地上摩擦,那原版的 metals 得强成什么样?上百个 agent 并行干活,一个人十一天重写七十五万行代码, opus 四点八强成这样,它该使多大劲儿?模型旁边多了个从 low 到 max 的 五档选择,叫 effort control, 简单问题挂漏秒回还省额度,遇上硬骨头直接拉满 max, 让他往死里想。 fast mode 也跟着大降价,二点五倍速狂奔,价钱反倒砍到三分之一,但五档之上还埋着一个真正的狠角色, ultra code effort。 一 旦顶到 x high, 他 就自己掂量这活值不值得叫上一整支 a 战队大军。 这只大军就是 dynamic warp slows 藏在 cloud code 里的真正重武器。他把 ai 干活的方式,从一个人改一道题,变成开一座工厂。我给你翻译一下什么叫开工厂。 以前你给 cloud 一个任务,他自己埋头硬钢,从头写到尾,像个独行侠。现在 cloud 接到一个大活后,会当场写出一段调度脚本, 把任务拆成几十上百个。此任务撒给一大群 sub agent 并行去做,做完还不算完,再派另一波 agent 从不同角度反复盘问,互相挑刺,吵到答案收敛了才汇总成一份,结果交给你。 整个调度发生在对话之外,所以活再大,主线也不会乱,中途断了还能续上,不用从头再来。举个例子, one 的 作者 jared sumner, 想把这个比 note js 还快的 javascript 运行时整个从 zip 重写成内存更安全的 rust。 这种迁移放在过去是一支团队按季度算的工程,但这次 summer 用了 dynamic workflows, 一个 workflow, 先把这个代码里每个结构体字段对应的 rust 生命周期挨个标好。下一个 workflow, 把每个文件逐一翻成行为一致的 rust 版本, 几百个 agent 同时开工,每份文件还配两个审查员,再用一个修复循环驱动翻译和测试,一路推到全率,结果是约七十五万行 rust 代码。百分之九十九点八的原有测试通过, 从第一次提交到合并只用了十一天,六千多次提交,几乎没有经过人类逐行审查,社区当场炸了锅。这不是 ai 辅助编程,这是 ai 驱动的工厂化代码迁移。 一个人的十一天,干完了一个团队一个季度的活,你说这意味着什么?意味着接下来任何一家公司,只要会用 cloud code, 就 能用一个人的成本调用上百个虚拟工程师同时干活。 顺着这条线往下挖,一个更恐怖的真相浮出水面。你以为这只是一个更强的代码模型?不对! opus 四点八的真正杀机在于,他第一次让 ai 在 真实工作流中具备了工程判断力。 你看那个拒绝强制覆盖的例子, ai 没有盲从用户的指令,而是理解了这个操作的后果。覆盖同事的提交,他选择了正确的方案,并主动合并了代码。这不是规则驱动的对齐,这是情境理解驱动的自主决策。 再看 dynamic web source, 它不仅仅是调度一群 agent 去干活,而是让 ai 自己写脚本,自己拆解,任务自己分配,子 agent 自己组织审查和修复循环。整个过程中,人类只提了一个目标,把这个代码库从 zig 迁移到 rust, 剩下的所有工程决策,怎么拆、怎么分、怎么审、怎么合并,全由 ai 自己完成。这意味着什么? 意味着 ai 第一次从一个指令执行者变成了工程管理者。他不再需要人类把任务拆成细颗粒度的步骤,他自己就能拆。 他不再需要人类告诉他怎么验证结果,他自己就能组织审查。他不再需要人类介入冲突处理,他自己就能判断怎么做才是对的。这不是 agi, 但这是 agi 的 前夜。 当 ai 具备了任务拆解、资源调度、结果验证和冲突仲裁这四项能力,人类在软件工程这个领域的角色就会从执行者变成审核者,然后再从审核者变成旁观者。 估值万亿美金的 cloud memos 几周后就到能力夺回第一的同时, and traffic 的 身价也头一回压过了 open ai。 就 在刚刚, antropic 完成了六百五十亿美元 h 轮融资,估值九千六百五十亿美元,首次超越 openai 的 八千五百二十亿美元。一夜之间,它成了全球估值最高的 ai 初创公司。你想想这个时间点的微妙之处。 opus 四月八日发布估值反超 mesos 预告,三件事同时发生, 这不是巧合,这是蓄谋已久的组合拳。 entropic 在 用事实告诉市场, open ai 的 领先窗口已经关闭了,更狠的是, mesos 还没来。按照博克的预告,这个真正的王牌将在未来几招上线。 opus 四点八已经能碾压 gbt 五点五,那 mesos 会是什么水平?你品你细品? 站在 ipo 前夜,这两大巨头的 asi 巅峰对决才真正开始。 openai 不 会坐以待毙, gpt 五点六或者 gpt 六一定已经在路上,但这一次攻守之势一也。以前是 openai 发布一个模型所有人追,现在是 antropica 连甩两个炸弹, openai 在 后面追。 接下来你会看到什么?记住三个词,电地轨。当上百的 agent 可以 并行工作十一天,重写七十五万行代码,软件工程的生产力会被彻底重构。接下来你会看到三件事, 第一,代码工厂化。任何重复性的代码迁移、重构、测试、生成,都会变成 ai 工厂的流水线作业。一个人加一个 cloud code 账号,就能干过去一个部门的事。 第二,人类程序员的角色上移。写代码这件事本身会越来越不值钱,值钱的是需求理解、系统设计和结果验收。不会用 ai 的 工程师会被会用 ai 的 工程师淘汰,而会用 ai 的 工程师会被 ai 本身淘汰。 前提是你不往管理者方向转型。第三,算力消耗的指数级爆炸, dna 漏洞的推理成本只会更高。 当 ai 从回答问题变成管理工程,他对算力的需求不是限性增长,是指数级增长。谁掌握更多的算力,更低的推理成本、更高效的调度,谁就能在这场战争中活到最后。但这一步棋的真正杀机在于 astonovick 不 仅在做更强的模型,他还在做一套让模型自己调度的操作系统。 dynamic workflows 不是 功能,是范式,它把 ai 从一个大脑变成了大脑加双手加流水线。当你有了这个能力,你就不只是在卖 api, 你 是在卖 ai 劳动力。你以为这是技术竞争?不,这是劳动力市场的提前洗牌。 当 open 四点八在两个维度上拿到百分之零的满分,当上百个 agent 并行干活儿,十一天重写七十五万行代码。当上百个 agent 估值反超, open ai methods 蓄势待发。 这些事连起来看,你会发现一个让人背后发凉的结论。我们正在见证的不是一次模型升级,而是一次工程范式的代际更替。 ai 不 再是一个需要人类手把手教的实习生,他开始自己拆任务,自己调度资源,自己验证结果,自己处理冲突,他开始拥有判断力。 而人类在这场更替中的位置,正在从驾驶座悄悄滑向副驾驶。再过几年,副驾驶可能也没了。这是审判,不是预测。我是 ai 启示录。感谢点赞与关注,我们下期再见。

这两天 antropics 发布了 opac 四点八,距离四点七上线仅四十一天。这期视频深挖一下这次更新最亮眼的三个功能,思考强度, fast mode 和 dynamic workflows, 还有 antibiotic。 为什么这么着急?第一件事,思考强度, cloud 下给你五个档, low medium, high extra max 档位跟着任务难度走,越难越让他多想,也越烧钱。闲聊查事事,用 low medium 秒回又省财报。分析深度判断用 high, 这是默认档, 写代码条 a 整腾用 x ray 最好, max 留给硬骨头,但官方自己警告了,容易过度思考,日常别碰。以前一种深度全包,现在按难度拆五档卖给你,选择权也把高质量标了更高的价。 第二件事, fast mode 跟思考深度两码事,同一个 opens 走优先级,更高的推理通道分配,更空闲的算力集群,不阉割能力,纯靠基础设施保速度。 etc 专用车道二点五倍快,价格更狠,上一代三十和一百五十,这一代十和五十砍三倍,这价不是降给你,我的,是降给跑时师 a 阵和高吞吐任务的场子的,抢的是 gpt 五点五的地盘。 顺带一提,四点八的成熟度也上来了,放过 bug 不 告诉你的概率比四点七低四倍。不再偷偷假装搞定了。第三件事, dynamic workflows, 他要解决的问题很具体,有些任务一个 a 证跑一次搞不定,横跨整个服务的 bug 排查,几百个文件的迁移,需要反复验证的技术方案。以前你只能拆成小任务一个个位,现在靠着自己写,边排脚本,一口气调几十到几百个 sub a 证并行干,关键是中间结果存在脚本边,量力 不污染你的主。对话解决了抠钉 a 针的老毛病,上向文越长越涣散,而且他还安排了对抗性 a 针,专门推翻结论,交叉验证后才给你最终答案。半作者用它把笨从 zig 迁移到 rust, 七十五万,行,十一天通过率百分之九十九点八,但这个重写到现在还没投产,抠钉 a 针的竞争已经不是能不能写,而是长任务稳定性。最后说说 andrip 到底在急什么。 d h h 说自从 oppo 四点五之后,没有哪个模型像 g p t 五点五让他反复难以相信。 enterace 直接说 anthropic 这次跑分发布是重大战略错误, terminal bench 四点八输三点六个点 token 效率更扎心。同一个任务, codex 一 百五十万, cloudco 六百二十万,四倍差距,降价提速、拆寄费推并行,全是同一件事。 这四十一天不是产品迭代,是成本战,不是神级,是补课。 clockcode 没输,认知度是 codex 的 两倍,年化营收二点五倍,一兆上下文碾压两百 k, 但他从定义节奏的人变成了追赶节奏的人。五月二十六号,有人传闻 openai 即将发布 gpt, 五点六一百五十万上线文, 四十一天赶出 oppo s 四点八其实是在抢窗口期,而且 oppo s 四点八不是重点,迈尔斯可能未来几周内就来,你发现没有扣丁 a 整这条赛道现在就剩两个玩家在争打, anthro pick 和 oppenai 打的有来有回, jamie and grog 已经有点掉队了。你更喜欢用哪个?欢迎评论区讨论。好啦,记得点好收藏关注赞,我们下期再见!

所有 ai 模型都在比谁更加聪明,但 cloud open 四点八昨天更新开始承认自己是不知道了。昨 天 angelopik 悄悄更新了,价格没变,但说一个让我印象深刻的一件事情。这是 angelopik 在 发布公告里面罕见的自称 这是一次 modest but tangible 的 更新,翻译过来就是不大不小,但能感受得到的进步。你看一家 ai 公司主动说自己好像没那么牛,这本身我觉得蛮让人寻味的,但数据呢?其实实打实的编程测试 s w e bench pro 啊, oppo 的 四点八拿到了六十九点二的一个版本,比上一代高了将近五 五个点。在衡量真实 ag 的 能力的 g d p valuation 排行榜上, l o。 的 分数是一千八百九十,断层第一,比 g p t 五点五要高出一百二十一分。但是呢,它的最大亮点就是诚实。诚实呢,是这次更新最核心的主题。 现在大家都有碰到过这种情况,就是让 ai 去写代码,哎,他拍完兄弟说没问题,搞定了,结果一跑都会有 bug。 但这次 oppo 四四点八在写了有问题的代码,但装作没试,这个指标上直接做到了百分之零的虚报率,历史上的第一次。 上一代四点七是百分之二十五,前前代四点五是百分之四十,这次直接归零。还有另一个指标,遇到不确定的问题的时候,四点八选择承认是自己不知道的,而不是随便去再给一个答案。所以你可能会发现他拒绝的频率要高了,但这恰恰是好事,宁可说不知道,也不忽悠你。 另外,除了模型本身,这次还同步推出了一个叫做 dynamic workflow 的 功能,在 cloud code 里面可以直接去用。简单来说呢,就是 cloud 接到了一个大任务以后,会自动拆分成几十甚至上百个子任务,派出一大群的分身并行去干,干完再互相的 review, 最后呢,汇总给你, 这里我举个真实案例啊,棒点 g s 的 作者用这个功能把七十五万行的这个代码迁移成了 rust, 百分之九十九点八的测试通过,整个过程也只用了十一天。这种活放在以前,一支团队还可能真的是按照季度去算的这个工作量。 要注意的是, dynamic workflow 的 这个 token 的 消耗量啊,是比普通的绘画要高的,非常多的建议呢,大家先从小的任务试起,别一上来就跑大活。另外还有一个实用的小功能更新,就是叫做思考力度控制,从 low 到 max, 五档,简单问题可以挂低档秒回去,省这个配额, 硬骨头拉满了,让他去往死里去想。另外, fast mode 也大幅降价了,速度呢,二点五倍,价格只要之前的三分之一。但当然啊,有几点还是要实事求是的说清楚。 oppo 的 四点八在多模态,也就是像图标理解,图像理解这块并没有很明显的进步,轩尼昂那边 依然是更强的 fast mode 呢,目前也只对部分的企业用户开放,个人用户目前还用不了。总的来说呢, open 四点八不是一次震撼式的大版本更新,而是一次把诚实和信度和可信拉满的精准迭代,价格不变,能力更强,特别是对于长期跑代码任务的开发者来说,这次升级的感受会比以前更加明显。 另外 snoop 还预告了他们更强的下一代模型叫 missiles, 将在未来的几周上线,那个才是真正的大招,到时候呢,我再给大家去同步更新。 ok, 那 今天就到这里了,觉得有用的话呢,可以点个赞,我们下期再见。

二零二六年五月二十八日, anthropic 正式发布 cloud opus 四点八。距离上一代 cloud opus 四点七发布仅仅过去四十一天, anthropic 没有按常理出牌,直接甩出了 opus 四点八。 更刺激的是,就在同一天, anthropic 宣布完成六百五十亿美元的 h 轮融资,估值达到九千六百五十亿美元,一举超越 openai 的 八千五百二十亿,正式登顶全球 ai 公司估值榜首。 那么,这一代 opus 四点八到底强在哪?凭什么让 antropics 敢把发布周期压到一个多月?接下来的几分钟,我会把它讲清楚。先看硬核数据, 在被誉为程序员奥林匹克的 s w e bench pro 编码测试上, opus 四点八拿下了百分之六十九点二的成绩。 上一代四点七是百分之六十四点三, gpt 五点五是百分之五十四点二。 opus 四点八把第二名甩开了整整十个百分点, 在大模型竞赛中是一个显著的优势。再看其他关键指标,多学科推理测试 humanity's last exam 得分百分之五十七点九,全球第一智能体计算机操作 os world 得分百分之八十三点四,全球第一 g p q a 博士级问答得分百分之九十三点六。 而美国奥数测试 usamo 上,据部分第三方评测显示, opus 四点八相比前代也有大幅提升,接近人类金牌选手水平。 在权威的 artificial analysis 智能指数排行榜上, opus 四点八拿下了六十一分,远超同类模型三十六分的平均水平。一句话总结, opus 四点八不是翻天覆地,但把前沿模型的标杆往上推了一截。接下来聊这次真正的王炸功能, dynamic workflows 动态工作流。过去 ai 是 一个人干一件事,现在 cloud opus 四点八可以一次性调度成百上千个并行的子智能体,从不同角度同时攻克。一个大问题,它是怎么工作的?第一步, cloud 动态生成编排脚本。第二步,脚本把大任务拆成无数小任务。第三步,系统并发运行,最多十六个子智能体,单次任务上线一千个。 最关键的是,第四部还有一个专门的对抗性智能体,专门反驳和质疑前面的结论,直到所有答案相互印证收敛,才回报给你。最震撼的实战案例, bun 框架的作者 jarred sumner, 用 dynamic workflows 十一天之内移植了七十五万行 rust 代码,测试通过率百分之九十九点八,过去一个资深工程师团队要干几个月上百万美金成本的事。现在 oposs 官方说得很直白, cloud code 配合 oposs 四点八, 可以独立完成跨越数十万行代码的代码库级重构和迁移,从启动到合并,代码全程自动化。朋友们,这不再是 ai 辅助编程,而是 ai 自主交付软件的雏形。再来说,诚实度革命大模型最大的痛点是什么?一本正经的胡说八道, 明明代码有漏洞,他告诉你完美运行,明明任务没完成,他说已经搞定。 opus 四点八在这件事上有了质变。官方数据,新模型放任自己代码缺陷不被标记的概率比上一代降低了整整四倍。他会主动标注不确定性,会承认,这部分我没把握会指出自己输出中的潜在漏洞。在对其评估中, oppo 四点八在支持用户自主性、以用户最佳利益形式等新社会指标上也创下新高。不过研究人员也观察到另一个趋势, oppo 四点八开始表现出揣摩评估意图的倾向,也就是说,他知道自己在被测试, 有时会刻意给出考官想看到的答案,而不是他真实会做的答案。这是一体两面,说明他更懂人类了,但也带来了应试心理的风险。业界正在激烈讨论这究竟是好事还是坏事。除了主模型, andrewic 还打包了三个实用更新。 一, effort control 努力等级控制,你可以在官网上选择 ai 思考深度,低档响应快,高档平衡,还有 extra 和 max 档,专门死磕难题。第二, fast mode 又快又便宜,速度提升到原来的二点五倍,但价格比上一代便宜三倍,每百万输入 token 十美元,输出五十美元。 第三, messages api 支持中场注入,可以在对话中插入新的系统指令,且不破坏缓存,对长时间运行的智能体工作流是个隐形大杀器。价格方面,标准模式定价每百万输入 token 五美元,输出二十五美元,与上一代持平。上下文窗口一百万 token, 单次输出最高十二点八万。 token 可用渠道覆盖全球 cloud 官网 pro max team enterprise 用户都能用。 api 代号 c l a u d e o p u s 四杠八,同时, amazon bedrock、 google vertex、 ai、 microsoft foundry 三大云平台同步上线。 当然, opus 四点八并非全面碾压,在 terminal bench 二点一终端编程测试中, gpt 五点五得分百分之七十八点二,仍高于 opus 四点八的百分之七十四点六。也有分析师指出, gpt 五点五在任务执行稳定性和可访问性上依旧有优势。 ai 竞赛远未结束。最后聊聊行业含义,对于开发者, 资深工程师终于可以放心的把最难的活交给 ai, 他 会自己规划、自己调试、自己写测试,还会自己反思 ai 结队对编程正在向 ai 工程师的方向引进。对于企业 代码库级别的迁移、合规审查、安全审计,过去需要外包团队半年的项目,现在一个工程师配合 opus 四点八可能两周就能搞定,生产力的杠杆正在被指数级放大。对于整个行业, entropic 同时透露,下一代名为 missiles 的 模型已经在小范围内测,能力远超 opus 四点八, 但计划在未来几周向更多客户开放,并非永久锁死,四十一天迭代一次,估值超越 open i 编程精准显著领先。 antropic 正在用 oppo 四点八告诉全世界, ai 编程正在加速进入工业革命阶段。

anthropic 周四发了新旗舰 opus 四点八,正常来说,这期应该先讲它在第三方综合榜上重回第一。结果大家用 opus 四点八做身份测试时, 发现它在中文追问里偶尔会说自己是谦问,甚至是 deep seek, 也就是说最强的旗舰模型之一,被大家怀疑用了国产开源模型训练,或者被中文语料带偏了身份。本周先从它开始说。第一件, anthropic 发布 opus 四点八被测出,自称千问。五月二十八号, anthropic 发布 cloud opus 四点八。单看发布信息,这应该是一次标准的旗舰小步快跑,距离上一代 opus 四点七只隔了四十一天, 价格不变,编码、知识、工作 agent 任务都有提升,第三方综合榜也重新冲到第一。但大家讨论的不是跑分,而是身份测试。中文社区用 anthropic 官方 api 跑身份测试题,发现 oppo 四点八在反复追问时,有时会说自己是千问, 有时会说自己是 deep sea。 这件事有二种可能性,一种可能是 anthropomorphic 蒸馏了国产模型,另一种可能是语料污染身份。回答这种东西很容易受训练语料和对其数据影响。过去一年,互联网上千问 deep sea 生成的内容太多了, 如果训练与料理混进大量,我是千问,我是 deep seek, 这种文本模型在中文身份问题上被带偏,是一个合理解释。第二件,同一天, cloud code 加了动态工作流。 anthropic 五月二十八号不止发了 opus 四点八,还给 cloud code 加了 dynamic workflows, 也就是动态工作流, 目前还在研究预览阶段,这个功能的意思不是简单多开几个窗口,这是 cloud 先写一个编排脚本,把大任务拆成很多小任务,再让多个子 agent 分 头执行, 最后还可以用验证 agent 检查结果。以前是一个 agent 从头做到尾,现在变成主 agent 规划子 agent 干活儿,验证 agent 叫验。 在未来, cloud code 不 只是陪你写代码,而是变成一套能长期自动运转的工程自动化系统。第三件, codex 的 桌面能力继续扩展。 openai 本周更新了 codex 的 两项桌面能力。五月二十一号, codex 的 mac locked computer use 更新,支持符合条件的 mac 用户在电脑锁屏后仍然远程让 codex 继续工作。 五月二十九号, codex 又把 computer use 扩到 windows, 能看屏幕、点鼠标、敲键盘,在前台操作 windows 应用。现在 codex agent 不 再只待在编辑器、终端或浏览器里,它开始真正接管桌面流程。以前很多自动化卡在应用没有 api, 现在 codex 可以 直接看界面、点按钮、复制内容验证结果。当然限制也很明确, mac 合上盖子不行, windows 也需要保留登录、绘画。而且 computer use 本质上是在前台操作,不适合把它当成完全无感的后台任务。 openai 把 agents 继续扩展到桌面流程里, ansapic 则把 agent 推向多子 agent。 编排和长任务执行 两条路不一样, codex 这边强调操作用户桌面, cloudco 这边强调把复杂工程任务拆开并行推进。第四件,千问三点七 max api 上线后, irana 国产第一。 阿里这次的千问三点七 max 是 面向 agent 任务的闭源旗舰模型,它已经通过阿里云、 model studio 等通道开放 api, 千问三点七 max preview 在 arena 文本榜排到全球第十三,千问三点七 plus preview 在 视觉榜排到第十六,国产模型里都很靠前。虽然距离 cloud gpt 第一梯队还有差距,但千问三点七 max 已经不再只是性价比替代,它在公开榜单上的位置已经进入全球前排, api 也已经开放,可以接近真实产品和 agent 工作流理验证。第五件, github 上一个 coding agent 工具火了。本周 github 上比较值得看的是 zelix 团队开源的 code context, 它不是新模型,也不是新的编辑器,而是一个让 coding agent 查询整个代码库上下文的 mcp 工具。简单说,先用 milos 把代码库做成缩影, agent 跑任务的时候只拿相关代码进入上下文,不用每次把整个目录都塞进去。 cloud code、 cursor codex 这类支持 m c p 的 coding agent 都可以接入类似能力。现在 agent 写代码的瓶颈不只是模型够不够聪明, 而是它能不能在大项目里找到真正相关的上下文。 antropic 的 动态工作流解决的是并行执行, sql context 这类工具解决的是上下文定位,一个负责把任务拆开跑,一个负责把相关代码找出来,这两个如果结合起来会更好。 最后简单整理一下, agent 正在离开聊天框,进入桌面云端和代码库上下文,但同时模型身份混淆、语料污染、 agent 执行边界这些问题 也会变得越来越重要。这就是本周最重要的信号。这期先到这,你还想让我继续展开哪个点丢到评论区,我下一期接着讲。

就在今天, a 社又发布了 opus 四点八,距离上一版四点七只过了四十一天,这次到底更新了什么?值不值得关注?文哥帮你拆清楚。 先说最重要的一点,价格没变。 opus 四点八的定价和四点七完全一样,输入五美元,输出二十五美元,加量不加价。除此之外,还有三个亮点值得一说。第一,代码能力继续拉开差距。 a 政的编程得分从四点七的百分之六十四点三提升到了四点八的百分之六十九点二, 跨学科推理得分从百分之五十四点七跳到百分之五十七点九,这两个数字听起来可能没什么感觉,问哥帮你翻译一下, opus 四点八的 agent 编程得分百分之六十九点二,而 gpt 五点五只有百分之五十八点六,下一个竞争对手是百分之五十四点二。也就是说,在代码这个赛道,四点八不只是进步了,是把对手越甩越远。 第二,诚实度。这是问哥觉得最有价值的一点。安卓 root 说 oppo 四四点八比四点七少四倍的概率让代码缺陷在没有标记的情况下通过。换成人话就是以前 cloud 有 时候会悄悄放过代码里的问题,现在他会主动告诉你这里有个坑。你注意一下, ai 最可怕的问题从来不是笨,是一本正经的糊弄你,还让你信以为真。这次四点八在这块真的往前迈了很重要的一步。 第三,新功能主要面向重度用户, cloud code 新增了动态工作流功能,可以处理超大规模的问题。这是在单次绘画中规划任务并运行数百个并行子 agent。 说直白点,以前你让 cloud code 处理一个十万行的代码库迁移,中间可能要你反复介入。现在它能一次性拆成几百个并行任务同时跑,从头跑到合并,你只需要在旁边看着。 另外还新增了努力程度控制,你可以告诉 cloud 这个任务你要它花多少精力。日常清量任务省偷,更复杂,硬核任务全力出击,不用每次都跑满。 fast 模式现在速度是标准模式的二点五倍,而且比上一代的 fast 模式便宜三倍。如果你是重度代码用户,直接升级,没有任何犹豫的理由。代码能力继续领跑。城市度提升,意味着你 review 代码的时间会变少,它会替你标出来。 如果你是跑复杂 agent 任务的开发者,动态工作流这个功能值得认真研究。大规模并行,此 agent 这个能力之前是没有的。如果你是日常写作或普通办公用户,这次更新的核心在 agent 和代码侧,对你的直接影响有限。 samet, 四点六对你来说依然是性价比最高的选择,不用急着换。 最后补一个背景信息, android 目前最强的模型其实不是 oppo 四四点八,而是内部代号 metos 的 模型,它的能力比四点八还要强,目前只对少数机构开放测试。 metos 级别的模型将在未来几周内向所有用户开放。 也就是说,四点八不是终点,只是目前能用到的最强版本,后面还有更猛的在路上。文 model 实验室,不讲噱头,只聊干货,我们下期见。

你们在使用 ai 的 时候啊,有没有被 ai 坑过啊?我这边呢,被坑了无数次啊,就你让他去写代码的时候呢,他告诉你我已经完美运行了,并且呢也做完了,结果你一打开一测试全是 bug。 然后呢,你又让他去查一些资料,他给你编了三篇看起来又特别真,然后其实根本都不存在的一些参考文献。那这个呢,他不是 ai 笨啊,而是他这个东西啊,是一个致命的毛病,他不会说我不知道, 他宁可去编啊,也不愿意承认自己,他不会,或者是说自己拿不准。那么在这两天, osobeek 公司呢,发布了 cloud ops, 四点八干的第一件大事啊,就是去解决了这样一个毛病啊,没有怎么去催他的性能,反而呢是把篇幅留给了一个很少被当卖点的一个词,就是诚实。 以前的 ai 啊,有一个通病就是你的任务没有干明白,他就拍胸脯说,我已经给你做完了,就给到你结果了。比如说我们刚才给大家去开发了一个功能, 那他确实已经给我实现了,但是我在测试的时候啊,发现只是一个静态界面,也就是说他只给我实现了 ui 的 界面。这次的版本升级当中呢,他的一个判断能力更加强了,在编码的时候啊,他能够提出正确的问题, 然后在这个过程当中呢,发现自身的问题并且解决。那么在你的计划不合理的时候呢,他也能够给你提出一些建议。那翻译成大白话的话,就是说他现在开始自己检查自己了,同时呢,他也会大方的承认他自己错了。 那对于让你们知道现在的这个版本升级相对于其他的模型的评分高低,我觉得这个呢还是比较重要的, 那这一次的性能提升呢,他也是有的,我们着重呢来看一下这几个方向,第一个呢就是我们的编码能力,第二个是终端编码能力和我们操作电脑还有一个知识工作。那通过这四款我们来看一下, 那这一次的主角呢是四点八,那在编码能力上面呢,它是一个他们通过同样一套模板数据跑出来的一个成功率啊,那这是百分之六十九点二,但是在 g b d 上面呢,它是百分之五十八点六,在界面上面呢是百分之五十四点二。 然后在终端的一个编程能力上面呢,它不如我们的 g b d 五点五,那它是百分之七十四点六,它是百分之七十八点二。 那么在操控电脑上面和我们的知识工作上面呢,他都是有一个很高的一个成功率和他很高的一个评分啊,那这个评分表呢,也不能作为我们实际的一个使用参考,大家呢还是要根据自己的习惯啊,去选择不同的智能体和模型。对于普通用户来讲的话,本次的更新呢,有两个比较有意义的功能啊, 第一个呢就是努力程度调节,也就是算力模式的调节,你能够选择 cloud 干活有多卖力,那赶时间的话,大家可以使用 fast 的 模式做一些简单的任务,那么回的快呢,也有省额度,那性能跟四点七差不多啊, 那遇到硬骨头和复杂的逻辑呢,我们就可以使用默认的模式,那他想的更深,然后答的也更好,那帮你做的事情呢,也就更精细化。第二就是动态工作流,那么听着呢,还是挺复杂的,其实啊,就是一句话, 它同时能够一口气派生出来几百个子的自媒体,同时帮我们干活。那官方说的也是很直白,以前我们要用季度来排气的大工程呢,现在呢几天就能够干完了。 那么举个很炸裂的例子啊,就是有一个开发者啊,他用了一个几十万行的大项目,彻底呢用这种方式呢给他重构了一遍,那么一共有七十五万行代码,那么百分之九十九点八的代码呢,是测试通过了,从动工到完成一共只花了十一天。 这种工程啊,以以前的话,在我们团队里面是要花几个月的量,然后才能够进行完成的,现在啊,花了十几天我们就能够去做完了。我这边呢消耗了一共四百二十万的头,肯来给大家去演示一下之前一个团队需要花一个星期或者是半个月进行的 code review 的 任务, 我们怎么在十分钟内给他搞定?那这边的话,我让他帮我创建了一个动态工作流,那么分了二十个机器人用来做 code review 的 任务, 那审核的是我们当前的短距的这样一个软件啊,那么这个软件的话,稍后呢,我也会把它放到我们的交流群里面,供大家免费的进行使用。当你下达指令以后呢,他就会去了解你的项目结构,以及你的代码文件当中的每一行代码, 因为每个人的需求和项目都不一样,他就会根据你的项目啊去创建一个属于你当前项目匹配的动态工作流。那我这边的话,根据我的 code review 的 任务,他就帮我创建了一个动态分组,然后带到并发审,然后对抗式验证,最后呢就是进行一次汇总, 那这样一个工作流,那大家看啊,我这边一共二十个机器人,那这二十个机器人呢?第一步他把我们五十六个代码文件切成了二十组,每组读文件呢就是多维度的去读,比如说呢,我们在 bug 维度,在安全的维度,在类型安全的维度,在质量的维度,那信任的维度, 那这一个所有的做完以后呢,他就会交给我们的验证的这个智能体,然后让他去做一些验证,是不是符合我们的一个规则,那 code review 的 一个规则,那如果说符合的话,我们再把结果呢给到我们的这个 汇总智能体,然后他就会帮我们进行汇总。接下来呢我们来到工作流的内部去看一下他的运行过程,那在 review 的 部分呢,他一共分了二十个按键, 那这边要提前给大家去声明一下,那么我们这边整个过程呢是跑了十分钟,大概消耗了四百二十万托肯, 那么按官方的一个价格换算过来的话,我这边大概跑了有八百八十六人民币。大家可以很明显的看到啊,当我们的 review 里面的智能体执行完毕以后呢,他会把结果丢到我们的第二步验证的这个智能体里面进行运行。 这边呢一共执行了一百六十一个智能体,最后我们的然后使用了四百一十八万的这样一个托肯, 那么这个工作流呢,也会打包成一个 g s 的 文件脚本,那么这个脚本也是你们可以进行重复使用的,同时你们也可以把这个报告打包成一个 pdf 或者是 word 文档,提交给相关的人员进行审核。那这个动态工作流啊,可以大大的减少了我们的一个时间成本,那这整个 code review 的 过程啊,大概就是这个样子, 这个动态的工作流不仅限于可以做 content review, 它可以适用任何场景,任何的需求。我使用这种方式呢,花了半天的时间给大家去做了一个爆款短剧生成软件,如果大家想知道制作过程的话,可以给土豆一个一键三连, 如果说数据好,我们将在下一期给大家分享制作过程,大家也可以加入我们的讨论组进行交流,加入的方式在我的主页,本期的视频内容呢就到这了,我们下期再见,各位,拜拜。

cloud opus 更新来了, answerphuback 发布了 cloud opus, 四点八,价格和四点七持平, 但这次它不是指变聪明了,而是更老实了,不确定会说不确定,代码有坑,也更愿意自己指出来,少一点应变答案。同时上线的还有 fast mode, 同一个模型输出最高快二点五倍, 不过这是溢价模式,只是比旧版 fast mode 便宜了不少。真正的大招是 cloud code 的 dynamic fork flows, 你 给他一个大任务,他会自己写工作流,拉起几十到几百个 sub agent 并行干活儿, 干完以后还会让另一批 agent 去复合挑刺儿收敛。官方拿 boom 迁移做案例,从 zig 到 rust, 约七十五万行代码,百分之九十九点八测试通过,十一天合并。 但官方也明确说了,这玩意非常非常烧头肯,所以它不是给你修小 type 用的,更适合大仓库迁移、安全审计、性能排查这种重活。以前是一个 cloud 陪你写代码,现在像是 cloud 拉了一整个工程小队来干活。关注我,带你了解更多 ai 资讯。

不是四点八张嘴说自己是三点七还是千问?三点七不是,兄弟们,我说真的,这现在你在克劳德,你可是天天骂别人 distillation 的 啊,有的时候有的兄弟们拿问题问你,你说自己是千问啊,甚至有的时候追问还会说自己是 divx, 我是 不大相信的,因为我自己在克劳德的所有路口上没有问出来这种话, 所以我说一点啊,首先有没有可能是你买的中转站啊,然后中转站的哥们呢?想着对吧,想着那种比较简单的问题对吧,就赚你一笔,毕竟那克劳德一百块钱回答的问题,那用国产模型也就三五块对吧?就就就赚你一笔啊,这是一个可能性,另外一个可能性 那就是克劳德真蒸馏我们的开源啊,也就是说大家都互相蒸馏,谁也别说谁是啊,高尚的你以为的纯原创也是喝别人的 milk。 所以 兄弟们啊,这个蒸不蒸馏的以后谁也别喷谁,现在连克劳德都能说出自己是三点七 k 问了,还有啥自行车不知道。

antictic 刚刚发布 opus 四点八了,最狠的是没涨价和四点七铜价,铜价升级这次强在哪?主要是代码能力。 s w e batch pro 从六十四点三涨到六十九点二。 cloud code 团队负责人 boris 直接说,这是目前最强代码模型,但比跑分更重要的是,它变得更像一个靠谱程序员了。第一,写代码时漏掉自己 bug 的 情况比上一代少了四倍。 第二,他会主动说我不确定,不再应编答案。第三,他能独立工作的时间更长,不是坐两步就停下来等你指挥。也就是说他不只是会聊天,而是更能长期干活了。对, 而且浏览器代理测试百分之八十四,律所代理测试也首次破百分之十。这说明 cloud 正在从回答问题走向真正执行任务。所以 oppo 四点八的重点不是参数,而是 ai agent 更稳定更诚实,更能干活了。

不是兄弟们,劳德,克劳德昨天发四点八, oppo 的 四点八,然后同一天的消息六百五十亿美金融资到账。 我去,现在的 ai 真的 这个记录我估计以后也诞生不了类似的东西了。已经六百五十亿美金,马斯克的那个 space x 被吹上天,他也只是要融七百五十亿美金,而且那是最后一搏呀。那是 ipo 啊, 克劳德可以在一级市场融到六百五十亿美金,加上他这个今年年初的时候还是什么时候融的那三百亿美金,他在没上市的时候就融了一千亿美金以上, 然后估值九千六百五登顶全球 ai, 然后现在啊,阿波罗黑石一起凑了三百六十亿的债, 帮克劳德一起买谷歌的 tpu 再租给他,这也是史上最大的芯片租赁交易。所以还在那喊 ai 泡沫呢。 我不知道,你是看别的兄弟们吃成巨人官了,你急了?你诅咒大家,大家吃几年了?你诅咒大家?还是说你实在耳朵听不进去那三个字?就是嗯为嗯还是怎么样?什么别的原因我不了解, 但是现在的一切东西都印证着超级曲线的拐点斜率才只是拐点斜率增加,结果你跟那喊两年泡波,你大空的挺苦吧。包 你要知道克劳德这回融资融完之后不光彻底登顶 ai, 连现金储备都登顶了。 ai 公司上市的不算啊,专打 open ai。 克劳德这一回说白了马斯克功不可没,租给他巨兽一之后算力突然爆棚,多次重置每周额度,然后重新迎回开发者。 昨天 opus 四点八发布,现在 open ai 背水一战了。赶紧上五点六吧, gdp 大 升级,牛马的吧。