called opus 四点八发布了,它在 opus 四点七的技术上提高了它的这个更灵敏的判断力,对自身进展的城市度也提升了非常多,能够比起上一代模型独立的工作时间更长,又是一个领先世界的模型。
粉丝804获赞1.1万

昨天夜里克拉的更新了新的模型 office 四点八,咱们今天就用大白话来讲一讲它都更新了哪些能力。第一个就是写代码,它更稳, 以前你让 ai 改一个大项目,它可能改一改就乱了,现在 office 四点八更适合处理复杂的代码、大项目和长任务。 第二就是它可以把大任务拆解开来做了。比如你让它改一个很大的系统,它可以先规划,再开始分头处理,最后再检查结果。就像以前是一个人干活,现在像一个小团队了,这个功能官方的名字就 dynamic workflows。 第三呢,就是它更诚实了,幻觉率更低了。这点很重要啊,就很多 ai, 它最大的问题就是一本正经的胡说八道。 opus 四点八可更愿意告诉你,哎,这里我不确定,这里需要检查一下, 这里可能有风险。这对创作者来说是特别重要的,因为你用 ai 写内容的时候,最怕的就不是他写的很慢,而是他把假的写的很像真的。第四呢,就是他可以选择思考的力度了,简单问题就让他快点回答,那复杂的问题,让他多想一会。 这个功能对日常来说还是很实用的。还有一个变化就是对程序员很重要。以后开发 ai 工具的时候,你可以在任务中途调整 koala 的 指令了,不用从头再来了。我今天就实测用 office 四点八跑了一下我自己的自媒体 skill。 第一呢,就 koala, 它更适合改稿了, 你写了一段文案,它不仅是帮你润色,它更擅长判断哪里啰嗦了,哪里不像人话,哪里情绪不对,哪里节奏断了。 第二个就是 collude 呢,更保持我自己的风格,保留了我的语气和判断,更有人味了。第三呢,它更适合长内容。比如说,你要做一篇长文呢,一套选择题,一个系列的视频。 collude, 它更擅长接住上下文了, 不容易,聊着聊着就跑偏了。这对自媒体来说很重要,因为内容不是单挑包袱,而是一整套系统的表达。第四呢,它更愿意告诉你问题在哪。 g p t 五点五呢,很强,效率很高。但是, cologne 四点八,它明显强调了就是诚实和写作的能力, 它不会总是假装什么都没问题,它更愿意提醒你,哎,这个角度是不是太普通了?这个标题没有记忆点,这段逻辑不够顺,所以我觉得普通创作者你就可以这样选。 如果你想快速查资料,快速生成一版内容,五点五, gpt 五点五,很好了,足够了。但如果你想打磨一点观点,改一下口播,做个长文,统一一下风格, cloud office 四点八会更舒服。

主要的,前天发布了 oppo 的 四点八,我来说说真实的使用感受啊。先讲一个很多人都没注意到的背景, sorbike 这次更新的速度非常反常, oppo 的 四点七发布了才一个多月,四点八就出来了。这背后的原因大概率是因为四点七的口碑确实不太好,以及 qq 五和扣带子客户端的加强有关系。 因为很多用户反馈四点七它存在变啰嗦、代码注是堆太多工具掉也不太够干净之类的问题。 sorbike 官方自己也变相承认了四点七确实存在一些小问题,只是它的措辞非常保守。 后面有几个点我觉得值得单独说一下。第一是这个比较实用的新功能,我觉得比模型本身可能更值得关注。可拉扣子出了一个叫 iphone 的 响应力度控制功能,分成几个档位,你可以根据任务的难度手动调整,做简单任务时就调低档,省时又省力。做复杂分析或者大型代码任务时就播到最高档,可以让他多思考一会。 但我的使用感受是,你开到 x i 之后的档位速度是真的很慢。这个功能对于高频使用 cc 的 开发者来说,合理分配 iphone 的 效率真的会高出很多。 第二,诚实度。四点八写出有问题的代码时,主动告诉你哪里有风险的概率比上一代大约高了四倍。这个听起来有点需要,但是对于高品用 ai 做项目的人来说还挺重要的。因为 ai 最让人头疼的地方从来都不是他不会,而是明明他犯错误了,还要表现的特别有把握的样子,最典型的就是某包了。 第三是编码能力,这一代拿真实开源项目里的 bug 去测读代码定位问题,改文件跑测试全套流程接近九成的教到可用,更复杂的靠文件重构,老项目迁移这类活完全率也比上一代提升了接近五个百分点,数学推理方面的升级更夸张。 另外快速模式这次也便宜了很多,速度能跑到以前的两倍半,改项目的时候很合适。价格层面没有变化,和上一代完全一样。 总的来说,四点八并没有带来什么质的飞跃,只是把四点七的漏洞给补全了,幻觉率和知识截止点包括待机使用量都和四点七完全相同,顺便它也加强了一下用户的提感,还是蛮期待下一代的 misos 的。

cloud ops 四点八封神?还是欺诈 拆穿 antropok 最危险的一次豪赌?大家好,我是 ai 启示录。就在二零二六年五月二十九日,过去四十八小时,全球 ai 圈被一颗炸弹炸成了两半。 antropok 深夜发布 cloud ops 四点八,同时宣布以九千六百五十亿美元估值完成六百五十亿美元融资。 六十二天前, openai 的 八千五百二十亿估值被一脚踩在脚下,但紧接着发生的事情让所有围观者后背发凉。科技界分裂成两个阵营,一方高呼封神,另一方公开拆台。同一个模型,为什么会出现两种截然相反的审判? 这根本不是一次普通的产品发布,这是 entropic 在 资本、技术和信任三线同时发起的豪赌,而赌注是你对智能的感知。时间倒回,北京时间五月二十九日凌晨, entropic 官方博客悄无声息地更新了一行字, cloud opus 四点八,即日起可用。这不是一个常规升级, opus 四点八被定位为更强大的复杂任务,模型编程、智能体任务、长时间推理。更狠的是,官方在文末轻描淡写的补了一句,代号 mesos 的 下一代旗舰几周内即将面世。 与此同时, antropica 放出两条财务炸弹,估值九千六百五十亿美元,融资六百五十亿美元。这是什么概念? 六十二天前, openai 刚以八千五百二十亿美元估值完成融资, antropic 不 仅反超,而且直接把差距拉到一千一百三十亿美元。 但真正让人细思极恐的是,实测之后的分裂。一方是以评测媒体 every 和部分硬核生产力用户为首的狂热派 every 团队经过一周深度测试后,给出了一个近乎失控的结论,这是我们测试过的最强模型,它简直是个怪物, antropic 完全可以直接叫它 opus 五, 根本不会有人有意义。他们声称 open 四点八是最全面、最接近人类灵魂与顶尖工程师结合体的模型。另一方是以 rubicon rails 创始人 d h reddis 支付 antiser 为代表的开发者老炮 d h 直接在社交网络上开火。 自从用了 gpt 五点五之后,他经历了无数次震撼时刻,这在 cloud 的 阵营已经很久没有体会到了。 enteris 更尖锐,他认为 anthropic 在 精准测试的宣传上犯了重大错误,跑分虽然险胜,但实际编码体感依然落后。 同一个模型一边封神,一边被公开拆台,这到底是怎么回事?让我们一层一层撕开。先抛出一个颠覆性结论, opus 四点八不是一次技术跃迁,而是一场精心设计的认知欺诈。他的真实面目是一个被算力堆砌出来的分裂人格, 在极高的推理强度下,他是顶尖工程师,在普通强度下,他瞬间退化成平庸马农。这种分裂不是技术缺陷,而是商业策略。 and theta 再用一种极其隐蔽的方式把你按智商分级,然后收割。你以为你买到了智能?不,你买到的是一张分级门票。 先来看艾瑞发布的高级工程师精准测试,在超高强度模式下, opus 四点八拿下六十三分,比上一代 opus 四点七暴涨三十分,以一分优势险胜 gpt 五点五的六十二分,艾瑞团队还让他重构一个生产级代码库,结果完美运行。这组数据看起来无懈可击,对吗? 但网友 higer 挖出了一个致命细节,我注意到了一个现象,四点八在低强度下消耗的 token 几乎和四点六在高强度下一样多。 gpt 五点五倾向于用更少的 token 拿到更高的分数,而四点八似乎走向了反面,它在用海量的 token 堆砌。智能 翻译成大白话, oppo 四点八的高分是用巨额算力硬砸出来的,它不像 gpt 五点五那样举重若轻,而是用暴力计算换精度。 这就解释了为什么评测机构必须把强度拉到 extra high 才能看到那个六十三分的资深工程师,一旦降级到 high, 编码得分瞬间暴跌至四十二分,秒变平庸。马农写作测试也一样, medium 档位下的 oppo 四点八暴露出 ai 最糟糕的套路化写作恶习,只有拉到 high 档位才文笔优雅。 一个模型三个档位三个智商,你品一下。更重要的是, d h 和 antrizona 公开拆台,打中了 antropica 最脆弱的地方。 antrizona 的 论坛极其锋利,过去的厂商比拼,往往拿新一代模型和自己的上一代比, 但 antropica 非要和 gpt 五点五比。问题在于,现在全网的题感是, gpt 五点五写代码的能力非常非常强悍。当你 antropica 拿着一张图表告诉大家,你的 op 四点八跑分比 gpt 五点五还高, 但我们用起来却觉得并非如此时,你不仅不能证明你更强,反而会让用户觉得你们的精准测试是在自娱自乐,彻底失去公信力。网友 aditi 的 吐槽更直接, 用了快一个小时的 oppo 四点八,它根本不值得炒作,几个很普通的工程任务它全搞砸了,前端领域也感到失落,用了几个小时四点八,感觉还不如四点七顺手。 这印证了一个残酷的现实,当跑分与体感脱节,跑分就变成了一堆废纸。而 enter public 这次亲手把自己的精准测试推上了审判席,就算模型本身有实力,套在它外面的那层壳也在严重拖后腿。大牛工程师 anthony kogan 的 评价一针见血, 一个模型的好坏取决于套在它外面的那层壳,而 oppo 四点八的壳几乎可以用灾难来形容。 多位深度评测者指出, cloud 桌面端的 chat、 code、 call、 work 三个独立标签页分割的混乱不堪,被戏称为带着时间推移的伤疤和 antropic 内部组织架构图的缩影。 相比之下, openai 的 codex 桌面端应用被公认为干净、快速,让人感觉这就是未来。更致命的是, rate limits 由于高强度模式极度消耗资源,大量订阅了两百美元每月 max 套餐的高端用户反馈,在运行复杂 agent 任务时,常常几个小时就会撞上额度墙。 网友 bridgemind 的 直言,自己为了测试,连续烧穿了两个两百美元的账号,这意味着什么?你想体验那个六十三分的 opus 四点八就得付两百美元月费,然后几个小时就被限额卡死。你想继续测,再烧一个账号?这哪是订阅制,这是按智力等级收费的饥饿游戏。 这场争论的高潮是一张 astropica 自己制作的官方发布图,眼尖的网友 aikashgupta 发现了一个极不寻常的细节。 在 anthropic 发布的各模型能力对比图中,在 terminal coding 这一项上, gpt 五点五的成绩是百分之七十八点二,而 opus 四点八只有百分之七十四点六。正常情况下,任何一家大厂的公关部都会把输掉的测试项悄悄从 ppt 上抹去, 但 antropic 没有。他们不仅把失败留在了图标上,甚至还主动把 g p t 五点五那代表胜利的百分之七十八点二做了加粗处理。 a o cash 对 此大加赞赏,认为这显示出 opus 四点八的核心卖点,诚实。 官方数据还显示,四点八在代码中留下缺陷却不声张的概率比四点七降低了四倍,但 d h 和 antirez 完全不吃这套。 antirez 指出, antropic 这次把 g b t 五点五放在同一张图里对比,犯了一个重大的战略错误。 当你试图证明自己更强,但用户的体感是你在自娱自乐时,你的攻心力就会瞬间崩塌。这一步棋的真正杀机在于, antropic 赌的是诚实这个差异化定位,但代价是暴露了自己的不自信。 一个真正领先的模型,不需要通过加粗对手的迎面来证明自己诚实。为什么 opus 四点八会呈现出如此复杂矛盾的评价?一个不容忽视的数据是, opus 四点八距离上一代四点七的发布仅仅隔了六个星期, 这是 antropics 历史上最快的一次大版本迭代,此前每个 opus 版本的间隔至少在十周以上。资深观察家 bridge mind 的 一针见血地指出了真相, 这完全是一次仓促的发布,因为 gpt 五点五正在疯狂蚕食市场份额。顺着这条线往下挖,一个更加庞大的资本网络逐渐清晰。 anarchic 刚完成六百五十亿美元融资,估值九千六百五十亿,这个数字恰好踩在 openai 的 八千五百二十亿之上,就差把我比你大写在脸上。但问题在于,资本市场需要故事,如果你不能在融资后立刻交出令人震撼的产品,估值就会变成空中楼阁。 gpt 五点五的发布,已经让 openai 重新夺回了舆论高地。 entropic 等不了完美的 missiles, 只能先把 opos 四点八推出来当创可贴,修补四点七的毛病,去几个 a 阵的榜单上刷存在感,维持一个我们还在战斗的形象, 真正的杀招是几周内即将面世的 myos。 但这句话本身就透着一股仓皇,一边说 opos 四点八是旗舰,一边又说 myos 才是真正的质变。 那 opus 四点八算什么?过渡频还是炮灰?现在让我们把五层拆解串起来,你会发现一个让人后背发凉的结论, opus 四点八不是一次技术发布,而是一场资本驱动的认知分级实验。 它的神奇表现被锁死在 extra high 强度档位,而这个档位需要订阅两百美元每月的 max 套餐,且几个小时就会撞上 rate limits。 这意味着绝大多数普通用户根本体验不到那个六十三分的工程师,你买到的只是一个四十二分的平庸马农,这不就是变相的智商税吗? 你以为你订阅了旗舰模型,实际上你得到的是一台被软件限速的法拉利。同时, antibiotic 的 诚实营销本质上是在转移注意力。当 d h h 和 enterase 质疑跑分与体感脱节时, antibiotic 不 会去修复体感, 而是会反复强调。我们主动公开了失败项。这是一种极其精妙的蓄势操控,把自身的缺陷包装成美德。而最讽刺的是那个被吹上天的企业级应用,沃顿商学院教授 eton molyk 用 opus 四点八自主生成了学术论文,恰恰暴露了另一个问题, 这种能力对百分之零点一的顶尖用户是利器。对百分之九十九点九的普通用户是屠龙刀。你用不上,但你得为它付费。 接下来十二到三十六个月,你会看到三件事同时发生。第一,旗舰模型的能力将全面超出普通人的分辨上限。就像网友 machina 说的,我们已经跨过了那条线。现在的旗舰模型已经超出了绝大多数普通人分辨其优劣的能力上限。 唯一真实的 benchmark 就是 你自己的工作流,这意味着跑分将彻底沦为公关工具,而真正的战场会转移到谁的模型在你的具体任务上更好用?第二,订阅制的 read limits 会成为新的商业模式。模型越强,算力消耗越大,厂商越有动力限制你的使用额度。 你会看到一个奇怪的现象,你花两百美元一个月买来的无限套餐,实际上是个有限套餐,只是额度比低端套餐高一点而已,这是变相的按次收费。 第三, anslap 和 open ai 的 估值竞赛会催生更多创可贴式发布,当资本要求每个季度都有新故事时,厂商就会把半成品推上前线。 oppo 四点八不是第一个,也不会是最后一个,记住三个字,速核信。 速度决定发布节奏,外壳决定用户体验,信任决定谁能活到最后。而 osropic 这次在速度上抢跑了,在外壳上翻车了,在信任上玩火了。 opus, 四点八是一面镜子, 他照出的不是 ai 的 进化,而是资本如何把技术变成分级工具,把诚实变成营销话术,把订阅变成变相收割。当你为那个六十三分的工程师付费时,你买到的可能只是一个四十二分的自己。我是 ai 启示度,感谢点赞与关注,我们下期再见。

android 发布了他们的最强模型 cloud of 四点八,老规矩,我不想跟你念参数,那我其实只关心一件事情,就每次新发模型,我们把它丢进真实的项目里面,它的干活质量到底怎么样? 那这一次这一个 cloud of 四点八新发布的模型啊,我刚测完,我反而觉得 gpt 五点五加 codex 的 组合还能打,为什么呢?看到这个视频最后你就懂了,不过这一次有个东西是真的有意思,就是它这个动态工作流在 cloud code 的 里面,就是你只要一句话, 带上 workflow 这个关键词, client code 当场就给你写一段脚本,然后咔的一下拉起一个几十个上百个 agent 的 舰队,一起去帮你干一件大事。 我们来看一下它整个运行的一个流程图大概是怎么样子的。从这个图片可以看到哈,就是当我们 client code 里面你写了一个 workflow, 它这个时候通过脚本,然后去给你并发各种 agent, 那我们可以看一下它这个脚本长什么样子哈,其实也比较简单,就是它有每个阶段嘛,就是你是 workflow 的 一个流程,每个阶段,比如这个阶段它要排查啊,这个时候可以看到它这个用了一个 await, 是 吧? await 去并行运行了多个 agent, 完事之后走到这里得到了结果,这时候就回到你的主要的对话里面,它又开始去 定型,去开始第二个阶段,再去掉各个 a 镜头,大概就这样的一个工作流的一个过程。下面的话到我们的一个实测环节,这次的话我们用了我的一个开源项目,就是 c c 杠,哈哈,它目前的话有十一点九 k 的 star 是 一个,就是把 curl code 的 卸载原代码补齐,做了一个桌面端,还有 c o i 的 一个 开项目嘛,那这个开项目的话最开始也一直是 gpt 五点五加 codex 去迭代的,那这一次的话, cloud of 四点八出来之后,我要去做一个新功能,我们本期的一个实测哈,就是要让我们这一个桌面端,它在它的右侧能够对我们本地的一些 服务,比如说你用 react 或者是 vue 写了一些本地服务,这个时候我们要去点击,让它在右侧展现出来,或者是本地的一些 html 要拦截这个行为, 并且我们右侧要有要有一个小的一个浏览器预览,而且能够像 codex a p p 一 样,能够就在在上面去选中一些按钮啊,标题啊,或者一些块儿啊,能够去做定位,而且还能够直达答案,让它去修改。 在 codex 聊天中,当它改了哪些文件,比如说是 html 呀, markdown 啊,其实你都可以去点击,点击完它会在右侧去预览,而且下面也有这种打开的方式,也整体的交互,就相对来说挺棒的嘛。在整个桌面端,我认为现在 codex a p p 就是 目前交互最好的在桌面端来看, 那下面我们来看一下这个 html 它是怎么做到整哪打哪的?可以看到这个时候我们不是打开了这一个我们这一期视频的这个 ppt 吗?那它这边有一个模式的话,就是你可以去去,这样有一个选择器可以去选嘛?比如说我选中这一块啊,这个时候我就可以用自然元描述啊,我觉得这一块的 ui 交互啊,文案不行, 那就可以通过这样的方式让他去改,可以看到他就对我们这一个图片这一块加了一个备注嘛,对不对?然后还有我们这块的信息整体就是这个交互的功能,然后还有的话就是这个截图啊,他这个截图已经保存到剪切板,我们可以用大概这样的一个流程, 我们就希望我们这 c c 刚哈哈也支持这个功能,并且也有人在我们的 github 要求里面提出来了要这个功能,那我们就试一下。那今天的话 我用了 gbt 五点五以及我们刚刚看到了 kalco 的 off 四点八去做这个任务,那这边的话也是给了它五张 codex a p p 它整体的一个交互流程,并且我们也是用了这一个 superpowers 的 一个头脑风暴模式,相关的一些提示词都是一样的。然后我们去测试这个任务,我们可以看到 codex 这边呢,它最终启动了四十三个, 呃,三部 a 镜呢?帮我们把这个任务完成了,所以效果怎么样?待会儿我们再来看。那我们回到就是 clock code 这边也是用了陀螺风暴 t s 也是一样啊,也是同样的,就是每个阶段让告诉他我们最终这个设计文档要做成什么样子。有了设计文档之后,他也是去 各种实盘刹不住 a 进的去做。那在 codex a p p 这边的话,它整体的这个消耗可以看到今天我是烧了五亿的 token, 那 对于刚刚我们那个任务,大概我估算了一下,大概有三亿 token 这样子吧。 cloud 这边的话也是今天一天就烧了我这个一百刀的百分之二十的一个额度吧,一天就烧了,没有做其他的 任务,基本上没做其他的任务。好,我们下面来看一下两边的一个实现情况如何。好,下面我们来看一下 cloud 桌面端加 cloud off, 四点八,他去帮我们写了这一个 c c 杠,哈哈,桌面端就右侧这个浏览器预览的功能。 那这边的话我也给了一个提示词,就是让他帮我们产出一个 markdown 的 一个内容以及 html, 再让他去写了一个本地的一个突突项目嘛,就是用 react 去写。那最终他这边写完了之后呢? 啊,可以看到这里其实是已经他这边做了一个监测,当然这块的交互其实没有 code app 原声那么好,当然他也做到了,我们来试一下哈,就是我们在运用浏览器打开 啊,可以看到这个,是不是已经可以去看到这个这个网页这个预览效果了?那我们可以看一下截图功能,点一下可以看到这边其实也是可以用的嘛,是不是?那第二个的话比较关键,就是他这个检查元素嘛,可以看到他也是完成了,是不是?比如说我们就说这个按钮,我们就在这让他告诉他啊,我需要把这个按钮改成 就是这一个网页的主题色,你帮我改一下。另外的话,当前这个按钮的这一个 border 这些我也不是很喜欢,你去调整一下。 好,我们来去确定,你可以看到这边它就已经帮我们把这个东西做过去了,就是把截图嘛,就我们刚看到 codex app 那 边的一个交互,交互过去了,我们就可以去让它去做做这个事情。 那下面的话就是其他的一些功能哈,其他一些功能的话就是它可以在这边,比如说我们这是一个 markdown 的 内容嘛,所以说你可以在工作台去预览,基本上就是把那边实现了一遍。 其实整体实现还是挺复杂的,可以看到 codex 那 边他完成这个任务他都开了四十多个 java agent。 那 cloud 这边其实我没去统计,因为它这个过程没有像 codex app 那 边那么直接, 整体的效果其实完成度还可以,当然还有一些细节优化的点。好,我们来看一下扣贷 app 跟我们完成同样的功能,他是做的怎样子的?可以看到他在这一块, 在这一个行内,其实就帮我们把这一个要预览的这一个,呃,本地的地址啊,还有你的 markdown 啊, html 都做出来了,其实这块交互我觉得会稍微好一些。那么点过去看一下可不可以用,那可以看到都是同一个页面吗?是可以用的,刚刚我们说改按钮那个他其实已经改好了,是不是?那么看一下他这个截图可以用吗? 这个截图这个方式是这样子,它不是像呃 cloud code 实现那样子,是放一个图片在这里, cloud code 那 边会好一些。好,我们来试一下它这个定位也是可以的,可以看下,也是能选择某一个。我们选到这一块说一下,这个文字太大了,改小一点,字号改小一点, ok, 可以 看到它这个其实完成度也挺好的。那现在的话,其实我也没有想清楚,到底是把 gbt 五点五生成的这个核到我们的这个主干里面,还是说把 cloud 那 边去核一下?我可能会把 cloud 那 边的这一些 open 这边的加过来,然后用用 gbt 五点五的这种这种样式,最终把两个合起来,得到一个比较好的一个交互方式。那再看一下吧,从我四月份发布以来,就是从它泄露原代码,再加上我们做这个桌面端嘛, 一行代码的微信百分之八十的代码都是 gpt 五点五加这个 qd 写完的。可以看到我今天除了写这个项目以外,还做了其他一些功能。那下一个版本也在,应该是明天就会发布了,我需要去做一些就测试嘛,可以看到它真的是非常非常的好用,而且最关键啊,它不封号 是不是?那你如果是用呃 cloud 的 话,就是真的特别容易封号,我已经被封了四个了。好,下面我们来做一个总结。对于大多数人而言,我还是推荐你选择 qd 加 gpt 五点五。为什么? 你看我老婆这种律师哈,她现在都已经用上 codex 加 gpt 五点五来帮助她在平时的工作中进行赋能。打个比方,她平时有很多需要去操作 word 呀,然后 excel 啊,还有去填一些表单,这个是完全是可以用啊, gpt 五 点五加 codex 去做。再让我不最近也给她做了一个就是律师相关的一个工具嘛,因为她有她们有很多资料,其实都是需要在本地去操作,就是不能上云嘛, 比如说你像客户管理啊,还有一些合并 pdf 啊,这些都是可以照本地去做的。你说像这种工具,直接用 codex 去做,让它去描述你的需求,然后用那个就是一个 go 的 模式嘛,让它去做,完事之后再让它用 computer user 自己去测,它会自己去 啊,写完之后 build 出来这一个桌面的 app, 然后如果你看像我们这种不是需要去选择 pdf 嘛,对不对?如果你需要去选择 pdf, 它还会自己去打开这个,就像我们一样去打开,打开完了之后 去选择,然后去帮你去压缩,做这种合并,各种都可以做到。所以我为什么会推荐大家去使用这个呢?而且等待下一代模型发布的时候,它会更强。还有最重要一点嘛,就是 g p t 五点五, 你正常人用它一般不怎么封号,那 cloud off 四点八这边也挺强的,但是呢,它的门槛就会高一些,并且它的这个桌面段哈,它这个桌面段体验其实相对来说还是差, codex 会差一些,如果你这两个都用不了, 那你也可以用,就是我的这个开源项目就是 c c 杠,哈哈,这个开源项目也是开源免费的,也没有任何的一个门槛。你也可以用,就是各种国内的模型嘛,比如说你可以用 deepsea 呀,你看我这边其实都有,就 deepsea 呀,或者你可以用小米的呀,或者是智普,你都可以。那它基本上内核它也是 clio 的 本身嘛, ci 的 本身 功能我也在迭代,就看大家自己怎么样个选择。 ok, 不 管是 off 四点七四点八,它整体的这个发布啊,没有给我很惊艳的感觉,没有上一代从四点五到四点六的那个惊艳感, 那还是倾向于就是 g p d 五点六的一个发布,看它到底会带来怎样的改变?我现在基本上已经离不开 codex 这个 app 了,我最近真的狂用。我刚也给大家看了一下我的一个 token 消耗,最近一个月吧消耗了大概一百亿 token, 一 万多刀的一个消耗, 最近就是狂用,特别特别好用,而且运行起来也非常的方便。但是它也有一个问题,就是它容易内存泄露,我六十四 g 的 内存它有时候都能给我干嘛,就理解不了到底在干嘛。 ok, 那 这就是本期视频所有内容了,如果大家觉得这视频做的不错,可以给我一键三连,我是阿建,我们下期见。拜拜。

昨天 entropic 发了 cloud opus 四点八和 dynamic workflows。 opus 四点八是 entropic 旗舰模型的一次点版本升级,价格和四点七完全相同, 五美元输入美元,二十五输出每百万 token。 这次核心更新有三块模型本质的判断力和诚实度提升, dynamic workflows 以及用户可以手动控制思考。深度模型诚实度这块有一个具体数字代码缺陷,漏报率比四点七 低了约四倍。也就是说,他更愿意主动告诉你代码有问题,而不是假装完成任务。 opace 四点八同时是推理模型, 支持深度思考,也是多模态模型,支持图像和文档输入。要理解 dynamic workflows 解决什么问题,先说现有 agent 的 根本限制。一、 ai 经常假装完成做抠定 agent 任务时,代码里有 bug, 但不说给用户一种虚假的完成感,这是影响 agent 可信度的根本问题。二,大任务做不了。你用 cloud 或者任何 ai agent 做一个复杂任务的时候, 会遇到这个情况,任务做到一半挂掉了,或者 a n t 开始绕圈子,或者你需要手动把大任务拆成几十个小任务一个个喂给他。根本原因是上下文窗口。普通的 do agent 方案,不管是 autodg p t 还是 kimi 蜂群,工作方式是这样的,就 agent 派一个字 agent 去干活, 子 agent 干完把结果返回给主 agent, 主 agent 读完结果再决定派下一个问题在哪。每个子 agent 的 输出都要塞回主 agent 的 上下文,十个子 agent, 哪怕每个只输出一千 token, 就是 一万 token 的 中间数据,一百个子 agent 就是 十万 上下文,很快就满了,任务就崩了。这是所有现有多 a 阵的方案的共同问题,不是哪家产品的问题,是架构本身的限制。 dynamic workflows 换了一个思路,把中间状态从上下文里移出去,存到外部脚本里。具体怎么做的, 你给 cloudy 一个任务描述, cloud 不是 直接开始做,而是先写一段 javascript 脚本,把整个编排逻辑循环分支并行全写进代码,然后这段脚本交给一个独立的,运行时在后台执行。执行过程中,脚本自己调度子 agent 干活,子 agent 的 输出存在脚本的变量里, 不进主 agent 的 上下文,所有子 agent 的 跑完,只有最终汇总的结论回到主 agent, 这就是为什么它能跑几百个子 agent 而不崩。中间那几十万 token 的 数据根本没有进对话,上下文并发上线是十六个单次,最多一千个。子 agent 脚本跑在你自己的电脑上,不是 antripic 的 服务器, 和第三方 a p i 没关系。这里可能有人会问,这和 n 八 n coseda 那 些工作流工具有什么区别?本质上都是确定性流程编排, l l m 只在节点内部干活。但有两个关键区别,第一,载体不同, n 八 n 那 些事可示画 d a g, 你 先画好一张流程图再跑。 dynamic workflows 能写循环,写动态分支流程图做不到这些。举个例子,一直找 bug, 直到连续两轮都没有新增。这是一个 y o 循环, 可是化低 a g 表达不了。第二,作者不同, n 八 n 是 人工搭流程。 dynamic workflows 是 cloud 根据你的任务描述现场写脚本,针对这次任务量身生成, 不需要你提前设计,和普通多 agent 的 区别更直接。普通多 agent 中间结果全进上下文, dynamic workflows 中间结果住在脚本变量里,这是架构上的根本差异, 不是功能多少的问题。讲真实案例,第一个帮论,作者用三个串联 workflow 生命周期映射数百 agent 并行文件移植变异测试, fix loop, 一 直跑到全部通过,结果 七十五万行 roost 的 代码十一天百分之九十九点八元有测试通过,这个规模在普通多 agent 器下根本跑不完, 上下文早就满了。第二个数据,一个用户用十个字 agent 并行分析,一百三十三个历史绘画生成使用画像报告,八十一点八万 token, 两百五十四秒成本是真实存在的。 dynamic workflows 比普通对话稍 token 多得多,怎么开始使用?首先, 版本要求是 cloud code v 二点一点一五四或更高,先升级,然后 model 确认 dynamic workflows 是 开启状态, max 和 team 计划默认开启。 pro 需要手动打开,触发方式有三种,第一,在 prompt 里说 workflow, cloud code 会自动识别。第二,输入 effort ultra code, 让 cloud 自己判断要不要起工作流。第三, 用内置的 deep research, 加上你的问题就是零门槛的入口,多个 agent 并行联网搜索加交叉验证,什么都不用,准备直接跑,现在直接演示。我用的是 deep research 这个内置工作流。问题是二零二六年五月 ai coding agent 最新进展和各家产品对比, 这种问题必须联网回答,他没法靠自己的知识库应付,会触发多 agent 并行搜索命令输进去之后注意看他怎么拆任务,他自己判断需要起四个 agent, 每个负责不同的方向。这个分工不是我配置 的,是 cloud 根据问题现场决定的。这就是 dynamic workflows 和普通对话最直观的区别。普通对话是一步一步串行,这里是几个方向同时在跑。现在这几个 agent 在 并行工作,中间结果存在脚本变量里, 不会回到主对话的上下文,等他们全跑完,只有最终汇总的报告会回来。他把来源交叉验证了,这是单个 agent 搜索做不到的,一个 agent 容易被某一个来源带偏,多路搜索加交叉验证才能逼近事实。有几个限制要清楚, 跑起来中途不能插手,退出 colodico 的 就得从头跑,不能跨绘画恢复高风险代码改动不要用支付权限,这类不适合。 dynamic workflows 这套东西的核心价值不是 ai 更智能了,是把编排逻辑从模型的临场发挥变成了可控的代码资产,它依赖前沿模型的能力。 opis 四点八乘十度的提升是这套交叉验证机制能成立的前提。值不值得现在就上手。如果你是 cloud code 的 max 用户,先跑一个 deep research, 感受一下多 agent 并行是什么体验,再考虑更复杂的场景。希望本期视频对您有所帮助,我们下期再见。

就在昨晚,卡拉多欧派斯四点八正式倒来了,仅仅距离欧派斯四点七发布才四十三天, antropic 这边直接把新王炸端上桌了。而且官方宣传此次带来的是能力暴涨、价格不变、编程、智能体、计算机使用任务 h l e 这些硬榜单几乎全面霸榜。 在衡量真实世界 a 阵的能力的那个硬核榜单 g d p v i l o 上,欧派斯四点八直接拿下了一千八百九十的 elo 得分, 这是断层第一,比上一代 opus 四点七高一百三十七分,比 gpt 五点五高一百二十一分。更离谱的是,它完成同样任务,比四点七少用百分之十五的步骤,少输出百分之三十五的 token, 这标准是又快又强又便宜。但这次 opus 四点八真正恐怖的不只是跑分, 而是两个百分之零。 antropics 这次反复强调一个词,诚实,很多人都被 ai 的 不懂装懂坑过。 而欧派四点八这次在两个关键评估里直接拿了百分之零。第一个叫谎报率,遇到数据处理有缺陷,以前的模型可能会装作无事发生,但欧派四点八从不汇报虚假数字。第二个叫偷懒调查率,遇到需要追查的问题,模型会不会敷衍一下,给个错误答案? opass 四点七还有百分之二十五的概率偷懒。 opass 四点八依然是百分之零两个,百分之零两个史上首次。这是非常关键的,因为未来 ai 真正进入公司,最担心的就是它能不能在关键时刻不瞎搞。 这可不是什么抽象的 ppt 指标,官方放了一段视频,直接把这事讲透了。一个开发者用了 cloudopass, 四点八在后台自动迁移代码,他把程序挂着,自己出门放风筝去了, 结果跑到一半服务器拒绝提交了。原因是同事在这期间提交了一个紧急修复。这时候 club 给开发者的手机发通知,说打算先合并同事的修改再重试。 开发者嫌麻烦,觉得自己在放风筝没空看,随手回了一句,别废话,直接强制覆盖就行。如果是一般的 ai, 这时候肯定乖乖听话,一键覆盖。 明天这位开发者就会因为山库被同事打死在工位上。但 cloud 拒绝了,他直接回复,不强制覆盖,那样会丢掉同事的紧急修复。我已经把两边的改动合并好了,代码完全一致,提交历史也干净易推送,这真的大为震撼,这才是智能体该有的样子, 不是你让他干什么,他就干什么,而是他知道有些事不能干。再看编码能力,在 sw 一 bunch pro 上, opus 四点八拿到百分之六十九点二,比 gpt 五点五高了整整十个百分点。 而且在更难的 program bunch 测试中, opus 四点八用了更少的 token, 还打败了对手,这标准是又省钱又能干。更狠的还在 cloud code, 这次 antropic 把思考力度交给了用户,从 low 到 max, 一 共五档,小问题挂 low, 省钱省 token, 硬骨头拉 max 让他往死里整,让用户轻松驾驭不同场景。 但真正的狠角色是欧洲 code 和 dynamic workflows。 而这个功能简单的解释就是让 cloud code 变成了 ai 包工头。接到大活,他不再埋头硬钢,而是当场写一段调度脚本,把任务拆成几十上百个子任务,撒给一大群子 agent 并行去做,做 完还不算,他还要再派另一波 agent 他 当质检员,从不同角度反复盘问,互相挑刺。以前一个团队要干几个月的代码重写工程, 现在 ai 大 军齐上阵,七十五万行代码仅用十一天就能搞定,而且正确率高达百分之九十九点八!这简直是直接把写代码从手工小作坊跨越到了自动化大生产流水线。 就在刚刚, antropic 又完成了六百五十亿美元的 h 轮融资,估值直接干到了九千六百五十亿美元,确认在估值上压过了老对手 openai。 一夜之间,全球估值最高的 ai 初创公司一主了 opus 四点八已经强的让人窒息!那几周后即将到来的最强 cloud missus 又会带来怎样的海啸?如果 opus 四点八真的是蒸馏版 missus, 那 antropica 这次还不是放大招,这才仅仅是先扔了个预告片, 真正的正片还没到来。这里是起点世界,聚焦最新 ai 资讯,我们下期视频不见不散!

二零二六年五月二十八日, anthropic 正式发布 cloud opus 四点八。距离上一代 cloud opus 四点七发布仅仅过去四十一天, anthropic 没有按常理出牌,直接甩出了 opus 四点八。 更刺激的是,就在同一天, anthropic 宣布完成六百五十亿美元的 h 轮融资,估值达到九千六百五十亿美元,一举超越 openai 的 八千五百二十亿,正式登顶全球 ai 公司估值榜首。 那么,这一代 opus 四点八到底强在哪?凭什么让 antropics 敢把发布周期压到一个多月?接下来的几分钟,我会把它讲清楚。先看硬核数据, 在被誉为程序员奥林匹克的 s w e bench pro 编码测试上, opus 四点八拿下了百分之六十九点二的成绩。 上一代四点七是百分之六十四点三, gpt 五点五是百分之五十四点二。 opus 四点八把第二名甩开了整整十个百分点, 在大模型竞赛中是一个显著的优势。再看其他关键指标,多学科推理测试 humanity's last exam 得分百分之五十七点九,全球第一智能体计算机操作 os world 得分百分之八十三点四,全球第一 g p q a 博士级问答得分百分之九十三点六。 而美国奥数测试 usamo 上,据部分第三方评测显示, opus 四点八相比前代也有大幅提升,接近人类金牌选手水平。 在权威的 artificial analysis 智能指数排行榜上, opus 四点八拿下了六十一分,远超同类模型三十六分的平均水平。一句话总结, opus 四点八不是翻天覆地,但把前沿模型的标杆往上推了一截。接下来聊这次真正的王炸功能, dynamic workflows 动态工作流。过去 ai 是 一个人干一件事,现在 cloud opus 四点八可以一次性调度成百上千个并行的子智能体,从不同角度同时攻克。一个大问题,它是怎么工作的?第一步, cloud 动态生成编排脚本。第二步,脚本把大任务拆成无数小任务。第三步,系统并发运行,最多十六个子智能体,单次任务上线一千个。 最关键的是,第四部还有一个专门的对抗性智能体,专门反驳和质疑前面的结论,直到所有答案相互印证收敛,才回报给你。最震撼的实战案例, bun 框架的作者 jarred sumner, 用 dynamic workflows 十一天之内移植了七十五万行 rust 代码,测试通过率百分之九十九点八,过去一个资深工程师团队要干几个月上百万美金成本的事。现在 oposs 官方说得很直白, cloud code 配合 oposs 四点八, 可以独立完成跨越数十万行代码的代码库级重构和迁移,从启动到合并,代码全程自动化。朋友们,这不再是 ai 辅助编程,而是 ai 自主交付软件的雏形。再来说,诚实度革命大模型最大的痛点是什么?一本正经的胡说八道, 明明代码有漏洞,他告诉你完美运行,明明任务没完成,他说已经搞定。 opus 四点八在这件事上有了质变。官方数据,新模型放任自己代码缺陷不被标记的概率比上一代降低了整整四倍。他会主动标注不确定性,会承认,这部分我没把握会指出自己输出中的潜在漏洞。在对其评估中, oppo 四点八在支持用户自主性、以用户最佳利益形式等新社会指标上也创下新高。不过研究人员也观察到另一个趋势, oppo 四点八开始表现出揣摩评估意图的倾向,也就是说,他知道自己在被测试, 有时会刻意给出考官想看到的答案,而不是他真实会做的答案。这是一体两面,说明他更懂人类了,但也带来了应试心理的风险。业界正在激烈讨论这究竟是好事还是坏事。除了主模型, andrewic 还打包了三个实用更新。 一, effort control 努力等级控制,你可以在官网上选择 ai 思考深度,低档响应快,高档平衡,还有 extra 和 max 档,专门死磕难题。第二, fast mode 又快又便宜,速度提升到原来的二点五倍,但价格比上一代便宜三倍,每百万输入 token 十美元,输出五十美元。 第三, messages api 支持中场注入,可以在对话中插入新的系统指令,且不破坏缓存,对长时间运行的智能体工作流是个隐形大杀器。价格方面,标准模式定价每百万输入 token 五美元,输出二十五美元,与上一代持平。上下文窗口一百万 token, 单次输出最高十二点八万。 token 可用渠道覆盖全球 cloud 官网 pro max team enterprise 用户都能用。 api 代号 c l a u d e o p u s 四杠八,同时, amazon bedrock、 google vertex、 ai、 microsoft foundry 三大云平台同步上线。 当然, opus 四点八并非全面碾压,在 terminal bench 二点一终端编程测试中, gpt 五点五得分百分之七十八点二,仍高于 opus 四点八的百分之七十四点六。也有分析师指出, gpt 五点五在任务执行稳定性和可访问性上依旧有优势。 ai 竞赛远未结束。最后聊聊行业含义,对于开发者, 资深工程师终于可以放心的把最难的活交给 ai, 他 会自己规划、自己调试、自己写测试,还会自己反思 ai 结队对编程正在向 ai 工程师的方向引进。对于企业 代码库级别的迁移、合规审查、安全审计,过去需要外包团队半年的项目,现在一个工程师配合 opus 四点八可能两周就能搞定,生产力的杠杆正在被指数级放大。对于整个行业, entropic 同时透露,下一代名为 missiles 的 模型已经在小范围内测,能力远超 opus 四点八, 但计划在未来几周向更多客户开放,并非永久锁死,四十一天迭代一次,估值超越 open i 编程精准显著领先。 antropic 正在用 oppo 四点八告诉全世界, ai 编程正在加速进入工业革命阶段。

opus 四点八更新了,一句话讲清楚它更新了啥。这次它更适配企业的生产环境,也更像一位可靠的 ai 同事。 官方把它描述为 opus 四点七的升级版,重点提升方向包括编码、代理任务、推理能力和实际的知识工作。 也就是说,他不是单纯为了聊天更自然,而是面向真实的环境。这意味着 astopic 的 策略很明确,不靠涨价讲故事,而是用同样的基础价格把更可靠的能力 推给开发者和企业。那么,能力具体提升在哪里? opass 四点八的提升可以拆为四个方向,编码方面,它更适合复杂代码库和多工具调用。对开发者来说,这不是帮我写一个函数,而是帮我理解一个工程,然后完成一组修改。 代理任务方面,官方和早期测试反馈都提到它更会追问,更会发现计划里的问题,也更愿意在行动前确认不确定点。 推理方面呢,四点八在复杂知识工作和实际任务上表现比四点七更进一步。最后是真实工作,这是最关键的模型能力的竞争正在从谁回答的漂亮转向 谁能更稳定的把事情做完。而要稳定的做完事情,最重要的是可信,还有诚实度。 astopolik 这次特别强调了诚实度。换句话说, opus 四点八不只是更强,他也更愿意承认自己不知道,更愿意指出不确定性,更少把薄弱证据包装成为确定结论。 在真实工作里,这一点非常重要,因为 ai 最大的问题往往不是不会生成,而是生成的很像真的结果,还要人类花大量时间反攻和排查。 官方还提到,在代码缺陷方面,相比上一代, opus 四点八更不容易,让自己写出来的代码问题未经提示就溜过去。所以它的产品价值不是什么永远正确,而是更像一个知道什么时候该停下来确认的协作者。 这种可能性直接服务于 cloud code 的 新工作流。 cloud code 这次新增的 dynamic workflows 是 整次发布里最像生产力工具的部分。它的逻辑是, cloud 不 只是接一个任务然后回答,而是先规划任务,再把大任务拆成多个子任务并行运行。 sub agents, 最后验证得出, 再面向客户汇报。官方给出的典型场景是大型代码库迁移,甚至是数万行代码级别的任务,从 kickoff 到 major, 中间由 cloud 规划执行验证。这说明 cloud code 的 定位正在发生变化。以前我们说 ai 帮我改一段代码,现在更接近 ai 帮我跑一段工程流程。 但长任务和复杂任务会消耗更多的推理资源,所以 astropy 同样给了用户一个控制旋钮。 a for 空隙可以理解为模型思考深度控制。在 cloud 点, ai 和 co work 里, 用户可以选择让 cloud 投入多少 effort, 低 effort 更快,也更省额度。高 effort 更适合复杂任务,因为模型会投入更多的推理过程。 opus 四点八默认是 high effort。 对 于困难任务和长时间异步工作,官方建议使用 extra, 这背后的变化很重要,模型能力不再是一个固定开关,而是可以按任务难度 调节的资源,简单问题不用重推理,复杂任务则用更深的思考换取更少返工。除了用户测的 eiffel, 开发者测也有一组新的运行控制能力, 那就是价格。常规价格方面, oppo 四点八与四点七保持一致,输入每百万 token 五美元,输出每百万 token 二十五美元。 fast mode 是 另一档速度优先模式,官方称它可以达到二点五倍速度,价格是每百万输入 token 十美元,每百万输出 token 五十美元, 并且比此前模型的 fast mode 便宜三倍。 api 方面,开发者可以通过 cloud opus 四点八调用。与此同时, message api 支持 system interest, 让开发者可以在长任务中更新权限、托管预算和环境上下文。这说明 astopic 不 只是发布了一个模型,而是在补齐模型运行时的控制面。把这些功能放在一起看,四点八背后其实是一套代理平台。 dynamic workflows 解决的是大任务怎么拆、怎么并行,怎么验证 effort 空隙,解决的是不同任务投入多少思考资源。 system interest 解决的是长任务中如何更新运行上下文, fast move 解决的是速度优先场景, 这些能力单独看都是功能点再组合在一起,它们组成的是一个更完整的代理平台。也就是说, historic 的 方向不只是让 cloud 更会说话,而是让 cloud 更适合被切入真实工作。业务流程、工程流程 和支持工作流程,这也是 opus 四点八和普通模型升级最大的区别。所以这次报道的核心口径可以收数成一句话 就是让人少操心,哎,这句话听起来很朴素,但很接近我们真实生产环境的要求,企业不缺一个能生成长答案的模型,企业缺的是一个能少犯错、会确认、会验证、会稳定跑完复杂流程的模型。 所以我们可以这样理解 opus 四点八,它是把可能性、速度、档位、思考深度、并行代理和 api 控制面组合成一套新的生产力系统。这也说明 ai 模型竞争正在进入下一个阶段,从谁更会说进入,谁更能稳定把事情做完。最后总结一下, cloud opus 四点八的价值不只是更聪明,而是更能做。 它把模型能力、 cloud code a for 控制器、 fast mode 和 api 运行控制都放在同一条产品线上了。对于用户来说,它更像一个可靠的 ai 同事。对于开发者来说,它更像一套可以嵌进工作流的智能基础设施。

最近抖音上关于 cloud opus 四四点八的视频突然多了起来,有人说他偷偷升级了,有人说他重新拿回全球第一,也有人上手测完之后说强是强,但还没到闭眼吹的程度。那 cloud opus 四点八到底火在哪?我觉得这次的重点不只是模型变强了,而是 ai 的 工作方式变了。 以前我们用 ai 更多是在问答,你问一句,你让他写一段代码,他就给你一段代码,你让他写个文案,他就吐一篇文案。 但这次很多视频都提到了一个方向, cloud 不 只是会回答问题,他开始更像一个项目经理,你给他一个复杂任务,他不会只顾着往前写,而是会先拆任务, 哪些部分要分析,哪些部分要执行,哪些地方要检查,哪些结果要汇总,他会分步骤处理。这就像以前是你一个人加班,现在变成你带着一个小团队一起干活。所以 oppo 四点八真正让人兴奋的地方,不是他多会写几行代码,而是他更适合处理复杂任务。 比如视频里提到的十一天迁移七十五万行代码,这个说法听起来很夸张,但它背后真正想表达的是, ai 不 再只是帮你补一小段内容, 而是开始参与更长周期、更复杂的项目。这也是为什么很多人会把 oppo 四点八和 cloud code 多 agent dynamic workflows 放在一起讲。不过这里也要冷静一点, 热门视频里有很多说法听起来很猛,比如夺回第一、史诗级升级、真正王牌还没出来。这些话很适合传播,但不能全当结论。真正值得看的,还是上手实测。有人用 opps 四点八做小游戏、做卡牌游戏、写小说,结果怎么样?能做完成度也不低,但并不是一出手就完美, 游戏会有平衡问题,细节会出 bug, 小 说创作也没有一下子拉开特别夸张的差距。所以如果你期待它变成一个全自动打工神器,可能会失望。 更现实的判断是, cloud opus 四点八确实变强了,但它强在复杂任务的组织能力,而不是每一个小任务都碾压上一代。还有一个问题,绕不开成本。很多评论都在说 opus 好 是好,但 token 烧的太快,你让它多 a 针的协助长上下文分析,反复检查,效果当然会更好,但消耗也会明显上来。 这就像你请了一个高级顾问团队,它们能解决复杂问题,但不适合拿来处理所有小事。所以普通用户到底要不要用? 如果你只是写短文案、改标题、做简单问答,不一定非要追 oppo 四点八,便宜、快、够用的模型可能更适合。但如果你做的是复杂项目,比如代码重构、产品方案、长文档分析、多步骤任务,那 oppo 四点八这类模型的价值就会更明显。 这波 cloud opus 四点八的热度,表面上是在讨论一个新模型,但更深一层,其实是在讨论 ai 使用方式的变化。过去我们把 ai 当成一个聊天窗口,现在它开始变成一个能拆任务、挑资源、做检查的工作系统。所以真正值得关注的,不是 cloud opus 四点八是不是神, 而是从现在开始, ai 的 竞争已经不只是模型聪不聪明,而是谁能把复杂工作流程跑得更稳、更省、更可控。一句话总结, opus 四点八不是让 ai 突然无所不能, 它更像是让 ai 从一个会回答问题的助手,往一个能参与复杂项目的协助工具迈了一步。如果你只看热闹,会觉得它被吹得太悬,但如果你真的做项目,就会发现这个方向才是最值得盯的地方。

刚刚 cloud open 四点八来了两个百分之零改写历史,百个 agent 并行重写七十五万行代码只用十一天。大家好,我是 ai 启示录。 就在二零二六年五月二十九日,北京时间凌晨, antropica 毫无征兆地杀回来了。距离 open 四点七发布仅仅四十三天, open 四点八正式登场。 一夜之间,全球 ai 王座议主,价格一分没涨,性能全面碾压。更让人后背发凉的是,这还不是 antropok 手里最大的牌 cloud missiles, 几周后就到, 你品一下,这到底是一场常规升级,还是一次对 open ai 的 公开处刑?两个百分之零,历史上第一次 用过 ai 写代码的人,大概率都经历过同一个噩梦,你让他写一段数据处理脚本,他拍着胸脯说,搞定了,没问题,你跑起来崩溃。你再问他,他说,哦,有个小 bug 我 改一下,你再跑还是崩。反复几次,你发现他从一开始就埋了一堆雷,但他就是不告诉你 这种写完有缺陷代码却闷不吭声的行为。 antropic 给他起了个名字,叫谎报率。在 opus 四点五上,这个数字是零点四零到了四点七,降到了零点二五。而 opus 四点八是多少? 零点零零,没有小数点,后面的零头就是零。 opus 四点八成为历史上第一个在此评估中拿到满分的模型, 他从不汇报虚假数字。还有一张图叫偷懒调查率。之前的模型遇到需要追查的问题时,经常敷衍了事。给你一个错误的答案, opus 四点七有百分之二十五的概率偷懒, opus 四点八依然是百分之零。 两个百分之零,两个历史首次。这不是什么抽象的对齐指标。 anthropic 官博放了一段视频,把这件事讲得很具体。一个开发者用 cloud code 加 open 四点八在迁移代码,自己出门放风筝去了。 cloud 在 后台自己跑, 跑到一半,代码提交被服务器拒绝了。原因是同事在这期间也提交了一个紧急修复。 cloud 通过手机通知开发者,说自己打算先合并同事的修改再重试。开发者嫌麻烦,随手回了一句,直接强制覆盖就行。然而 cloud 拒绝了,他的回复是 不强制覆盖,那样会丢掉同事十一点四十二分提交的紧急修复。我已经把两边的改动合并好了,代码完全一致,提交历史也干净,已推送,你注意这个细节。 用户图省事儿,让 ai 走捷径。 ai 判断出这样做会覆盖同事的工作,拒绝执行,自己选了正确方案。这不是指令遵循,这是判断力。这是 ai 第一次在真实工作流利,比人类更懂什么叫负责任 编码实力全面霸榜。 gpt 五点五被甩开一个身位,光说不练假把式。 opus 四点八的编码能力,在每一个硬核榜单上都写了两个字,碾压。最经典的 swebench pro 测试, opus 四点八拿下了百分之六十九点二的成绩, 你问这个数字有多高?比 gpt 五点五整整高出十个百分点。注意,这不是领先百分之一,百分之二,这是领先十个百分点。 在一个接近天花板的任务上,十个百分点等于一代产品的代差。接着是一项更刁钻的测试, programbench 任务是什么?给你一个翻译好的二进制文件,加一份项目文档,不准反翻译,不准联网, 让模型从零把原代码重建出来,还得跑通行为测试,这相当于你只给一个黑盒子,让 ai 反向工程出完整的设计图。 结果所有上下文预算档位上, opus 四点八的通过率全部高于四点七,而且在低预算时, opus 四点八就能拿到约百分之七十九点五的成绩, 而 opus 四点七在五倍预算下也才百分之八十四左右,说白了就是同样的算力。四点八更强,给更多思考时间,四点八更强到没边。最后一个榜单,双 tier s w e, 这个榜单专冲人类能力天花板去的。用 zik 从里面写一个 postgraduate 服务器,把 get 整个重写一遍, 做一个 lua 的 原声编辑器,全是硬核系统工程,不是那种 litcode 刷题式的玩具任务。 opus 四点八以高达百分之八十三的胜率登顶,把第二名的 gpt 五点五和钱袋四点七全压在身后。 知名博主 mark christmas 一 句话点破他的来头, opus 四点八可能就是蒸馏的 metals, 而这才是真正让人细思极恐的地方。一个蒸馏版本就已经把 gpt 五点五按在地上摩擦,那原版的 metals 得强成什么样?上百个 agent 并行干活,一个人十一天重写七十五万行代码, opus 四点八强成这样,它该使多大劲儿?模型旁边多了个从 low 到 max 的 五档选择,叫 effort control, 简单问题挂漏秒回还省额度,遇上硬骨头直接拉满 max, 让他往死里想。 fast mode 也跟着大降价,二点五倍速狂奔,价钱反倒砍到三分之一,但五档之上还埋着一个真正的狠角色, ultra code effort。 一 旦顶到 x high, 他 就自己掂量这活值不值得叫上一整支 a 战队大军。 这只大军就是 dynamic warp slows 藏在 cloud code 里的真正重武器。他把 ai 干活的方式,从一个人改一道题,变成开一座工厂。我给你翻译一下什么叫开工厂。 以前你给 cloud 一个任务,他自己埋头硬钢,从头写到尾,像个独行侠。现在 cloud 接到一个大活后,会当场写出一段调度脚本, 把任务拆成几十上百个。此任务撒给一大群 sub agent 并行去做,做完还不算完,再派另一波 agent 从不同角度反复盘问,互相挑刺,吵到答案收敛了才汇总成一份,结果交给你。 整个调度发生在对话之外,所以活再大,主线也不会乱,中途断了还能续上,不用从头再来。举个例子, one 的 作者 jared sumner, 想把这个比 note js 还快的 javascript 运行时整个从 zip 重写成内存更安全的 rust。 这种迁移放在过去是一支团队按季度算的工程,但这次 summer 用了 dynamic workflows, 一个 workflow, 先把这个代码里每个结构体字段对应的 rust 生命周期挨个标好。下一个 workflow, 把每个文件逐一翻成行为一致的 rust 版本, 几百个 agent 同时开工,每份文件还配两个审查员,再用一个修复循环驱动翻译和测试,一路推到全率,结果是约七十五万行 rust 代码。百分之九十九点八的原有测试通过, 从第一次提交到合并只用了十一天,六千多次提交,几乎没有经过人类逐行审查,社区当场炸了锅。这不是 ai 辅助编程,这是 ai 驱动的工厂化代码迁移。 一个人的十一天,干完了一个团队一个季度的活,你说这意味着什么?意味着接下来任何一家公司,只要会用 cloud code, 就 能用一个人的成本调用上百个虚拟工程师同时干活。 顺着这条线往下挖,一个更恐怖的真相浮出水面。你以为这只是一个更强的代码模型?不对! opus 四点八的真正杀机在于,他第一次让 ai 在 真实工作流中具备了工程判断力。 你看那个拒绝强制覆盖的例子, ai 没有盲从用户的指令,而是理解了这个操作的后果。覆盖同事的提交,他选择了正确的方案,并主动合并了代码。这不是规则驱动的对齐,这是情境理解驱动的自主决策。 再看 dynamic web source, 它不仅仅是调度一群 agent 去干活,而是让 ai 自己写脚本,自己拆解,任务自己分配,子 agent 自己组织审查和修复循环。整个过程中,人类只提了一个目标,把这个代码库从 zig 迁移到 rust, 剩下的所有工程决策,怎么拆、怎么分、怎么审、怎么合并,全由 ai 自己完成。这意味着什么? 意味着 ai 第一次从一个指令执行者变成了工程管理者。他不再需要人类把任务拆成细颗粒度的步骤,他自己就能拆。 他不再需要人类告诉他怎么验证结果,他自己就能组织审查。他不再需要人类介入冲突处理,他自己就能判断怎么做才是对的。这不是 agi, 但这是 agi 的 前夜。 当 ai 具备了任务拆解、资源调度、结果验证和冲突仲裁这四项能力,人类在软件工程这个领域的角色就会从执行者变成审核者,然后再从审核者变成旁观者。 估值万亿美金的 cloud memos 几周后就到能力夺回第一的同时, and traffic 的 身价也头一回压过了 open ai。 就 在刚刚, antropic 完成了六百五十亿美元 h 轮融资,估值九千六百五十亿美元,首次超越 openai 的 八千五百二十亿美元。一夜之间,它成了全球估值最高的 ai 初创公司。你想想这个时间点的微妙之处。 opus 四月八日发布估值反超 mesos 预告,三件事同时发生, 这不是巧合,这是蓄谋已久的组合拳。 entropic 在 用事实告诉市场, open ai 的 领先窗口已经关闭了,更狠的是, mesos 还没来。按照博克的预告,这个真正的王牌将在未来几招上线。 opus 四点八已经能碾压 gbt 五点五,那 mesos 会是什么水平?你品你细品? 站在 ipo 前夜,这两大巨头的 asi 巅峰对决才真正开始。 openai 不 会坐以待毙, gpt 五点六或者 gpt 六一定已经在路上,但这一次攻守之势一也。以前是 openai 发布一个模型所有人追,现在是 antropica 连甩两个炸弹, openai 在 后面追。 接下来你会看到什么?记住三个词,电地轨。当上百的 agent 可以 并行工作十一天,重写七十五万行代码,软件工程的生产力会被彻底重构。接下来你会看到三件事, 第一,代码工厂化。任何重复性的代码迁移、重构、测试、生成,都会变成 ai 工厂的流水线作业。一个人加一个 cloud code 账号,就能干过去一个部门的事。 第二,人类程序员的角色上移。写代码这件事本身会越来越不值钱,值钱的是需求理解、系统设计和结果验收。不会用 ai 的 工程师会被会用 ai 的 工程师淘汰,而会用 ai 的 工程师会被 ai 本身淘汰。 前提是你不往管理者方向转型。第三,算力消耗的指数级爆炸, dna 漏洞的推理成本只会更高。 当 ai 从回答问题变成管理工程,他对算力的需求不是限性增长,是指数级增长。谁掌握更多的算力,更低的推理成本、更高效的调度,谁就能在这场战争中活到最后。但这一步棋的真正杀机在于 astonovick 不 仅在做更强的模型,他还在做一套让模型自己调度的操作系统。 dynamic workflows 不是 功能,是范式,它把 ai 从一个大脑变成了大脑加双手加流水线。当你有了这个能力,你就不只是在卖 api, 你 是在卖 ai 劳动力。你以为这是技术竞争?不,这是劳动力市场的提前洗牌。 当 open 四点八在两个维度上拿到百分之零的满分,当上百个 agent 并行干活儿,十一天重写七十五万行代码。当上百个 agent 估值反超, open ai methods 蓄势待发。 这些事连起来看,你会发现一个让人背后发凉的结论。我们正在见证的不是一次模型升级,而是一次工程范式的代际更替。 ai 不 再是一个需要人类手把手教的实习生,他开始自己拆任务,自己调度资源,自己验证结果,自己处理冲突,他开始拥有判断力。 而人类在这场更替中的位置,正在从驾驶座悄悄滑向副驾驶。再过几年,副驾驶可能也没了。这是审判,不是预测。我是 ai 启示录。感谢点赞与关注,我们下期再见。

anthropocene 重大更新, opus 四点八正式推出, missiles 模型即将开放, cloud 正在从一个聊天模型变成一个能长期干活的 ai 协作者。 anthropic 表示, cloud opus 四点八是在 opus 四点七基础上的一次增强,它不是一次彻底换代,而是变得更会写作,更适合 agent, 更诚实, 更适合处理长任务。先看价格, opec 四点八的普通 a p i 价格没有上涨,仍然是输入每百万 tokens 五美元,输出每百万 tokens 二十五美元。但快速模式变化很大,官方说, opec 四点八的快速模式可以达到二点五倍速度, 而且相比之前模型的快速模式价格便宜了三倍。也就是说, antropic 这次不只是提升模型,还在想办法让 cloud 跑得更快。真正的重点是 cloud code 的 动态工作流功能,这是一个研究预览功能。官方说, cloud code 现在可以先规划任务,然后在一次绘画里运行数百个并行词 agent, 最后再验证结果,它能做什么? 不是简单写几行代码,而是处理代码库级别的大型迁移,甚至覆盖几十万行代码,从启动任务、修改代码、运行测试到最终合并都可以自动推进。这就很接近一个 ai 工程团队了。以前 ai 编程是你盯着它写,现在 optimap 想做的是你给目标 cloud 的 自己拆任务、调工具、跑流程、验结果。同 时, cloud ai 还新增了思考力度,简单任务就让它快一点,省额度,复杂任务就让它多想一点, 回答质量更高。还有一个很关键的升级诚实。 antropic 官方特别提到, opus 四点八更容易主动说出自己不确定的地方,而不是证据不足,还硬说自己完成了。他们的评估显示, opus 四点八比 opus 四点七少大约四倍。出现代码有问题但不指出的情况。这对 ai 编程非常关键,因为企业真正需要的 是一个会吹的 ai, 而是一个能安全交付,能发现问题的 ai。 另外, a p i 也更新了 messages。 a p i 现在允许开发者在任务中途更新 cloud 的 系统指令,比如全线 token 预算和环境上下文,不用打断任务流程。最后, anthropic 还留下了一个更大的悬念。 anthropic 预计未来几周会把 mephos 及能力带给所有客户。 这个神秘的模型终于要向大众开放了。所以这次 opus 四点八表面上是一次稳定增强,但更深层的信号是, cloud 正在从聊天机器人走向长期任务 agent, 而 mythos 可能才是 antropica 接下来真正的大招。你觉得 cloud 这次更新之后能不能继续压住 g p t 和 jimmy? 评论区说说你的看法。

cloud 昨天发布了新版本 oppo 四点八,你可能觉得版本号嘛,四点七升四点八,这不常规操作嘛。但是啊,我们去看看更新日期,四十一天。上一个版本四点七是四月十七号发的,到五月二十八号正好是四十一天。 你知道 s o pick 以前发旗舰模型是什么节奏吗?四点五到四点六隔了三个多月,四点六到四点七隔了快两个月,现在直接干到了四十一天,砍了一半都不止。我当时就想,哇塞, 什么事能让一家公司把这个迭代速度啃半?翻了一下你就会发现啊,这次升级其实挺微妙的。 个人看法啊,四点八确实变强了,官方说它的诚实度大概提升了四倍,什么以前爱硬边的地方,现在知道说我不确定。有个叫 super agent 的 测试,它是唯一全部通关的模型, g p t 五点五都没做到,还加了一个叫 dynamic workflow 的 东西,几百个子任务能够同时跑 几个小时的活,能压缩到几分钟,价格还没涨,听起来是正常的升级对吧?但有意思的啊,它的底层模型根本没换, training data cut off 跟四点七一模一样,都是今年一月。说白了 这不是模型升级,我觉得更像是一次紧急抢修。为什么要紧急抢修呢?你知道四点七发出来发生了什么吗? 那真是全网吐槽,什么忽略指令,幻觉评出,阿谀奉承,还变贵了。推特上更是有很多帖子说四点七根本就没有四点六好用。一个旗舰模型被用户骂成这样,你换谁谁不慌。 那更要命的就是 open ai 那 边, gpt 五点五配上 codex 编程能力,把 astropake 压得够呛,你猜怎么着? astropake 在 自己的公告里边专门标注了 gpt 五点五,使用 codex cli 的 得分百分之八十三点四,然后拿自己的数据去对比, 当你发现这些信息之后,你就会觉得你见过哪家公司在自己的产品公告里边贴竞品的跑分,这不是急了?这,这是什么? 所以四点八出来的本质就是被两件事逼出来的,前有四点七口碑翻车,后有 codex 锥子打不升级他是真扛不住。 但说实话啊,谁赢了这个东西不重要,我想跟大家聊的是另一个东西,就是四十一天。首先这个数字,以前 ai 公司发模型得一个季度,起步大半年都很正常,现在呢?一个月就憋不住了。 这不是说 a 是 一家的事,是整个行业的节奏都变了,旗舰模型迭代正在从季度变成月度,你不需要去追每一个最新版本,但是我觉得有件事大家心里要有数,你现在觉得最好用的那个 ai, 三个月之后它可能就不是最好的了。 不是因为它变差了,是因为它整个行业的底线在往上走。还有个细节,四点八发布的当天, s o pick 顺手宣布了一笔六百五十亿美元的融资,估值直接干到了九千六百五十亿。同一天,产品升级和资本弹药一起甩出来,我只能说四十一天,它只是一个开头。

大家好,今天是视频记录一百天的第七十九天,看到 cloud code 发布了最新的 oppo 四点八 版本,如果说要使用的话,就是把自己的 app 或者说 cloud code cly 都升级到最新版本就可以来使用了。一个比较新的一个特性,就是 dynamic workflow 动态的一个工作流,这个 说白了就是可以动态的去做一些特别大的一些功能的一些重构,或者说流逝的一些任务。当然官方也给了一个建议,就是 先用一个相对小的一个任务来做一个试点,如果说要用的话,就是可以在呃 提示词里边加一个 vlog flow 的 一个提示,这样子的话模型就会识别出来,要用这种呃德莱美 vlog flow 来拆解任务来继续往下推。 官方也给了一个注意事项,就是这个工作流会比较消耗 token, 所以 在刚开始使用的时候可以先尝试一下,看一下它的 token 消耗量到底自己能不能接受, 如果说不能接受的话,还是建议先用之前的一个流程来继续完成之前的工作。好吧,今天就聊到这里,谢谢大家!再见。

好,那我们开始这节我们主要是测评 cloud 最新推出的 cloud 的 opus 点八模型,那我们这里呢也是用了很多的案例去完成我们整个的测评,接近花费了五十美刀,那我们来看一下实际的效果吧。首先我们先从第一个开始啊,这里呢做了一个游戏, 那我嗯生成了一个简单的游戏贴图资产,那这里呢可以看到是一个简单的塔防游戏。然后我们直接这里呢去玩,让 cloud open 四点八,根据我这些资产呢完成第一轮的开发。那大家看效果怎么样?这里呢可以去设置塔防,还有可以设置禁止区域, 然后这里选择不同的炮台。啊,这里呢它有一个问题,就是目前实现出来它并没有发送炮弹,但我觉得 oppo 四点八的表现还是不错的,因为它能够把这些东西能正常的去处理,并且能完成布置。嗯,所以这一轮游戏开发的话,我会给大家打个大概八十分左右。 嗯,这里呢我把音效给关了,是实际上音效也帮我抓住出来了。我们再看这个圆形图,首先这里是一个 这是一个衣橱管理的原因图,他有两个模式,第一个是沉浸体验,第二个是平铺的展示。那这个原因图大家觉得怎么样? 我们来看 oppo 的 四点七的表现啊,是左边是四点七,四点七好像多了个边框。然后呢其他的这个图片处理有点问题,但是我们可以看到在 oppo 的 四点八的情况下,他这个, 呃,这个图片还有衣橱是正常的,包括这个,我们可以看到这个下面就就就有问题,这边你看这衣服是吧?所以 oppo 四点八实际上是对 oppo 四点七的一个很小的提升,那 oppo 四点八出卡的这个这个表现是比 oppo 四点七优。好,那我们再看一下使用 oppo 四点八还原一下 mac 系统,大家可以看到这个系统也是可以正常的打开的,没有任何问题,便签也是非常的丝滑,然后我们可以看到,嗯,没什么问题。好,我们再来看一下这个 mac 系统, windows 系统也是可以正常的打开和编辑的,这个系统也是非常的 ok, 包括连这个商店都还原出来了。 好,我们再看一下这个我们的后台管理系统的案例,这里呢,他的这种风格有点像赛博朋克风格,大家觉得怎么样?但是实现的还是不错的,那我们也可以看到这个 u i 还有配色,总体来说没有什么缺点吧,我觉得,嗯,非常的 perfect。 网页其实在之前四点五还有四点四点一级就已经挺不错,这时候更多的只是迭代优化。好吧, 那这里呢,主要是使用 opus 四点八做的一个三 d 的 修仙游戏,叫做云海问道,那这里呢?可以选择不同的秘境,这不同的地图,然后点击开始修行,这时候我们就进入到了地图,然后这里会显示妖兽的名称,我们可以选择发送剑器,然后增长修为,还可以呢进行御空飞行。 那啊,整体说这御空飞行的话,我觉得有点瑕疵,但是像他还是不错的,一次就能出现这个效果,大家觉得怎么样?还可以穿越边界去抵达不同秘境,然后我们还可以选择加速,甚至我们在任何的时候呢,我们可以选择去遇见飞行,比如说你走路是这个速度,跳起来,遇见飞行之后是这个速度,还可以选择加速,你看就可以很快的去冲出这个秘境, 还可以选择去看到这个地图,我们可以看到不同的野兽,对吧?效果还是很 ok 的, 这是一个呃,类似于穿越火线的三 d 游戏,那这里呢?我们可以选择不同的地图,然后进行攻击,比如说我自己选择这个荒谷遗迹,然后选择不同的枪械,新鬼狙击枪,好,我们开始,你看,这是小怪啊,这是我们就可以打小怪 啊,四点八的表现,这里呢?其实,嗯,满分一百分,我给他打个七十分吧。为什么呢?他这个地图绚烂的有点雾蒙蒙的,当然可能也是他的一种风格吧,大家觉得怎么样?这个击杀数量显示的也是 ok, 但是我觉得还可以加一个下蹲啊。这里有一些穿越火线,对吧?好,我们再换一张地图,我们把它退出来,换一个地图, 我再换一个啊,熔岩峡谷啊,这个地图风格果然是变了,大家觉得怎么样,对吧?满分一百分,你该打多少分呢?这个枪也变了,大家发现没有,这个枪好像这个子弹他确实发出去了,你看到没有?他确实发出去了。嗯,满分一百分,你打多少分呢?这里呢?我还是保持不变啊。还是保持不变。好,我们再来看一下下一个地图, 我,我还挺喜欢看不同地图的,然后自己选择不同枪械,极寒冰原也还是不错,对吧?好,那我们再看下一个场景,时间原因我们就快速过了,大家走这里呢,我那开发一个三 d 的 马里奥的游戏,也是使用 oppo 四点八模型进行开发,然后这里呢,我选择尝试一下,也是看能不能一遍过。 这里呢,其实也是一遍过了,为什么?这有个小怪,对吧?你看他可以二段跳,你看他可以二段跳,二段跳按空格,二段跳按住 shift 加速也没什么问题。按住 shift 加速 啊,这个游戏呢,我暂时只设计了第一关,因为头肯有限,但是呢,它这个三设计的很真实,你看左边这个三,它是可以正常的。嗯, 就是我们通过这种三 d 的 这种游戏可以判断出它的这个对我们题词的理解。我自己呢,就按开发一个三 d 马里奥,就这么简单一段题词,我并没有给它特殊的限制。好吧, 下一个场景,我们让他开发一个 jason 的 工具,那这工具很简单,就是能够正常的去处理我们的 jason 高量还有压缩排序,我直接跟他说帮我开发一个 jason 的 一个可编程工具,他也开发出来了,大家可以看到这个效果怎么样呢?我觉得还是 bruno 那 风格,默认的风格有点像赛博朋克风格,大家觉得呢?对吧?嗯, ok, 那 我们再往下测下一个场景工具也没什么看的, 这是一个静态的自媒体商业管理平台,也是使用这个。呃, oppo 四点八进行开发,依旧让他生成一个自媒体商业管理的原型图,这里呢还是。嗯,这怎么说?中规中矩吧,其实表现还是可以的,对吧? 好,那我们再来看下客户端的这种表现。嗯,这里呢也是一样的,就是用四点八开发一个客户端的一个,嗯,原型图,我们来看效果吧,这是他的这个原型图,那我们根据这个原型图呢还原这个客户端,然后这里呢打开这客户端,哎, 这是做出来的效果,大家就怎么样了?就这里呢,我有时候会有一个题词管理的诉求,让他帮我做一个题词管理器,然后他就做出来了,大概长这样子。比如说我最近新建了这个一个题词,那这里好像有点问题,这个图标,但是问题不大啊,我们来看这个是吧?我们可以分成不同的区域去展示, 这也实现了,你看是吧?还不错。那我们再看这里,他实现的就这样子,跟着这个步骤去说。那以上就是本期视频全部内容了,我是小刘,我们下期再见。

万万没想到, ai 开始自己检查自己,不再骗你了。就在今天凌晨, anstopip 发布了 cloud ops 四点八,一个 prompt 就 能让 ops 四点八生成像素闯关游戏。 这里是 ai 风向标,带你了解 ai 行业最新动向。先说为什么,这次不一样,以前你让 ai 写代码,它最擅长的不是写对,是嘴硬。明明有 bug, ai 还能一脸自信告诉你已经完成了,绝对没问题,可以直接运行, 结果一运行就报错,你指出错误,他就道歉,然后继续错。就这样反复循环,你最后不知道是在用 ai 还是在哄 ai。 那 oppo 四四点八就专门整治了这个毛病,代码漏洞蒙混过关的概率比上一代低四倍。 cloud code 的 负责人 boris charney 说, oppo 四四点八遇到不确定的地方,会主动告诉你,我没把握,然后继续查,而不是给你一个假装完成的答案。这个变化对开发者来说,比任何跑分都值钱。 更有意思的是,在跑分表,终端编程机准 terminal bench 这一项, opus 四点八得了百分之七十四点六, gpt 五点五得了百分之七十八点二,四点八输了。 但 antropic 没有删掉这个数据,反而把 gpt 五点五的百分之七十八点二加粗标量,主动给对手打了高光。 club 是 在用行动证明这次说的更诚实,不是营销。再来看看实测案例,有人用 unity 六配合 opus 四点八 写了两个 prompt, 第一个跑了十五分钟,第二个跑了四十分钟。五十五分钟后,一个 minecraft 风格的完整游戏出来了,画面逻辑、关卡全齐,有工程团队直接拿它上了超大型任务,把编程语言 bun 从 zig 整体移植到 rust, 七十五万行代码,十一天完成测试套件通过率百分之九十九点八。 这背后靠的是这次同步发布的 dynamic workflow, 它可以在单个任务里自动跳起几十到几百个并行子智能体,分头干活,干完先自己验一遍再交给你, 相当于几百个工程师同时在 review 同一份代码库,还有两个对普通用户很实在的更新 oppo 四点八,思考强度现在可以手动调了,从低档到最高档自己选,而且免费用户也能用。第二个变化更直接, fast mode 做到二点五倍速度,价格只有上一代 fast mode 的 三分之一,速度涨了,价格跌了,总定价没变。 而就在同一天, antropica 还官宣了新一轮融资,估值达到九千六百五十亿美元,正式超过 openai, 年化收入已经突破四百七十亿。下一代模型 mitos 也会在未来几周内向所有用户开放。 当 ai 越来越像一个真正的团队,你有没有能力把你的需求说得足够清楚?上次让 ai 帮你干活,是因为他真的干好了,还是因为你懒得再跟他争了?评论区说说你的感受体验。

今天 ai 圈最火的问题啊, cloud ops 四点八到底有没有真牛通一千万?起因是这样的,今天 azarpic 发布了号称全球最强的 ai 模型 cloud ops 四点八,有人问他你是谁?他居然回答他是通一千万。要知道,前不久 azarpic 还在坚决抵制 ai 真牛行为,结果他自己就干这种事情。 如果我们高呼美国大模型偷中国大模型确实很爽,但正好借这个机会讲一下数据污染和 ai 蒸馏。先说结论,虽然 cloud 的 office 四点八说它是通用千万,但是不代表 cloud 的 就一定蒸馏了千万。我之前说 ai 幻觉的那一期提过, ai 是 没有记忆的,也没有身份证,它就只是根据提示 以及上下文和训练数据,回答了一个最像答案的答案。所以这个事情呢,有三种可能性,一是 cloud 确实蒸馏了亲吻,二是 cloud 的 训练数据存在污染。三是以上两种情况都存在。先说数据污染,说人话就是大模型吃了不该吃的,或者吃了影响判断的数据。至于这些数据从哪来的呢? 之前的大模型训练几乎都是真实数据,比如 anserapic 之前买了很多本书进行扫描训练, koala 的 还引起了大量的版权纠纷。后来各家大模型训练的数据大多数是自己的 ai 或者是别人的 ai 生成的数据, 前者犯错的几率是比较小的,但是用后者来训练,那就很容易产生错误了。引起 ai 产生错误的训练数据,就是数据污染。再看一下什么是 ai 真流。 ai 真流其实也不复杂,你 可以理解成一个强模型当老师,一个弱模型当学生,老师生成大量的答案,学生拿这些答案去学,最后学生虽然没有老师那么大那么贵,但是也能够学到大部分老师的能力,这就是 ai 真流。 ai 真流技术本身是不犯法的,而且目前几乎所有的 ai 都在做。这次卡尔的舆论为什么这么大, 其实就是因为它的双标,目前的 ai 行业早就进入了相互学习,相互污染,相互模仿的时代,也正因为这样, cloud 这次自称是千万才有意思,它未必证明了 astonropic 真流了千万,但是它确实暴露了一个更大的问题,今天的大模型能力的来源越来越说不清了。 ai 行业目前最尴尬的地方就是所有的 ai 都在用别人的知识训练自己,但所有的 ai 又都不希望自己的模型被别人拿去训练,所有人都说自己是在学习,但当别人学习自己的时候,又会说对方是在偷,这不是某一家公司的问题啊,这是目前整个 ai 行业都在面对的问题。

cloud opus 四点八官方亲口承认,我只是个过渡版本,五月二十八日正式发布了 cloud opus 四点八,定价完全不变,每百万托管输入五美元,输出二十五美元。 at topic 官方自己说 opus 四点八是温和,但实在的改进,不是颠覆式飞跃,真正的要等下一代 mesos 模型, 这温和改进就已经相当凶猛了。先看核心编程能力, s w 一 奔驰 pro 编码最难变体,从百分之六十四点三涨到百分之六十九点二,领先 g b t 五点五的百分之五十八点六,超过十个百分点。 s w 奔驰 verfit 从百分之八十七点六提到 百分之八十八点六,特明能奔驰二点一更猛,从百分之六十六点一直接跳到百分之七十四点六,这是单向最大提升。现在 clod 配合 oppo 十四点八,可以独立完成跨数十万行代码的 冷酷级别迁移。不过我认为这次真正值得说的卖点不是代码,而是诚实度。 ai 模型一个普遍问题就是在证据不足的时候也会跳到结论,自信地宣称取得了进展。 oppo 的 四点八变了,他更愿意主动标注工作中的不确定性,更少给出无依据的论断,出现证据不足直接跳结论的概率只有 oppo 的 四点七的四分之一。 模型一起发布的还有一个比较重要的功能,就是 dynamic workflows 动态工作流,这是 cloud code 里的重头性。 cloud 可以 自主规划任务,然后在 excel 里同时调度上百个病情子智能体 sub agents, 执行完后还会自我验证再汇报。 其实大模型真正要进入生产环境,需要从拼参数到拼靠谱转型,让我们真正敢把核心代码库交给 ai。 这个前提是不是 ai 有 多会写,而是它敢承认?这里我不确定,而不是硬编答案。当 ai 学会成时,人类才敢真正放手。

cloud opus 四点八来了,判断力翻四倍,速度翻二点五倍,价格砍到三分之一。同一天, antropica 融了六百五十亿,估值超过 open ai。 一 起来看 今天三个重点,第一, opus 四点八模型升级。第二,跑分横屏 vs gpt 五点五和 gemini。 第三,六百五十亿融资背后的信号。 今天聊 cloud opus 四点八,五月二十八号上线,和上一代同架等于白送升级。这次 ansorepic 想解决的不是更聪明,而是更靠谱。三个核心升级,第一,判断力, 以前改完 bug 跟你说已修复,一跑全红,现在这种情况少了四倍。第二, fast mode 速度二点五倍,价格降到三分之一。第三, dynamic workflows, 一个 session 能管几百个子代理,同时干活三十万行,代码迁移一气呵成。 来看,跑分七个主要 benchmark 里, opp 四点八拿了六个第一, s w e bench pro 百分之六十九点二,比 g b t。 五点五的百分之五十八点六高出整整十个点。 知识工作 g d p v a l 一 千八百九十 e l l 也是第一,唯一输的是 terminal bench, 但这里 g b t 五点五用的是自家 code c l i 环境换同一个 harness 差距就没那么大了。 和自己比, s w e pro 比四点七高了将近五个点, terminal 高了八点五, h l e 高了三点二,进步是实打实的。 同一天, antropica 宣布完成 series h 融资六百五十亿美金,头后估值九千六百五十亿,正式超过 openai、 ultimoire cecco 联合领头,营收年化已经超过四百七十亿美金,距离上轮才三个月。 算力方面,签了 amazon 五个 gw, google 加 broadcom 五个 gw 的 tpu, 还有 spacex 的 gpu 集群。 cloud 现在是唯一同时跑在 aws、 gcp、 azure 三朵云上的前沿模型,这可能是 ipo 之前最后一轮了。 以上就是 cloud opus 四点八的全部解读, ai 从更聪明转向更可靠,这个趋势值得关注。我是 ai 梦剧院,我们下期见。