所有 ai 模型都在比谁更加聪明,但 cloud open 四点八昨天更新开始承认自己是不知道了。昨 天 angelopik 悄悄更新了,价格没变,但说一个让我印象深刻的一件事情。这是 angelopik 在 发布公告里面罕见的自称 这是一次 modest but tangible 的 更新,翻译过来就是不大不小,但能感受得到的进步。你看一家 ai 公司主动说自己好像没那么牛,这本身我觉得蛮让人寻味的,但数据呢?其实实打实的编程测试 s w e bench pro 啊, oppo 的 四点八拿到了六十九点二的一个版本,比上一代高了将近五 五个点。在衡量真实 ag 的 能力的 g d p valuation 排行榜上, l o。 的 分数是一千八百九十,断层第一,比 g p t 五点五要高出一百二十一分。但是呢,它的最大亮点就是诚实。诚实呢,是这次更新最核心的主题。 现在大家都有碰到过这种情况,就是让 ai 去写代码,哎,他拍完兄弟说没问题,搞定了,结果一跑都会有 bug。 但这次 oppo 四四点八在写了有问题的代码,但装作没试,这个指标上直接做到了百分之零的虚报率,历史上的第一次。 上一代四点七是百分之二十五,前前代四点五是百分之四十,这次直接归零。还有另一个指标,遇到不确定的问题的时候,四点八选择承认是自己不知道的,而不是随便去再给一个答案。所以你可能会发现他拒绝的频率要高了,但这恰恰是好事,宁可说不知道,也不忽悠你。 另外,除了模型本身,这次还同步推出了一个叫做 dynamic workflow 的 功能,在 cloud code 里面可以直接去用。简单来说呢,就是 cloud 接到了一个大任务以后,会自动拆分成几十甚至上百个子任务,派出一大群的分身并行去干,干完再互相的 review, 最后呢,汇总给你, 这里我举个真实案例啊,棒点 g s 的 作者用这个功能把七十五万行的这个代码迁移成了 rust, 百分之九十九点八的测试通过,整个过程也只用了十一天。这种活放在以前,一支团队还可能真的是按照季度去算的这个工作量。 要注意的是, dynamic workflow 的 这个 token 的 消耗量啊,是比普通的绘画要高的,非常多的建议呢,大家先从小的任务试起,别一上来就跑大活。另外还有一个实用的小功能更新,就是叫做思考力度控制,从 low 到 max, 五档,简单问题可以挂低档秒回去,省这个配额, 硬骨头拉满了,让他去往死里去想。另外, fast mode 也大幅降价了,速度呢,二点五倍,价格只要之前的三分之一。但当然啊,有几点还是要实事求是的说清楚。 oppo 的 四点八在多模态,也就是像图标理解,图像理解这块并没有很明显的进步,轩尼昂那边 依然是更强的 fast mode 呢,目前也只对部分的企业用户开放,个人用户目前还用不了。总的来说呢, open 四点八不是一次震撼式的大版本更新,而是一次把诚实和信度和可信拉满的精准迭代,价格不变,能力更强,特别是对于长期跑代码任务的开发者来说,这次升级的感受会比以前更加明显。 另外 snoop 还预告了他们更强的下一代模型叫 missiles, 将在未来的几周上线,那个才是真正的大招,到时候呢,我再给大家去同步更新。 ok, 那 今天就到这里了,觉得有用的话呢,可以点个赞,我们下期再见。
粉丝19.7万获赞70.5万

你们有没有遇到这种情况啊?你能让 ai 帮你写个代码,做个分析,他拍的胸口说我搞定了,但是一跑呢,全是 bug, 分 析的内容呢?很多甚至是编造的,这就很尴尬了,不会还给你装会,你要真全系的,那就被坑惨了。那这次开发新出的 ops, 四点八,最大的升级就是专门治这个毛病的。 先说个反差,一般公司发新模型呢,都恨不得把它吹上天,但这次 angelababy 自己在发布公告里写的是,对上一代来说是一个温和但是实实在在的进步。一家 ai 公司发新模型,自己说这次升级不大,这态度反而值得说道说道,那他到底改了啥? 四点八比上一代四点七到底强在哪?第一也是我觉得最该被注意的就是诚实。官方实测,四点八把自己写错的代码不吭声,蒙混过去的概率比四点七低了大概四倍。翻译成人话就是,以前他写完会跟你说没问题,现在他更愿意主动告诉你 啊,这里我没有把握,要不你再看看?对我们这种偶尔要写代码又看不太懂代码的人,这点真的非常管用。第二就是它真实的编程能力,有个叫 s w e bench pro 的 测试, 专门考它解决真实 keep up 上的代码问题。四点八拿了六十九点二分,四点七拿了六四点三分,涨了快五分。但你注意,同时另一个更老的编程测试, up, 四点八只从八十七点六分涨到八十八点六分,就涨了一分。那为什么会差这么多呢?因为老测试快被刷满了, 谁来都是九十几分,看不出差距。所以以后看 ai 评测,别只看分数高,要看它考的是不是还有区分度的硬体,这是很多测评不会告诉你的。而且它的价格没涨,还是每百万头肯输入五美元,输出二十五美元跟四点七一个价。再说大家最关心的,它跟现在的 g p t。 五点五比,到底谁更厉害? 按 astonopy 公布的对比, op 四点八在十几个测试上压过 g p t。 五点五,尤其是在真实的编程知识、工作工具都要用这几块。 office 六十九点二分, g p t。 五点五只有十八点六分,领先差不多十一分,这是它整场发布里最硬核的一个数据。但 g p t。 五点五守住了一个山头终端 命令行那一类编程任务,它还是赢 cloud 的。 如果你的活是天天泡在命令行里跑自动化, g p t。 五点五仍然更稳,那还有一点很现实的,就是 g p t。 五点五更便宜了,价格大概比 office 四点八低四成。 所以,如果你是要大量调用跑量的场景,成本这笔账还得自己算。那结果很简单,如果你要他帮你想清楚一件事,写东西,做分析,还希望他别瞎忽悠你,那就是 up 四点八没跑了,这次升级真的升级到点上。但如果你的活主要是在命令行里跑自动化,或者你特别在意成本, gpt 五点五还是有它的位置的。 那记住一句话,这一代真正变强的,不是他更聪明了多少,而是他更老实了。对普通人来说,一个肯说我不确定的 ai, 比一个永远自信满满的 ai 靠谱的太多了。我是爱丸子蔡大发,关注我们一起更懂 ai!

最近抖音上关于 cloud opus 四四点八的视频突然多了起来,有人说他偷偷升级了,有人说他重新拿回全球第一,也有人上手测完之后说强是强,但还没到闭眼吹的程度。那 cloud opus 四点八到底火在哪?我觉得这次的重点不只是模型变强了,而是 ai 的 工作方式变了。 以前我们用 ai 更多是在问答,你问一句,你让他写一段代码,他就给你一段代码,你让他写个文案,他就吐一篇文案。 但这次很多视频都提到了一个方向, cloud 不 只是会回答问题,他开始更像一个项目经理,你给他一个复杂任务,他不会只顾着往前写,而是会先拆任务, 哪些部分要分析,哪些部分要执行,哪些地方要检查,哪些结果要汇总,他会分步骤处理。这就像以前是你一个人加班,现在变成你带着一个小团队一起干活。所以 oppo 四点八真正让人兴奋的地方,不是他多会写几行代码,而是他更适合处理复杂任务。 比如视频里提到的十一天迁移七十五万行代码,这个说法听起来很夸张,但它背后真正想表达的是, ai 不 再只是帮你补一小段内容, 而是开始参与更长周期、更复杂的项目。这也是为什么很多人会把 oppo 四点八和 cloud code 多 agent dynamic workflows 放在一起讲。不过这里也要冷静一点, 热门视频里有很多说法听起来很猛,比如夺回第一、史诗级升级、真正王牌还没出来。这些话很适合传播,但不能全当结论。真正值得看的,还是上手实测。有人用 opps 四点八做小游戏、做卡牌游戏、写小说,结果怎么样?能做完成度也不低,但并不是一出手就完美, 游戏会有平衡问题,细节会出 bug, 小 说创作也没有一下子拉开特别夸张的差距。所以如果你期待它变成一个全自动打工神器,可能会失望。 更现实的判断是, cloud opus 四点八确实变强了,但它强在复杂任务的组织能力,而不是每一个小任务都碾压上一代。还有一个问题,绕不开成本。很多评论都在说 opus 好 是好,但 token 烧的太快,你让它多 a 针的协助长上下文分析,反复检查,效果当然会更好,但消耗也会明显上来。 这就像你请了一个高级顾问团队,它们能解决复杂问题,但不适合拿来处理所有小事。所以普通用户到底要不要用? 如果你只是写短文案、改标题、做简单问答,不一定非要追 oppo 四点八,便宜、快、够用的模型可能更适合。但如果你做的是复杂项目,比如代码重构、产品方案、长文档分析、多步骤任务,那 oppo 四点八这类模型的价值就会更明显。 这波 cloud opus 四点八的热度,表面上是在讨论一个新模型,但更深一层,其实是在讨论 ai 使用方式的变化。过去我们把 ai 当成一个聊天窗口,现在它开始变成一个能拆任务、挑资源、做检查的工作系统。所以真正值得关注的,不是 cloud opus 四点八是不是神, 而是从现在开始, ai 的 竞争已经不只是模型聪不聪明,而是谁能把复杂工作流程跑得更稳、更省、更可控。一句话总结, opus 四点八不是让 ai 突然无所不能, 它更像是让 ai 从一个会回答问题的助手,往一个能参与复杂项目的协助工具迈了一步。如果你只看热闹,会觉得它被吹得太悬,但如果你真的做项目,就会发现这个方向才是最值得盯的地方。

昨天夜里克拉的更新了新的模型 office 四点八,咱们今天就用大白话来讲一讲它都更新了哪些能力。第一个就是写代码,它更稳, 以前你让 ai 改一个大项目,它可能改一改就乱了,现在 office 四点八更适合处理复杂的代码、大项目和长任务。 第二就是它可以把大任务拆解开来做了。比如你让它改一个很大的系统,它可以先规划,再开始分头处理,最后再检查结果。就像以前是一个人干活,现在像一个小团队了,这个功能官方的名字就 dynamic workflows。 第三呢,就是它更诚实了,幻觉率更低了。这点很重要啊,就很多 ai, 它最大的问题就是一本正经的胡说八道。 opus 四点八可更愿意告诉你,哎,这里我不确定,这里需要检查一下, 这里可能有风险。这对创作者来说是特别重要的,因为你用 ai 写内容的时候,最怕的就不是他写的很慢,而是他把假的写的很像真的。第四呢,就是他可以选择思考的力度了,简单问题就让他快点回答,那复杂的问题,让他多想一会。 这个功能对日常来说还是很实用的。还有一个变化就是对程序员很重要。以后开发 ai 工具的时候,你可以在任务中途调整 koala 的 指令了,不用从头再来了。我今天就实测用 office 四点八跑了一下我自己的自媒体 skill。 第一呢,就 koala, 它更适合改稿了, 你写了一段文案,它不仅是帮你润色,它更擅长判断哪里啰嗦了,哪里不像人话,哪里情绪不对,哪里节奏断了。 第二个就是 collude 呢,更保持我自己的风格,保留了我的语气和判断,更有人味了。第三呢,它更适合长内容。比如说,你要做一篇长文呢,一套选择题,一个系列的视频。 collude, 它更擅长接住上下文了, 不容易,聊着聊着就跑偏了。这对自媒体来说很重要,因为内容不是单挑包袱,而是一整套系统的表达。第四呢,它更愿意告诉你问题在哪。 g p t 五点五呢,很强,效率很高。但是, cologne 四点八,它明显强调了就是诚实和写作的能力, 它不会总是假装什么都没问题,它更愿意提醒你,哎,这个角度是不是太普通了?这个标题没有记忆点,这段逻辑不够顺,所以我觉得普通创作者你就可以这样选。 如果你想快速查资料,快速生成一版内容,五点五, gpt 五点五,很好了,足够了。但如果你想打磨一点观点,改一下口播,做个长文,统一一下风格, cloud office 四点八会更舒服。

主要的,前天发布了 oppo 的 四点八,我来说说真实的使用感受啊。先讲一个很多人都没注意到的背景, sorbike 这次更新的速度非常反常, oppo 的 四点七发布了才一个多月,四点八就出来了。这背后的原因大概率是因为四点七的口碑确实不太好,以及 qq 五和扣带子客户端的加强有关系。 因为很多用户反馈四点七它存在变啰嗦、代码注是堆太多工具掉也不太够干净之类的问题。 sorbike 官方自己也变相承认了四点七确实存在一些小问题,只是它的措辞非常保守。 后面有几个点我觉得值得单独说一下。第一是这个比较实用的新功能,我觉得比模型本身可能更值得关注。可拉扣子出了一个叫 iphone 的 响应力度控制功能,分成几个档位,你可以根据任务的难度手动调整,做简单任务时就调低档,省时又省力。做复杂分析或者大型代码任务时就播到最高档,可以让他多思考一会。 但我的使用感受是,你开到 x i 之后的档位速度是真的很慢。这个功能对于高频使用 cc 的 开发者来说,合理分配 iphone 的 效率真的会高出很多。 第二,诚实度。四点八写出有问题的代码时,主动告诉你哪里有风险的概率比上一代大约高了四倍。这个听起来有点需要,但是对于高品用 ai 做项目的人来说还挺重要的。因为 ai 最让人头疼的地方从来都不是他不会,而是明明他犯错误了,还要表现的特别有把握的样子,最典型的就是某包了。 第三是编码能力,这一代拿真实开源项目里的 bug 去测读代码定位问题,改文件跑测试全套流程接近九成的教到可用,更复杂的靠文件重构,老项目迁移这类活完全率也比上一代提升了接近五个百分点,数学推理方面的升级更夸张。 另外快速模式这次也便宜了很多,速度能跑到以前的两倍半,改项目的时候很合适。价格层面没有变化,和上一代完全一样。 总的来说,四点八并没有带来什么质的飞跃,只是把四点七的漏洞给补全了,幻觉率和知识截止点包括待机使用量都和四点七完全相同,顺便它也加强了一下用户的提感,还是蛮期待下一代的 misos 的。

刚刚 cloud open 四点八来了两个百分之零改写历史,百个 agent 并行重写七十五万行代码只用十一天。大家好,我是 ai 启示录。 就在二零二六年五月二十九日,北京时间凌晨, antropica 毫无征兆地杀回来了。距离 open 四点七发布仅仅四十三天, open 四点八正式登场。 一夜之间,全球 ai 王座议主,价格一分没涨,性能全面碾压。更让人后背发凉的是,这还不是 antropok 手里最大的牌 cloud missiles, 几周后就到, 你品一下,这到底是一场常规升级,还是一次对 open ai 的 公开处刑?两个百分之零,历史上第一次 用过 ai 写代码的人,大概率都经历过同一个噩梦,你让他写一段数据处理脚本,他拍着胸脯说,搞定了,没问题,你跑起来崩溃。你再问他,他说,哦,有个小 bug 我 改一下,你再跑还是崩。反复几次,你发现他从一开始就埋了一堆雷,但他就是不告诉你 这种写完有缺陷代码却闷不吭声的行为。 antropic 给他起了个名字,叫谎报率。在 opus 四点五上,这个数字是零点四零到了四点七,降到了零点二五。而 opus 四点八是多少? 零点零零,没有小数点,后面的零头就是零。 opus 四点八成为历史上第一个在此评估中拿到满分的模型, 他从不汇报虚假数字。还有一张图叫偷懒调查率。之前的模型遇到需要追查的问题时,经常敷衍了事。给你一个错误的答案, opus 四点七有百分之二十五的概率偷懒, opus 四点八依然是百分之零。 两个百分之零,两个历史首次。这不是什么抽象的对齐指标。 anthropic 官博放了一段视频,把这件事讲得很具体。一个开发者用 cloud code 加 open 四点八在迁移代码,自己出门放风筝去了。 cloud 在 后台自己跑, 跑到一半,代码提交被服务器拒绝了。原因是同事在这期间也提交了一个紧急修复。 cloud 通过手机通知开发者,说自己打算先合并同事的修改再重试。开发者嫌麻烦,随手回了一句,直接强制覆盖就行。然而 cloud 拒绝了,他的回复是 不强制覆盖,那样会丢掉同事十一点四十二分提交的紧急修复。我已经把两边的改动合并好了,代码完全一致,提交历史也干净,已推送,你注意这个细节。 用户图省事儿,让 ai 走捷径。 ai 判断出这样做会覆盖同事的工作,拒绝执行,自己选了正确方案。这不是指令遵循,这是判断力。这是 ai 第一次在真实工作流利,比人类更懂什么叫负责任 编码实力全面霸榜。 gpt 五点五被甩开一个身位,光说不练假把式。 opus 四点八的编码能力,在每一个硬核榜单上都写了两个字,碾压。最经典的 swebench pro 测试, opus 四点八拿下了百分之六十九点二的成绩, 你问这个数字有多高?比 gpt 五点五整整高出十个百分点。注意,这不是领先百分之一,百分之二,这是领先十个百分点。 在一个接近天花板的任务上,十个百分点等于一代产品的代差。接着是一项更刁钻的测试, programbench 任务是什么?给你一个翻译好的二进制文件,加一份项目文档,不准反翻译,不准联网, 让模型从零把原代码重建出来,还得跑通行为测试,这相当于你只给一个黑盒子,让 ai 反向工程出完整的设计图。 结果所有上下文预算档位上, opus 四点八的通过率全部高于四点七,而且在低预算时, opus 四点八就能拿到约百分之七十九点五的成绩, 而 opus 四点七在五倍预算下也才百分之八十四左右,说白了就是同样的算力。四点八更强,给更多思考时间,四点八更强到没边。最后一个榜单,双 tier s w e, 这个榜单专冲人类能力天花板去的。用 zik 从里面写一个 postgraduate 服务器,把 get 整个重写一遍, 做一个 lua 的 原声编辑器,全是硬核系统工程,不是那种 litcode 刷题式的玩具任务。 opus 四点八以高达百分之八十三的胜率登顶,把第二名的 gpt 五点五和钱袋四点七全压在身后。 知名博主 mark christmas 一 句话点破他的来头, opus 四点八可能就是蒸馏的 metals, 而这才是真正让人细思极恐的地方。一个蒸馏版本就已经把 gpt 五点五按在地上摩擦,那原版的 metals 得强成什么样?上百个 agent 并行干活,一个人十一天重写七十五万行代码, opus 四点八强成这样,它该使多大劲儿?模型旁边多了个从 low 到 max 的 五档选择,叫 effort control, 简单问题挂漏秒回还省额度,遇上硬骨头直接拉满 max, 让他往死里想。 fast mode 也跟着大降价,二点五倍速狂奔,价钱反倒砍到三分之一,但五档之上还埋着一个真正的狠角色, ultra code effort。 一 旦顶到 x high, 他 就自己掂量这活值不值得叫上一整支 a 战队大军。 这只大军就是 dynamic warp slows 藏在 cloud code 里的真正重武器。他把 ai 干活的方式,从一个人改一道题,变成开一座工厂。我给你翻译一下什么叫开工厂。 以前你给 cloud 一个任务,他自己埋头硬钢,从头写到尾,像个独行侠。现在 cloud 接到一个大活后,会当场写出一段调度脚本, 把任务拆成几十上百个。此任务撒给一大群 sub agent 并行去做,做完还不算完,再派另一波 agent 从不同角度反复盘问,互相挑刺,吵到答案收敛了才汇总成一份,结果交给你。 整个调度发生在对话之外,所以活再大,主线也不会乱,中途断了还能续上,不用从头再来。举个例子, one 的 作者 jared sumner, 想把这个比 note js 还快的 javascript 运行时整个从 zip 重写成内存更安全的 rust。 这种迁移放在过去是一支团队按季度算的工程,但这次 summer 用了 dynamic workflows, 一个 workflow, 先把这个代码里每个结构体字段对应的 rust 生命周期挨个标好。下一个 workflow, 把每个文件逐一翻成行为一致的 rust 版本, 几百个 agent 同时开工,每份文件还配两个审查员,再用一个修复循环驱动翻译和测试,一路推到全率,结果是约七十五万行 rust 代码。百分之九十九点八的原有测试通过, 从第一次提交到合并只用了十一天,六千多次提交,几乎没有经过人类逐行审查,社区当场炸了锅。这不是 ai 辅助编程,这是 ai 驱动的工厂化代码迁移。 一个人的十一天,干完了一个团队一个季度的活,你说这意味着什么?意味着接下来任何一家公司,只要会用 cloud code, 就 能用一个人的成本调用上百个虚拟工程师同时干活。 顺着这条线往下挖,一个更恐怖的真相浮出水面。你以为这只是一个更强的代码模型?不对! opus 四点八的真正杀机在于,他第一次让 ai 在 真实工作流中具备了工程判断力。 你看那个拒绝强制覆盖的例子, ai 没有盲从用户的指令,而是理解了这个操作的后果。覆盖同事的提交,他选择了正确的方案,并主动合并了代码。这不是规则驱动的对齐,这是情境理解驱动的自主决策。 再看 dynamic web source, 它不仅仅是调度一群 agent 去干活,而是让 ai 自己写脚本,自己拆解,任务自己分配,子 agent 自己组织审查和修复循环。整个过程中,人类只提了一个目标,把这个代码库从 zig 迁移到 rust, 剩下的所有工程决策,怎么拆、怎么分、怎么审、怎么合并,全由 ai 自己完成。这意味着什么? 意味着 ai 第一次从一个指令执行者变成了工程管理者。他不再需要人类把任务拆成细颗粒度的步骤,他自己就能拆。 他不再需要人类告诉他怎么验证结果,他自己就能组织审查。他不再需要人类介入冲突处理,他自己就能判断怎么做才是对的。这不是 agi, 但这是 agi 的 前夜。 当 ai 具备了任务拆解、资源调度、结果验证和冲突仲裁这四项能力,人类在软件工程这个领域的角色就会从执行者变成审核者,然后再从审核者变成旁观者。 估值万亿美金的 cloud memos 几周后就到能力夺回第一的同时, and traffic 的 身价也头一回压过了 open ai。 就 在刚刚, antropic 完成了六百五十亿美元 h 轮融资,估值九千六百五十亿美元,首次超越 openai 的 八千五百二十亿美元。一夜之间,它成了全球估值最高的 ai 初创公司。你想想这个时间点的微妙之处。 opus 四月八日发布估值反超 mesos 预告,三件事同时发生, 这不是巧合,这是蓄谋已久的组合拳。 entropic 在 用事实告诉市场, open ai 的 领先窗口已经关闭了,更狠的是, mesos 还没来。按照博克的预告,这个真正的王牌将在未来几招上线。 opus 四点八已经能碾压 gbt 五点五,那 mesos 会是什么水平?你品你细品? 站在 ipo 前夜,这两大巨头的 asi 巅峰对决才真正开始。 openai 不 会坐以待毙, gpt 五点六或者 gpt 六一定已经在路上,但这一次攻守之势一也。以前是 openai 发布一个模型所有人追,现在是 antropica 连甩两个炸弹, openai 在 后面追。 接下来你会看到什么?记住三个词,电地轨。当上百的 agent 可以 并行工作十一天,重写七十五万行代码,软件工程的生产力会被彻底重构。接下来你会看到三件事, 第一,代码工厂化。任何重复性的代码迁移、重构、测试、生成,都会变成 ai 工厂的流水线作业。一个人加一个 cloud code 账号,就能干过去一个部门的事。 第二,人类程序员的角色上移。写代码这件事本身会越来越不值钱,值钱的是需求理解、系统设计和结果验收。不会用 ai 的 工程师会被会用 ai 的 工程师淘汰,而会用 ai 的 工程师会被 ai 本身淘汰。 前提是你不往管理者方向转型。第三,算力消耗的指数级爆炸, dna 漏洞的推理成本只会更高。 当 ai 从回答问题变成管理工程,他对算力的需求不是限性增长,是指数级增长。谁掌握更多的算力,更低的推理成本、更高效的调度,谁就能在这场战争中活到最后。但这一步棋的真正杀机在于 astonovick 不 仅在做更强的模型,他还在做一套让模型自己调度的操作系统。 dynamic workflows 不是 功能,是范式,它把 ai 从一个大脑变成了大脑加双手加流水线。当你有了这个能力,你就不只是在卖 api, 你 是在卖 ai 劳动力。你以为这是技术竞争?不,这是劳动力市场的提前洗牌。 当 open 四点八在两个维度上拿到百分之零的满分,当上百个 agent 并行干活儿,十一天重写七十五万行代码。当上百个 agent 估值反超, open ai methods 蓄势待发。 这些事连起来看,你会发现一个让人背后发凉的结论。我们正在见证的不是一次模型升级,而是一次工程范式的代际更替。 ai 不 再是一个需要人类手把手教的实习生,他开始自己拆任务,自己调度资源,自己验证结果,自己处理冲突,他开始拥有判断力。 而人类在这场更替中的位置,正在从驾驶座悄悄滑向副驾驶。再过几年,副驾驶可能也没了。这是审判,不是预测。我是 ai 启示录。感谢点赞与关注,我们下期再见。

可乐的 op 四点八发布了,我发现他这个里面更新了一点,可以在这里选择他回答的模式啊,由低到高,越低的话他的速度越快,然后呢,消耗的算力越少,但是他的质量比较差,越高他的回答的效果会更好,但消耗的算力也会更大啊。我们来随便 提问一下,它 o p 四点八到底有哪些升级啊?我发现选择高的时候,它这个回答的速度啊,好像是比之前要稍微快一些人,一般的话,使用到 o p 四点七的时候,它回来可能要思考个几十秒,然后才进行回复,它这个就直接去给我们进行 解答了啊,那整体的性能提升了, g p t 五点五,还有就是诚实性啊,它说话的话有真实的依据啊, 不会说胡编乱造,快速模式啊,就在这个回答速度啊,并且便宜了三倍上下文啊,无人窗口达到了一百万支付啊,并且最大输出呢是 十二万八 token 啊,而且缓存也增加了,这就是它提升的点啊。然后刚才使用到了 g p t, 让它生成了一个图标发送给我,它到底有哪些提升? 我发现 ppt 它的深图功能也是非常的不错,如果大家也想使用到 ppt 或者 cloud, 用来写作科研,做数据分析,写代码等等,都可以点击我主页的置顶作品找到我。

opus 四点八更新了,一句话讲清楚它更新了啥。这次它更适配企业的生产环境,也更像一位可靠的 ai 同事。 官方把它描述为 opus 四点七的升级版,重点提升方向包括编码、代理任务、推理能力和实际的知识工作。 也就是说,他不是单纯为了聊天更自然,而是面向真实的环境。这意味着 astopic 的 策略很明确,不靠涨价讲故事,而是用同样的基础价格把更可靠的能力 推给开发者和企业。那么,能力具体提升在哪里? opass 四点八的提升可以拆为四个方向,编码方面,它更适合复杂代码库和多工具调用。对开发者来说,这不是帮我写一个函数,而是帮我理解一个工程,然后完成一组修改。 代理任务方面,官方和早期测试反馈都提到它更会追问,更会发现计划里的问题,也更愿意在行动前确认不确定点。 推理方面呢,四点八在复杂知识工作和实际任务上表现比四点七更进一步。最后是真实工作,这是最关键的模型能力的竞争正在从谁回答的漂亮转向 谁能更稳定的把事情做完。而要稳定的做完事情,最重要的是可信,还有诚实度。 astopolik 这次特别强调了诚实度。换句话说, opus 四点八不只是更强,他也更愿意承认自己不知道,更愿意指出不确定性,更少把薄弱证据包装成为确定结论。 在真实工作里,这一点非常重要,因为 ai 最大的问题往往不是不会生成,而是生成的很像真的结果,还要人类花大量时间反攻和排查。 官方还提到,在代码缺陷方面,相比上一代, opus 四点八更不容易,让自己写出来的代码问题未经提示就溜过去。所以它的产品价值不是什么永远正确,而是更像一个知道什么时候该停下来确认的协作者。 这种可能性直接服务于 cloud code 的 新工作流。 cloud code 这次新增的 dynamic workflows 是 整次发布里最像生产力工具的部分。它的逻辑是, cloud 不 只是接一个任务然后回答,而是先规划任务,再把大任务拆成多个子任务并行运行。 sub agents, 最后验证得出, 再面向客户汇报。官方给出的典型场景是大型代码库迁移,甚至是数万行代码级别的任务,从 kickoff 到 major, 中间由 cloud 规划执行验证。这说明 cloud code 的 定位正在发生变化。以前我们说 ai 帮我改一段代码,现在更接近 ai 帮我跑一段工程流程。 但长任务和复杂任务会消耗更多的推理资源,所以 astropy 同样给了用户一个控制旋钮。 a for 空隙可以理解为模型思考深度控制。在 cloud 点, ai 和 co work 里, 用户可以选择让 cloud 投入多少 effort, 低 effort 更快,也更省额度。高 effort 更适合复杂任务,因为模型会投入更多的推理过程。 opus 四点八默认是 high effort。 对 于困难任务和长时间异步工作,官方建议使用 extra, 这背后的变化很重要,模型能力不再是一个固定开关,而是可以按任务难度 调节的资源,简单问题不用重推理,复杂任务则用更深的思考换取更少返工。除了用户测的 eiffel, 开发者测也有一组新的运行控制能力, 那就是价格。常规价格方面, oppo 四点八与四点七保持一致,输入每百万 token 五美元,输出每百万 token 二十五美元。 fast mode 是 另一档速度优先模式,官方称它可以达到二点五倍速度,价格是每百万输入 token 十美元,每百万输出 token 五十美元, 并且比此前模型的 fast mode 便宜三倍。 api 方面,开发者可以通过 cloud opus 四点八调用。与此同时, message api 支持 system interest, 让开发者可以在长任务中更新权限、托管预算和环境上下文。这说明 astopic 不 只是发布了一个模型,而是在补齐模型运行时的控制面。把这些功能放在一起看,四点八背后其实是一套代理平台。 dynamic workflows 解决的是大任务怎么拆、怎么并行,怎么验证 effort 空隙,解决的是不同任务投入多少思考资源。 system interest 解决的是长任务中如何更新运行上下文, fast move 解决的是速度优先场景, 这些能力单独看都是功能点再组合在一起,它们组成的是一个更完整的代理平台。也就是说, historic 的 方向不只是让 cloud 更会说话,而是让 cloud 更适合被切入真实工作。业务流程、工程流程 和支持工作流程,这也是 opus 四点八和普通模型升级最大的区别。所以这次报道的核心口径可以收数成一句话 就是让人少操心,哎,这句话听起来很朴素,但很接近我们真实生产环境的要求,企业不缺一个能生成长答案的模型,企业缺的是一个能少犯错、会确认、会验证、会稳定跑完复杂流程的模型。 所以我们可以这样理解 opus 四点八,它是把可能性、速度、档位、思考深度、并行代理和 api 控制面组合成一套新的生产力系统。这也说明 ai 模型竞争正在进入下一个阶段,从谁更会说进入,谁更能稳定把事情做完。最后总结一下, cloud opus 四点八的价值不只是更聪明,而是更能做。 它把模型能力、 cloud code a for 控制器、 fast mode 和 api 运行控制都放在同一条产品线上了。对于用户来说,它更像一个可靠的 ai 同事。对于开发者来说,它更像一套可以嵌进工作流的智能基础设施。

就在今天, a 社又发布了 opus 四点八,距离上一版四点七只过了四十一天,这次到底更新了什么?值不值得关注?文哥帮你拆清楚。 先说最重要的一点,价格没变。 opus 四点八的定价和四点七完全一样,输入五美元,输出二十五美元,加量不加价。除此之外,还有三个亮点值得一说。第一,代码能力继续拉开差距。 a 政的编程得分从四点七的百分之六十四点三提升到了四点八的百分之六十九点二, 跨学科推理得分从百分之五十四点七跳到百分之五十七点九,这两个数字听起来可能没什么感觉,问哥帮你翻译一下, opus 四点八的 agent 编程得分百分之六十九点二,而 gpt 五点五只有百分之五十八点六,下一个竞争对手是百分之五十四点二。也就是说,在代码这个赛道,四点八不只是进步了,是把对手越甩越远。 第二,诚实度。这是问哥觉得最有价值的一点。安卓 root 说 oppo 四四点八比四点七少四倍的概率让代码缺陷在没有标记的情况下通过。换成人话就是以前 cloud 有 时候会悄悄放过代码里的问题,现在他会主动告诉你这里有个坑。你注意一下, ai 最可怕的问题从来不是笨,是一本正经的糊弄你,还让你信以为真。这次四点八在这块真的往前迈了很重要的一步。 第三,新功能主要面向重度用户, cloud code 新增了动态工作流功能,可以处理超大规模的问题。这是在单次绘画中规划任务并运行数百个并行子 agent。 说直白点,以前你让 cloud code 处理一个十万行的代码库迁移,中间可能要你反复介入。现在它能一次性拆成几百个并行任务同时跑,从头跑到合并,你只需要在旁边看着。 另外还新增了努力程度控制,你可以告诉 cloud 这个任务你要它花多少精力。日常清量任务省偷,更复杂,硬核任务全力出击,不用每次都跑满。 fast 模式现在速度是标准模式的二点五倍,而且比上一代的 fast 模式便宜三倍。如果你是重度代码用户,直接升级,没有任何犹豫的理由。代码能力继续领跑。城市度提升,意味着你 review 代码的时间会变少,它会替你标出来。 如果你是跑复杂 agent 任务的开发者,动态工作流这个功能值得认真研究。大规模并行,此 agent 这个能力之前是没有的。如果你是日常写作或普通办公用户,这次更新的核心在 agent 和代码侧,对你的直接影响有限。 samet, 四点六对你来说依然是性价比最高的选择,不用急着换。 最后补一个背景信息, android 目前最强的模型其实不是 oppo 四四点八,而是内部代号 metos 的 模型,它的能力比四点八还要强,目前只对少数机构开放测试。 metos 级别的模型将在未来几周内向所有用户开放。 也就是说,四点八不是终点,只是目前能用到的最强版本,后面还有更猛的在路上。文 model 实验室,不讲噱头,只聊干货,我们下期见。

cloud 昨天发布了新版本 oppo 四点八,你可能觉得版本号嘛,四点七升四点八,这不常规操作嘛。但是啊,我们去看看更新日期,四十一天。上一个版本四点七是四月十七号发的,到五月二十八号正好是四十一天。 你知道 s o pick 以前发旗舰模型是什么节奏吗?四点五到四点六隔了三个多月,四点六到四点七隔了快两个月,现在直接干到了四十一天,砍了一半都不止。我当时就想,哇塞, 什么事能让一家公司把这个迭代速度啃半?翻了一下你就会发现啊,这次升级其实挺微妙的。 个人看法啊,四点八确实变强了,官方说它的诚实度大概提升了四倍,什么以前爱硬边的地方,现在知道说我不确定。有个叫 super agent 的 测试,它是唯一全部通关的模型, g p t 五点五都没做到,还加了一个叫 dynamic workflow 的 东西,几百个子任务能够同时跑 几个小时的活,能压缩到几分钟,价格还没涨,听起来是正常的升级对吧?但有意思的啊,它的底层模型根本没换, training data cut off 跟四点七一模一样,都是今年一月。说白了 这不是模型升级,我觉得更像是一次紧急抢修。为什么要紧急抢修呢?你知道四点七发出来发生了什么吗? 那真是全网吐槽,什么忽略指令,幻觉评出,阿谀奉承,还变贵了。推特上更是有很多帖子说四点七根本就没有四点六好用。一个旗舰模型被用户骂成这样,你换谁谁不慌。 那更要命的就是 open ai 那 边, gpt 五点五配上 codex 编程能力,把 astropake 压得够呛,你猜怎么着? astropake 在 自己的公告里边专门标注了 gpt 五点五,使用 codex cli 的 得分百分之八十三点四,然后拿自己的数据去对比, 当你发现这些信息之后,你就会觉得你见过哪家公司在自己的产品公告里边贴竞品的跑分,这不是急了?这,这是什么? 所以四点八出来的本质就是被两件事逼出来的,前有四点七口碑翻车,后有 codex 锥子打不升级他是真扛不住。 但说实话啊,谁赢了这个东西不重要,我想跟大家聊的是另一个东西,就是四十一天。首先这个数字,以前 ai 公司发模型得一个季度,起步大半年都很正常,现在呢?一个月就憋不住了。 这不是说 a 是 一家的事,是整个行业的节奏都变了,旗舰模型迭代正在从季度变成月度,你不需要去追每一个最新版本,但是我觉得有件事大家心里要有数,你现在觉得最好用的那个 ai, 三个月之后它可能就不是最好的了。 不是因为它变差了,是因为它整个行业的底线在往上走。还有个细节,四点八发布的当天, s o pick 顺手宣布了一笔六百五十亿美元的融资,估值直接干到了九千六百五十亿。同一天,产品升级和资本弹药一起甩出来,我只能说四十一天,它只是一个开头。

大家好,今天是视频记录一百天的第七十九天,看到 cloud code 发布了最新的 oppo 四点八 版本,如果说要使用的话,就是把自己的 app 或者说 cloud code cly 都升级到最新版本就可以来使用了。一个比较新的一个特性,就是 dynamic workflow 动态的一个工作流,这个 说白了就是可以动态的去做一些特别大的一些功能的一些重构,或者说流逝的一些任务。当然官方也给了一个建议,就是 先用一个相对小的一个任务来做一个试点,如果说要用的话,就是可以在呃 提示词里边加一个 vlog flow 的 一个提示,这样子的话模型就会识别出来,要用这种呃德莱美 vlog flow 来拆解任务来继续往下推。 官方也给了一个注意事项,就是这个工作流会比较消耗 token, 所以 在刚开始使用的时候可以先尝试一下,看一下它的 token 消耗量到底自己能不能接受, 如果说不能接受的话,还是建议先用之前的一个流程来继续完成之前的工作。好吧,今天就聊到这里,谢谢大家!再见。

android 发布了他们的最强模型 cloud of 四点八,老规矩,我不想跟你念参数,那我其实只关心一件事情,就每次新发模型,我们把它丢进真实的项目里面,它的干活质量到底怎么样? 那这一次这一个 cloud of 四点八新发布的模型啊,我刚测完,我反而觉得 gpt 五点五加 codex 的 组合还能打,为什么呢?看到这个视频最后你就懂了,不过这一次有个东西是真的有意思,就是它这个动态工作流在 cloud code 的 里面,就是你只要一句话, 带上 workflow 这个关键词, client code 当场就给你写一段脚本,然后咔的一下拉起一个几十个上百个 agent 的 舰队,一起去帮你干一件大事。 我们来看一下它整个运行的一个流程图大概是怎么样子的。从这个图片可以看到哈,就是当我们 client code 里面你写了一个 workflow, 它这个时候通过脚本,然后去给你并发各种 agent, 那我们可以看一下它这个脚本长什么样子哈,其实也比较简单,就是它有每个阶段嘛,就是你是 workflow 的 一个流程,每个阶段,比如这个阶段它要排查啊,这个时候可以看到它这个用了一个 await, 是 吧? await 去并行运行了多个 agent, 完事之后走到这里得到了结果,这时候就回到你的主要的对话里面,它又开始去 定型,去开始第二个阶段,再去掉各个 a 镜头,大概就这样的一个工作流的一个过程。下面的话到我们的一个实测环节,这次的话我们用了我的一个开源项目,就是 c c 杠,哈哈,它目前的话有十一点九 k 的 star 是 一个,就是把 curl code 的 卸载原代码补齐,做了一个桌面端,还有 c o i 的 一个 开项目嘛,那这个开项目的话最开始也一直是 gpt 五点五加 codex 去迭代的,那这一次的话, cloud of 四点八出来之后,我要去做一个新功能,我们本期的一个实测哈,就是要让我们这一个桌面端,它在它的右侧能够对我们本地的一些 服务,比如说你用 react 或者是 vue 写了一些本地服务,这个时候我们要去点击,让它在右侧展现出来,或者是本地的一些 html 要拦截这个行为, 并且我们右侧要有要有一个小的一个浏览器预览,而且能够像 codex a p p 一 样,能够就在在上面去选中一些按钮啊,标题啊,或者一些块儿啊,能够去做定位,而且还能够直达答案,让它去修改。 在 codex 聊天中,当它改了哪些文件,比如说是 html 呀, markdown 啊,其实你都可以去点击,点击完它会在右侧去预览,而且下面也有这种打开的方式,也整体的交互,就相对来说挺棒的嘛。在整个桌面端,我认为现在 codex a p p 就是 目前交互最好的在桌面端来看, 那下面我们来看一下这个 html 它是怎么做到整哪打哪的?可以看到这个时候我们不是打开了这一个我们这一期视频的这个 ppt 吗?那它这边有一个模式的话,就是你可以去去,这样有一个选择器可以去选嘛?比如说我选中这一块啊,这个时候我就可以用自然元描述啊,我觉得这一块的 ui 交互啊,文案不行, 那就可以通过这样的方式让他去改,可以看到他就对我们这一个图片这一块加了一个备注嘛,对不对?然后还有我们这块的信息整体就是这个交互的功能,然后还有的话就是这个截图啊,他这个截图已经保存到剪切板,我们可以用大概这样的一个流程, 我们就希望我们这 c c 刚哈哈也支持这个功能,并且也有人在我们的 github 要求里面提出来了要这个功能,那我们就试一下。那今天的话 我用了 gbt 五点五以及我们刚刚看到了 kalco 的 off 四点八去做这个任务,那这边的话也是给了它五张 codex a p p 它整体的一个交互流程,并且我们也是用了这一个 superpowers 的 一个头脑风暴模式,相关的一些提示词都是一样的。然后我们去测试这个任务,我们可以看到 codex 这边呢,它最终启动了四十三个, 呃,三部 a 镜呢?帮我们把这个任务完成了,所以效果怎么样?待会儿我们再来看。那我们回到就是 clock code 这边也是用了陀螺风暴 t s 也是一样啊,也是同样的,就是每个阶段让告诉他我们最终这个设计文档要做成什么样子。有了设计文档之后,他也是去 各种实盘刹不住 a 进的去做。那在 codex a p p 这边的话,它整体的这个消耗可以看到今天我是烧了五亿的 token, 那 对于刚刚我们那个任务,大概我估算了一下,大概有三亿 token 这样子吧。 cloud 这边的话也是今天一天就烧了我这个一百刀的百分之二十的一个额度吧,一天就烧了,没有做其他的 任务,基本上没做其他的任务。好,我们下面来看一下两边的一个实现情况如何。好,下面我们来看一下 cloud 桌面端加 cloud off, 四点八,他去帮我们写了这一个 c c 杠,哈哈,桌面端就右侧这个浏览器预览的功能。 那这边的话我也给了一个提示词,就是让他帮我们产出一个 markdown 的 一个内容以及 html, 再让他去写了一个本地的一个突突项目嘛,就是用 react 去写。那最终他这边写完了之后呢? 啊,可以看到这里其实是已经他这边做了一个监测,当然这块的交互其实没有 code app 原声那么好,当然他也做到了,我们来试一下哈,就是我们在运用浏览器打开 啊,可以看到这个,是不是已经可以去看到这个这个网页这个预览效果了?那我们可以看一下截图功能,点一下可以看到这边其实也是可以用的嘛,是不是?那第二个的话比较关键,就是他这个检查元素嘛,可以看到他也是完成了,是不是?比如说我们就说这个按钮,我们就在这让他告诉他啊,我需要把这个按钮改成 就是这一个网页的主题色,你帮我改一下。另外的话,当前这个按钮的这一个 border 这些我也不是很喜欢,你去调整一下。 好,我们来去确定,你可以看到这边它就已经帮我们把这个东西做过去了,就是把截图嘛,就我们刚看到 codex app 那 边的一个交互,交互过去了,我们就可以去让它去做做这个事情。 那下面的话就是其他的一些功能哈,其他一些功能的话就是它可以在这边,比如说我们这是一个 markdown 的 内容嘛,所以说你可以在工作台去预览,基本上就是把那边实现了一遍。 其实整体实现还是挺复杂的,可以看到 codex 那 边他完成这个任务他都开了四十多个 java agent。 那 cloud 这边其实我没去统计,因为它这个过程没有像 codex app 那 边那么直接, 整体的效果其实完成度还可以,当然还有一些细节优化的点。好,我们来看一下扣贷 app 跟我们完成同样的功能,他是做的怎样子的?可以看到他在这一块, 在这一个行内,其实就帮我们把这一个要预览的这一个,呃,本地的地址啊,还有你的 markdown 啊, html 都做出来了,其实这块交互我觉得会稍微好一些。那么点过去看一下可不可以用,那可以看到都是同一个页面吗?是可以用的,刚刚我们说改按钮那个他其实已经改好了,是不是?那么看一下他这个截图可以用吗? 这个截图这个方式是这样子,它不是像呃 cloud code 实现那样子,是放一个图片在这里, cloud code 那 边会好一些。好,我们来试一下它这个定位也是可以的,可以看下,也是能选择某一个。我们选到这一块说一下,这个文字太大了,改小一点,字号改小一点, ok, 可以 看到它这个其实完成度也挺好的。那现在的话,其实我也没有想清楚,到底是把 gbt 五点五生成的这个核到我们的这个主干里面,还是说把 cloud 那 边去核一下?我可能会把 cloud 那 边的这一些 open 这边的加过来,然后用用 gbt 五点五的这种这种样式,最终把两个合起来,得到一个比较好的一个交互方式。那再看一下吧,从我四月份发布以来,就是从它泄露原代码,再加上我们做这个桌面端嘛, 一行代码的微信百分之八十的代码都是 gpt 五点五加这个 qd 写完的。可以看到我今天除了写这个项目以外,还做了其他一些功能。那下一个版本也在,应该是明天就会发布了,我需要去做一些就测试嘛,可以看到它真的是非常非常的好用,而且最关键啊,它不封号 是不是?那你如果是用呃 cloud 的 话,就是真的特别容易封号,我已经被封了四个了。好,下面我们来做一个总结。对于大多数人而言,我还是推荐你选择 qd 加 gpt 五点五。为什么? 你看我老婆这种律师哈,她现在都已经用上 codex 加 gpt 五点五来帮助她在平时的工作中进行赋能。打个比方,她平时有很多需要去操作 word 呀,然后 excel 啊,还有去填一些表单,这个是完全是可以用啊, gpt 五 点五加 codex 去做。再让我不最近也给她做了一个就是律师相关的一个工具嘛,因为她有她们有很多资料,其实都是需要在本地去操作,就是不能上云嘛, 比如说你像客户管理啊,还有一些合并 pdf 啊,这些都是可以照本地去做的。你说像这种工具,直接用 codex 去做,让它去描述你的需求,然后用那个就是一个 go 的 模式嘛,让它去做,完事之后再让它用 computer user 自己去测,它会自己去 啊,写完之后 build 出来这一个桌面的 app, 然后如果你看像我们这种不是需要去选择 pdf 嘛,对不对?如果你需要去选择 pdf, 它还会自己去打开这个,就像我们一样去打开,打开完了之后 去选择,然后去帮你去压缩,做这种合并,各种都可以做到。所以我为什么会推荐大家去使用这个呢?而且等待下一代模型发布的时候,它会更强。还有最重要一点嘛,就是 g p t 五点五, 你正常人用它一般不怎么封号,那 cloud off 四点八这边也挺强的,但是呢,它的门槛就会高一些,并且它的这个桌面段哈,它这个桌面段体验其实相对来说还是差, codex 会差一些,如果你这两个都用不了, 那你也可以用,就是我的这个开源项目就是 c c 杠,哈哈,这个开源项目也是开源免费的,也没有任何的一个门槛。你也可以用,就是各种国内的模型嘛,比如说你可以用 deepsea 呀,你看我这边其实都有,就 deepsea 呀,或者你可以用小米的呀,或者是智普,你都可以。那它基本上内核它也是 clio 的 本身嘛, ci 的 本身 功能我也在迭代,就看大家自己怎么样个选择。 ok, 不 管是 off 四点七四点八,它整体的这个发布啊,没有给我很惊艳的感觉,没有上一代从四点五到四点六的那个惊艳感, 那还是倾向于就是 g p d 五点六的一个发布,看它到底会带来怎样的改变?我现在基本上已经离不开 codex 这个 app 了,我最近真的狂用。我刚也给大家看了一下我的一个 token 消耗,最近一个月吧消耗了大概一百亿 token, 一 万多刀的一个消耗, 最近就是狂用,特别特别好用,而且运行起来也非常的方便。但是它也有一个问题,就是它容易内存泄露,我六十四 g 的 内存它有时候都能给我干嘛,就理解不了到底在干嘛。 ok, 那 这就是本期视频所有内容了,如果大家觉得这视频做的不错,可以给我一键三连,我是阿建,我们下期见。拜拜。

anthropocene 重大更新, opus 四点八正式推出, missiles 模型即将开放, cloud 正在从一个聊天模型变成一个能长期干活的 ai 协作者。 anthropic 表示, cloud opus 四点八是在 opus 四点七基础上的一次增强,它不是一次彻底换代,而是变得更会写作,更适合 agent, 更诚实, 更适合处理长任务。先看价格, opec 四点八的普通 a p i 价格没有上涨,仍然是输入每百万 tokens 五美元,输出每百万 tokens 二十五美元。但快速模式变化很大,官方说, opec 四点八的快速模式可以达到二点五倍速度, 而且相比之前模型的快速模式价格便宜了三倍。也就是说, antropic 这次不只是提升模型,还在想办法让 cloud 跑得更快。真正的重点是 cloud code 的 动态工作流功能,这是一个研究预览功能。官方说, cloud code 现在可以先规划任务,然后在一次绘画里运行数百个并行词 agent, 最后再验证结果,它能做什么? 不是简单写几行代码,而是处理代码库级别的大型迁移,甚至覆盖几十万行代码,从启动任务、修改代码、运行测试到最终合并都可以自动推进。这就很接近一个 ai 工程团队了。以前 ai 编程是你盯着它写,现在 optimap 想做的是你给目标 cloud 的 自己拆任务、调工具、跑流程、验结果。同 时, cloud ai 还新增了思考力度,简单任务就让它快一点,省额度,复杂任务就让它多想一点, 回答质量更高。还有一个很关键的升级诚实。 antropic 官方特别提到, opus 四点八更容易主动说出自己不确定的地方,而不是证据不足,还硬说自己完成了。他们的评估显示, opus 四点八比 opus 四点七少大约四倍。出现代码有问题但不指出的情况。这对 ai 编程非常关键,因为企业真正需要的 是一个会吹的 ai, 而是一个能安全交付,能发现问题的 ai。 另外, a p i 也更新了 messages。 a p i 现在允许开发者在任务中途更新 cloud 的 系统指令,比如全线 token 预算和环境上下文,不用打断任务流程。最后, anthropic 还留下了一个更大的悬念。 anthropic 预计未来几周会把 mephos 及能力带给所有客户。 这个神秘的模型终于要向大众开放了。所以这次 opus 四点八表面上是一次稳定增强,但更深层的信号是, cloud 正在从聊天机器人走向长期任务 agent, 而 mythos 可能才是 antropica 接下来真正的大招。你觉得 cloud 这次更新之后能不能继续压住 g p t 和 jimmy? 评论区说说你的看法。

大多数用考四点七错过任务的人不知道,他有时候可能会骗你,他说他提交了五十个文件,但实际上最后只提交了十五个。那这些问题呢,在昨天发布的 office 四点八里面,已经全部更新了。 嗨, welcome back to the channel。 我是 jacky, 今天讲 office 四点八的三个改动。第三个呢,你只需要花五秒钟就可以让你的 prom 提升三倍的技巧。第一个呢,是诚实度升级。很多人用 calco 写完代码,他会跟你说已完成已提交,但只要你细心的去翻一下 get lot, 你 就会发现他有时候只提交了一部分。 那昨天发布的四点八,现在会更准确的说,我做了哪些,还有哪些没有完成,他不会再假装完成。第二个是 office 四点八,加了一个努力程度的设置, low 和 midi, 它速度更快,适合简单的任务。它不会去过度的设计,不会过度的工作。 x, i 和 max 呢,适合你去给它更难的任务,它会全力以赴,但同样也会消耗更多的 token。 所以 用一句话总结第二个更新点, 就写代码时候,你可以用 max 或者是 x high, 那 平时问问题你就用 high。 那 如果要去跑很多批量性的任务,你可以用 mid 或者是 low 去节省你的 token 使用量。三个就很少人知道了,叫 prom 加 y。 不知道你有没有发现,经常你跟 clark 说不要做什么,但他经常会不听, 比如说你靠说不要用破折号,但如果你说我的写作风格从来不用破折号,请模仿我,他立刻就明白了。这个转化呢,是四点八的官方文档,里面明确写了,给指令的时候要给出原因,那执行的准确率会大幅提升。总结来说就是 不要做 x, 是 因为 y, 所以 z 给 coco 一个原因背景,他就能举一反三,更好地理解这个行为,而不是机械性的执行。这以上就是 oppo 四点八更新我觉得最值得分享的三个点,如果有用的话可以点个收藏。关注 jacky 的 ai 成长日记,每天懂点 ai 使用技巧。

大家好,我是青宇。二零二六年五月二十八日, antropica 正式发布旗舰大模型 clotops 四点八, 距离上一代 opus 四点七仅四十一天。这是 antropica 史上最快的一次旗舰迭代。官方明确表示,这是一次温和但可感知的改进, 没有架构级调整,核心聚焦可信、诚实性和工程能力优化。这次更新带来三个核心升级,第一个也是最有价值的升级,诚实性大幅提升。之前用 ai 写代码,最头疼的就是他明明写了有 bug 的 代码,还拍着胸脯说没问题。 这次 opus 四点八在信息不足时会主动说我不知道,不再强行编造结论。官方数据显示,他发现自己写的 bug, 并主动告诉你的概率比 opus 四点七提高了四倍,这对需要高可能性的专业工作来说,价值远超过任何跑分提升。第二个升级,动态工作流, 大规模工程能力质变。简单说, opus 四点八现在可以在一个任务里同时调度几百个智能体并行工作,自动完成规划、拆解、执行和验证全流程。 官方实测,开发者工具棒用这个功能把七十五万行代码从 zig 迁移到 rust, 全程仅用十一天。合并后测试通过率高达百分之九十九点八。 这种规模的工程任务,以前靠人工至少需要几个月。第三个升级,努力程度可调节用户掌握主动权。 club 新增努力程度,滑快,也就是思考强度。你可以根据任务难度, 在速度、成本和推理深度之间自由平衡。简单问题用低档位能省一半钱,复杂问题用高档位能获得更好结果。接下来是大家最关心的定价模式。 opops 四点八提供两种运行模式,第一种是标准模式,价格和四点七完全一致,每百万输入 token 五美元,输出二十五美元。 第二种是快速模式,运行速度是标准模式的二点五倍,定价为每百万输入十美元,输出五十美元。 小米 opus 四点七的快速模式价格降到了原来的三分之一,而且官方明确保证快速模式用的是同一个模型,质量和标准模式完全一致。 性能方面,根据官方系统卡数据,在和 gpt 五点五 gmbn 三点一 pro 的 七项核心核心测试中, opus 四点八拿下六项第一,覆盖智能体编程、计算机操作知识、工作多学科推理、金融分析等领域。 其中在最能代表 ai 工程能力的 swbench pro 测试中,优势非常明显。 opus 四点八得分六十九点二, 比 gpt 五点五领先整整十点六个百分点,它唯一的短板是终端编程,在这个场景下, gpt 五点五仍以百分之七十八点二对百分之七十四点六保持领先。那实际用起来到底怎么样呢? 这两天我看了全网很多开发者的真实反馈,发现评价特别两级分化,很多人说这次诚实性提升真的解决了大问题,大规模代码迁移和重构能力特别惊艳。快速模式降价之后,性价比直接拉满,长任务跑起来也比以前稳多了。 不过也有不少人吐槽 radis 之父 antryce 表示实际写代码的体感还是不如 gpt 五点五,还有很多人觉得他说话太像客服了,不够自然, 甚至有点生硬。也有人说它太谨慎了,很多事情都不敢给明确的答案。那么问题来了,你觉得 cloud opus 四点八和 gpt 五点五到底谁更好?你平时更习惯用哪一个?欢迎在评论区分享你的真实使用体验。

就在昨天晚上五月二十八号的深夜, ai 圈又炸锅了, astropica 甩出了他们新一代的王炸产品 cloud opus 四点八,而且这个比爆料呢还提前了半个月上线,性能上有大幅的提升,并且价格上还跳水了。 它有以下几个核心的能力。首先第一个升级是它的思考强度,你可以自由控制了,以前 ai 思考是黑盒,不管简单复杂都会死磕。但是呢,四点八直接上线了,叫 default control, 投入控制的三个模式, 它分了三种,一个 low 模式可以支持日常的聊天啊,简单的问答可以一秒钟就生成答案,这样会省费用。另外一种 high 模式呢,是默认模式,可以写代码做分析,把质量拉到最满。 第三个叫 high x high 或者叫 ultra code 的 这个模式,它可以做深度的排查,超复杂的任务。 简单的来说呢,这第一个优点就是小事是不浪费的,大事能够尽全力。第二个就是它有个叫 fast mode 的 二点五倍速的模式,然后价格可以降到三分之一,它可以做批量处理啊,文档分析,代码扫描,这个性价比直接就是走到天花板了。 那第三个叫 dynamic workflows, 它就是像是你可以协助一个千人的团队,它可以协调数百个 sub agent 自动去写脚本编排任务。然后呢,不用去手动排速度, 所以他的副项目复杂的话就可以能够很好的去使用,相当于你一个人就拥有一个千人的技术团队。第四个最核心的升级就是他的诚实度拉满了,他的诚实度提升了四倍,拒绝胡说八道, 他不确定,他就一定说不知道,然后也不会编造,也不会瞎编,而且不会根据 无依据的结论去瞎说,然后他能够对其内部的顶尖的模型,所以这样的话就再也不怕 ai 去坑人了,真的是靠谱到了极致,而且多项的基准,也叫 opus 的 四点七,有了很大的提升。 总结来说呢,现在 ai 已经进入了叫精算和强算力的时代,而这个四点八的更新呢,不是小迭代,其实是一个降维打击。那普通人呢,用 fast 模式可以又快又便宜, 开发者呢,可以用动态的工作流,效率可以翻倍。而企业呢,可以用高诚实度,安全可靠。所以这样我们看美国的这三个公司, 这个 g p t, 他 们是不是又傻眼了?所以这半年呢,我们看到好戏才刚刚开始,让我们期待后半年以后未来的发展。

hi, 大家好,就在昨天, cloud opus 四点八出来了,上一个版本四点七才过了四十一天。四十一天很多人四点七还没用熟呢哈,它就已经不是最新版本了 啊,这家公司大家都知道啊,是 sarpic 啊,他做的这个 ai 产品叫做 club。 嗯,他一直在跟这个叉二 gpt 啊,扳手腕。就在这两天啊,他们刚刚融了六百五十亿美元啊,换算过来差不多是啊,一万亿人民币吧,然后这个融资刚完,新模型就来了,这帮人根本停不下来哈, 先说说啊,这个 opus 啊,四点八到底升级了什么啊?这个四点七呢,有一个让程序员特别头疼的问题呢,就是他啊,特别爱拍胸脯啊,你让他写代码,他写完跟你说啊,没问题啊,直接跑就行了 啊,结果你一跑直接报错啊,你让他修 bug, 他 说修好了啊,你跑一遍啊,那个 bug 还在 四点八呢,就据说就是把这个给改了啊,他现在写完会主动跟你说啊。嗯,这里我不太确定啊,你最好跑个测试确认一下啊。听上去好像变笨了啊,但其实是变老实了,官方数据说啊,代码有问题,但装没问题的概率啊,直接降了四倍哇, 第二个升级更猛啊,叫做动态工作流,就是你交给他一个大的任务啊,他自己会拆分分列出几百个分身同时干啊,几百个 sub a 人干完还会互相检查有没有出错,最后打包给 你。有人用它把七十五万行代码啊,这么多哈,十一天全部迁移完,通过率九十九点八,同样的活啊,人来做,我觉得起码啊,半年起步吧。 最后再说说大家关心的问题啊,这个价格怎么样?标准版啊,他跟四点七一样,并没有涨,但有个更大的惊喜, 就之前有一个快速模式啊,速度快,大概两点五倍吧,据说,但价格呢,他是普通版的六倍啊,就是大家都一直在骂哈,这次直接给你砍到了两倍啊,从六倍到两倍,速度还是那个速度啊,但价格少了三分之二,听起来很不错 啊,有人就问呢啊,他突然为啥突然降呢啊?因为这一周他们同时拿下了亚马逊、谷歌、 spacex 三家的算力啊,服务器多了啊,这,这个成本就下来了。 好,接下来说一件呃,我觉得挺有意思的事情啊,这个模型刚上线,就有人发现了一个问题啊,用 api 直接问他,你是什么模型啊,有的时候回答自己是 deepsea 啊,就是不说自己是 cloud 啊, 这,这是咋回事呢?我觉得可能大家多少知道一些啊,就是啊,在 ai 圈有个技术叫做真流通,俗说就是用 a 的 答案去训练 b 啊, b 学多了,连自我认知都跟着 a 走啊。嗯,就好比你一直抄同桌的作业啊,抄到最后交卷名字都写成人家的了。 最搞笑的是呢, ansarpic 之前一直对外啊,投诉啊,说别的公司偷用 cloud 的 数据训练自己的模型,态度还非常的强硬啊,结果这次啊,自己被大家怀疑干了同样的事情啊,而且用的是中国的开源模型。 目前 ansarpic 并没有回应啊,不过说实话啊,这个 qwind 跟 deepsea 都是开源的对吧,所以用他们的数据训练是合法的啊,这件事情不存在法律问题啊,就是可能脸上有点挂不住, 所以你看看吧。这次更新啊,我觉得能力是升级了,价格也是真降了。嗯,但上线第一天就被人抓住,连自己是谁都说不清楚啊。 这个四十一天一个版本啊你,你们就可以想象 ai 这条赛道卷到什么程度啊?评论区告诉我,你觉得它真流吗?欢迎大家一起讨论。

昨天 entropic 发了 cloud opus 四点八和 dynamic workflows。 opus 四点八是 entropic 旗舰模型的一次点版本升级,价格和四点七完全相同, 五美元输入美元,二十五输出每百万 token。 这次核心更新有三块模型本质的判断力和诚实度提升, dynamic workflows 以及用户可以手动控制思考。深度模型诚实度这块有一个具体数字代码缺陷,漏报率比四点七 低了约四倍。也就是说,他更愿意主动告诉你代码有问题,而不是假装完成任务。 opace 四点八同时是推理模型, 支持深度思考,也是多模态模型,支持图像和文档输入。要理解 dynamic workflows 解决什么问题,先说现有 agent 的 根本限制。一、 ai 经常假装完成做抠定 agent 任务时,代码里有 bug, 但不说给用户一种虚假的完成感,这是影响 agent 可信度的根本问题。二,大任务做不了。你用 cloud 或者任何 ai agent 做一个复杂任务的时候, 会遇到这个情况,任务做到一半挂掉了,或者 a n t 开始绕圈子,或者你需要手动把大任务拆成几十个小任务一个个喂给他。根本原因是上下文窗口。普通的 do agent 方案,不管是 autodg p t 还是 kimi 蜂群,工作方式是这样的,就 agent 派一个字 agent 去干活, 子 agent 干完把结果返回给主 agent, 主 agent 读完结果再决定派下一个问题在哪。每个子 agent 的 输出都要塞回主 agent 的 上下文,十个子 agent, 哪怕每个只输出一千 token, 就是 一万 token 的 中间数据,一百个子 agent 就是 十万 上下文,很快就满了,任务就崩了。这是所有现有多 a 阵的方案的共同问题,不是哪家产品的问题,是架构本身的限制。 dynamic workflows 换了一个思路,把中间状态从上下文里移出去,存到外部脚本里。具体怎么做的, 你给 cloudy 一个任务描述, cloud 不是 直接开始做,而是先写一段 javascript 脚本,把整个编排逻辑循环分支并行全写进代码,然后这段脚本交给一个独立的,运行时在后台执行。执行过程中,脚本自己调度子 agent 干活,子 agent 的 输出存在脚本的变量里, 不进主 agent 的 上下文,所有子 agent 的 跑完,只有最终汇总的结论回到主 agent, 这就是为什么它能跑几百个子 agent 而不崩。中间那几十万 token 的 数据根本没有进对话,上下文并发上线是十六个单次,最多一千个。子 agent 脚本跑在你自己的电脑上,不是 antripic 的 服务器, 和第三方 a p i 没关系。这里可能有人会问,这和 n 八 n coseda 那 些工作流工具有什么区别?本质上都是确定性流程编排, l l m 只在节点内部干活。但有两个关键区别,第一,载体不同, n 八 n 那 些事可示画 d a g, 你 先画好一张流程图再跑。 dynamic workflows 能写循环,写动态分支流程图做不到这些。举个例子,一直找 bug, 直到连续两轮都没有新增。这是一个 y o 循环, 可是化低 a g 表达不了。第二,作者不同, n 八 n 是 人工搭流程。 dynamic workflows 是 cloud 根据你的任务描述现场写脚本,针对这次任务量身生成, 不需要你提前设计,和普通多 agent 的 区别更直接。普通多 agent 中间结果全进上下文, dynamic workflows 中间结果住在脚本变量里,这是架构上的根本差异, 不是功能多少的问题。讲真实案例,第一个帮论,作者用三个串联 workflow 生命周期映射数百 agent 并行文件移植变异测试, fix loop, 一 直跑到全部通过,结果 七十五万行 roost 的 代码十一天百分之九十九点八元有测试通过,这个规模在普通多 agent 器下根本跑不完, 上下文早就满了。第二个数据,一个用户用十个字 agent 并行分析,一百三十三个历史绘画生成使用画像报告,八十一点八万 token, 两百五十四秒成本是真实存在的。 dynamic workflows 比普通对话稍 token 多得多,怎么开始使用?首先, 版本要求是 cloud code v 二点一点一五四或更高,先升级,然后 model 确认 dynamic workflows 是 开启状态, max 和 team 计划默认开启。 pro 需要手动打开,触发方式有三种,第一,在 prompt 里说 workflow, cloud code 会自动识别。第二,输入 effort ultra code, 让 cloud 自己判断要不要起工作流。第三, 用内置的 deep research, 加上你的问题就是零门槛的入口,多个 agent 并行联网搜索加交叉验证,什么都不用,准备直接跑,现在直接演示。我用的是 deep research 这个内置工作流。问题是二零二六年五月 ai coding agent 最新进展和各家产品对比, 这种问题必须联网回答,他没法靠自己的知识库应付,会触发多 agent 并行搜索命令输进去之后注意看他怎么拆任务,他自己判断需要起四个 agent, 每个负责不同的方向。这个分工不是我配置 的,是 cloud 根据问题现场决定的。这就是 dynamic workflows 和普通对话最直观的区别。普通对话是一步一步串行,这里是几个方向同时在跑。现在这几个 agent 在 并行工作,中间结果存在脚本变量里, 不会回到主对话的上下文,等他们全跑完,只有最终汇总的报告会回来。他把来源交叉验证了,这是单个 agent 搜索做不到的,一个 agent 容易被某一个来源带偏,多路搜索加交叉验证才能逼近事实。有几个限制要清楚, 跑起来中途不能插手,退出 colodico 的 就得从头跑,不能跨绘画恢复高风险代码改动不要用支付权限,这类不适合。 dynamic workflows 这套东西的核心价值不是 ai 更智能了,是把编排逻辑从模型的临场发挥变成了可控的代码资产,它依赖前沿模型的能力。 opis 四点八乘十度的提升是这套交叉验证机制能成立的前提。值不值得现在就上手。如果你是 cloud code 的 max 用户,先跑一个 deep research, 感受一下多 agent 并行是什么体验,再考虑更复杂的场景。希望本期视频对您有所帮助,我们下期再见。

昨天晚上,安索佩克发布了全新旗舰大模型 oppo 十四点八,这个模型在基础数据上全面碾压 g p t 五,五点五,只有一项输给了他。 但这个不是最关键的啊,最关键的是,他带来了几个革命性的东西。第一个是诚实革命,他的代码缺陷漏爆率降低了四倍,模型更愿意承认我不知道,而不是,而不是硬编答案。这, 这个在企业级应用中非常重要,不像豆包他妈不知道,他胡说八道也给你编出个答案。还有就是智能体这块有质的飞跃, 呃,新增动态工作流架构,单个任务可调度数百个并行,只智能体,呃,进行自动规划,进行复杂流程,比如大规模代码迁移,跨系统数据分析,然后最牛的啥?除了一个快速模式, 这个速度能乘以二点五倍,但是价格只有之前的三分之一,然后标准模式价格不变,这回程序员编程错误率能降低百分之三十五,代码库理解更准,企业用户法律合规、财务分析、场景表现突出,内容创作者写作测试七十九点六分, 刷新记录了啊,机械感大幅度降低。同一天,阿骚佩克还宣布一件事,六百五十亿美元的 h 轮融资已经到手了。 妈,这家公司现在是真不差钱。 oppo 四点八,最能打动我的就是诚实 ai, 敢说我不确定,就比硬着头皮胡说八道那些 ai 强太多了。企业落地呢,有时候也是需要大模型更靠谱,而不是更聪明。