昨天夜里克拉的更新了新的模型 office 四点八,咱们今天就用大白话来讲一讲它都更新了哪些能力。第一个就是写代码,它更稳, 以前你让 ai 改一个大项目,它可能改一改就乱了,现在 office 四点八更适合处理复杂的代码、大项目和长任务。 第二就是它可以把大任务拆解开来做了。比如你让它改一个很大的系统,它可以先规划,再开始分头处理,最后再检查结果。就像以前是一个人干活,现在像一个小团队了,这个功能官方的名字就 dynamic workflows。 第三呢,就是它更诚实了,幻觉率更低了。这点很重要啊,就很多 ai, 它最大的问题就是一本正经的胡说八道。 opus 四点八可更愿意告诉你,哎,这里我不确定,这里需要检查一下, 这里可能有风险。这对创作者来说是特别重要的,因为你用 ai 写内容的时候,最怕的就不是他写的很慢,而是他把假的写的很像真的。第四呢,就是他可以选择思考的力度了,简单问题就让他快点回答,那复杂的问题,让他多想一会。 这个功能对日常来说还是很实用的。还有一个变化就是对程序员很重要。以后开发 ai 工具的时候,你可以在任务中途调整 koala 的 指令了,不用从头再来了。我今天就实测用 office 四点八跑了一下我自己的自媒体 skill。 第一呢,就 koala, 它更适合改稿了, 你写了一段文案,它不仅是帮你润色,它更擅长判断哪里啰嗦了,哪里不像人话,哪里情绪不对,哪里节奏断了。 第二个就是 collude 呢,更保持我自己的风格,保留了我的语气和判断,更有人味了。第三呢,它更适合长内容。比如说,你要做一篇长文呢,一套选择题,一个系列的视频。 collude, 它更擅长接住上下文了, 不容易,聊着聊着就跑偏了。这对自媒体来说很重要,因为内容不是单挑包袱,而是一整套系统的表达。第四呢,它更愿意告诉你问题在哪。 g p t 五点五呢,很强,效率很高。但是, cologne 四点八,它明显强调了就是诚实和写作的能力, 它不会总是假装什么都没问题,它更愿意提醒你,哎,这个角度是不是太普通了?这个标题没有记忆点,这段逻辑不够顺,所以我觉得普通创作者你就可以这样选。 如果你想快速查资料,快速生成一版内容,五点五, gpt 五点五,很好了,足够了。但如果你想打磨一点观点,改一下口播,做个长文,统一一下风格, cloud office 四点八会更舒服。
粉丝3705获赞1.9万

就在前两天, cloud 扣的刚刚发布了 agent 视频有功能,如果你平时需要同时打开四个、五个甚至更多的终端窗口,处理不同的项目,那这个功能简直就是你的救星。它能将所有的绘画合并到一个窗口中,让你实时查看每个绘画的状态,并且统一的进行响应。 那今天我们就来看一下 agent view 这个功能。它的使用方式很简单,我们先要确认一下 cloud code 的 版本是否大于等于二点一点一三九,然后在终端中输入 cloud agents, 就 可以打开它的仕图。 这个 agent view 啊,解决了开发者最头疼的看不见就容易忘的问题。它将任务自动化分为三个逻辑清晰的区域,有效地降低了多线城开发的焦虑感。第一部分,待输入的任务,那些卡在决策点,正等着你批准方案或者给出进一步指令的任务。 第二部分,那些正在后台滚动推进的任务,实时显示运行时长。第三部分,就是已完成的需要你收工确认的任务, 并且这一次 cloud code 还升级了它们的视觉反馈系统,增加了颜色和图标,分别代表了不同的含义。五种颜色,绿色代表任务圆满完成。黄色代表任务处于离子 in post 状态,需要你的反馈。红色代表运行报错,需要立即的介入。 灰色代表你手动停止的任务。白色的动态旋转,代表任务正在后台高速运转。三种图标的形状,第一种,小圆点,表示程序已经结束,你可以随时从 cloud 上一次中断中进行回滚。第二种,实心花,代表后台的进程非常的活跃,正在处于执行的阶段。 第三种,空心花,这个代表任务正处于两次尝试之间的休息间隔。然后是关于交互操作, cloud code agent view 现在可以直接点击某一个绘画,就可以进入到完整的终端模式进行操作,然后再使用左箭头就可以随时返回原来的仕图。 那如果你想快速的预览和回复,你就可以将鼠标悬停在某个绘画上,并且按下空格键,这时候会弹出一个小窗口,用来查看该绘画已运行的时间和当前的进展,并且能够直接的进行简单的回复删除绘画也很简单, 把鼠标悬停在灰化上,并且连按两下 ctrl 加 x 就 可以快速的删除不需要的灰化。那介绍完了前面的基础功能之后啊,这一次 agentview 最具革命性的特点是筛选与终端进程的彻底分离。在以前使用 cloudco 的 开发过程中,关闭终端往往意味着任务的停止, 但是在最新的版本中,你可以使用杠 b 机这个指令将任务推入后台,然后放心的关闭他们的终端,甚至是重启电脑。 当你再次输入 cloud agents, 你 的任务仍然会在执行,并且现在多目录管理 agents view 支持跨项目的追踪, 你可以在 project a 目录下启动一个 ai 任务,放入后台,然后 cd 到 project b 启动另一个任务。这些分布啊,在不同路径下的 agent 都会集中呈现在同一个 cloud agents, 试图中让你实现真正的痊愈管理。 这个时候如果再配合 agent view 的 杀手锏杠 go 这个指令的功能,你就不再需要一步步教 ai 怎么写,只需要设定一个客观的指标, 比如说用 go 这个指令帮我做一个三 d 的 怪物对战游戏, cloud 就 会进入自主实验,尝试优化的闭环,直到达成目标。在 agent view 中,你可以看到它运行数小时,或者说通宵都在运行。 这里需要注意的是,由于 go 这个指令目前仍然处于 research preview 阶段,如果同时启动过多的 agent, 可能会导致系统资源的消耗剧增,导致电脑变慢,所以一定要量力而行。最后我想说, agentview 的 出现标志着 cloud code 正在从一个对话式的插件进化为开发者的 ai 操作系统。 过去我们使用 ai 编程工具更多的是单线程,你提一个需求,他给一段代码,你遇到一个问题,他帮你分析一下,整个过程仍然是人盯着 ai 干活。但 agent will 带来的变化是,你可以同时管理多个 agent, 让它们分别承担不同的任务,有的负责改功能,有的负责测试,有的负责理解项目的结构。 这就像从我有一个 ai 助手变成了我有一只 ai 工程小队。所以 agent will 不 只是一次界面的升级,它 背后代表的是一种新的开发范式。这种范式的转移啊,正在把我们从大量琐碎、重复、低价值的编码细节中解放出来,让开发者把更多的精力放在产品的判断、架构设计、复杂问题的拆解和最终质量的把控上。 ok, 那 本期关于 coco 的 分享就先到这,我是布鲁,你的 ai 好 搭子,我们下一期视频再见。

兄弟们,昨天 openai 刚刚更新了它的 codex, 程序员们还在狂欢,今天就迎来设计师的集体尖叫了。 kyle 的 放出大招, kyle 的 赞正式推出,把设计门槛一脚就踹没了!原来升图模型生成一个海报或者外部站点,我们就已经觉得很漂亮了,但再漂亮它也是一张死图。这回就不一样了, 你直接甩给他一个提示词,设计一个暗黑主题的交互落地页,展示城市之间的流动,用旋转的 d u 仪发光路径来连接城市,他就可以秒生成完整的交互原型,带一百一十二个城市,一百六十八条动画弧线,六个大周连接地球,是可以拖动旋转的。还有大气的脉冲,效果 怎么样?是不是很牛了?但对于一个设计师来讲,这是一个噩梦的开始,因为有无数角色的人给你提意见,想改直接说嘛,告诉他加控制面板,让我来调整弧线、颜色、宽度,可乐就会立即来修改这个页面,增加这些面板, 实时划块,微调一切,点文字就可以直接编辑,在图上画圈就标注,就跟你对真人设计师撕逼面儿的场景一模一样,来回改,像什么像素级的对齐,响应式的适配,它全能接得住。更狠的是一个产品的设计系统,它可以自动构建, 直接读取你的代码库和设计文件,瞬间就可以提取整个产品的颜色、间距和组价规范,以后的新页面和新项目都可以自动套用了。再也不怕设计师突然离职,品牌风格就崩盘了。跨部门拉扯一周的事,现在在聊天框里几分钟就能搞定,设计都搞定了,一键扔回去,直接就可以生成可运行的代码。 从一个模糊的想法到一个能跑的产品,全程不用离开这个聊天框。团队刚开会讨论设计需求,散会原型就已经做好了,产品经理不用再对着飞格玛发狂,营销团队的人自己就可以做出百分之百符合品牌调性的海报和 ppt。 这个不是讨论是不是会踢掉飞格玛或者是 converse 这么简单了。 这简直就是把设计这个技能从少数的专业人士变成全民的生产力啊!但说这么多,设计师也别慌,因为 ai 做的恰恰是你最不想做的事。像素、对其设计、系统维护等等这样的耗时没有成长的事,你终于可以解放出来,专注真正的创意和顶级的打磨了。以前不敢想的想法,现在都可以快速的被验证, 最后还是得高手来升级成神作呀。最反直觉的是, clive 一 直以严谨挑剔著称,但这个在设计里却是大大的杀气。 它会自动调出那些你没有注意到的细节,比如对齐间距、对比度等等这样的问题。输出质量也碾压大多数的 ai 设计工具。 astropica 推出的产品,一如既往的不做花里胡哨的特效,就干最真实的痛点,把一周胯部门协助的事压缩成几分钟的对话,这才是 ai 该有的生产力的跃进啊!

嗨,大家好呀,你们没有开发经验的朋友,我最近又开始做开发了,我最近在忙着写一个手机 app, 然后有一个小小的关于 md 的 心得想跟大家分享一下。 首先要写一个能上架 app store 的 这种手机 app, 它的工作量是比我之前写的那些网页的 app 要高很多很多倍的,所以为了这么复杂的工程能顺利完成呢, 一开始是跟 cloud 聊了很多,并且让他把所有的内容都总结下来,写成不同的 md files, 我 和 cloud co 都可以回去看的那种。同时呢,在开发的每一天,我也在让 cloud co 帮我写一个开发日记, 让我记得哪一天我们做了哪些事情,遇到哪些问题,还有具体做了哪些决定和改变了哪些方向。那么这时候我发现一个问题,就是这些 md files 基本上只有 clock code 在 看在读,而有的时候我想去看一下,读一下,写一下的时候就觉得很麻烦,要打开一个 vs code, 或者打开一个某一个软件。 然后这个时候我就想到我最近开始用的 obsidian, 是 我基本上一开电脑,它永远一直开在那里的,因为我想到什么,有什么灵感,就直接往里面写的那种。 大家知道 obsidian 它也是主打一个 md 文档的,所以这个时候我就想如何呢,让我的 obsidian 去直接打开这些 cloud md。 其实这里唯一的问题呢,就是说我不希望我有很多套不同版本的 md 文档,在某一个项目中,我是希望它能始终保持只有一个版本的,那这个版本是 cloud code 会去看也会去写的,同时也是我可以通过 obsidian 呢去看,也去写的。 那这个时候要达到这个效果,我们就要用到一个东西,叫做 simlink, 非常简单,一共呢就叫三步。第一步就是你先要找到你的 markdown 文档都在哪里, 那这些就是 clark co 一 开始帮我写的那些,还有我每天让他帮我写的那些日记也好啊,开发计划也好,那我的这些 md files 呢?是在我的这个项目里面的一个文档里面。那么我的这个 app 呢,叫做 acorn, 中文是巷子或者巷果, 它在这个文档里叫做 acorn and defiles。 那 这就是第一步,找到这些文件真实所存在的地方,并且把它这个位置记录下来。那第二步呢?就是找到你想把它放到你的 obsidian 的 哪个地方, 这里要找一个你想放进去的 vault。 那 我的 obsidian 现在长这个样子,我希望把它写在这个 product 下面,开一个新的文档,叫做 acorn, 所以 我将会把它放在这里,在一个 note 里面,或者这个 vault 里面是有一个 product 的 文档, 它会出现在这里。那第三步呢?就是如果你是用 mac 的 话,你就把这个指令写进去,就是这个 l, n, dash s, 然后你第一步找到的这些文档所存在的地方,然后你第二步找到的你想把它放到的地方。那对我来说呢,我把它结合在一起,就长这个样子,这个时候我们复制它, 然后开一个 terminal, 把它跑起来。嗯,大家看到马上这里就出现了我的这个 acorn, 然后这里也有所有的我刚刚写的那些文档,它都在这里了,这个时候如果改任何东西的话,它会实时的出现在我的真实的那些文件中,因为这个文件夹里的文档相当于不是真实的存在。在这里它只是一个 symbol link, 能直接连到原本的那个文档。所以我们不管是我 手动在这里改,还是括号在别的地方改,它永远都是在更新同一趟文档的。那当然我也知道有一些朋友,他其实只是用括号去写这些 m d, 看这些 md, 自己可能也不怎么需要去看它,那这个时候你可能也不需要用一个 obsidian 了,但是对我个人来说的话,我能看得到,写得到,并且能把它同步给跨,对我来说还是蛮重要的。所以希望今天的分享对大家有帮助,我们下次见。

主要的,前天发布了 oppo 的 四点八,我来说说真实的使用感受啊。先讲一个很多人都没注意到的背景, sorbike 这次更新的速度非常反常, oppo 的 四点七发布了才一个多月,四点八就出来了。这背后的原因大概率是因为四点七的口碑确实不太好,以及 qq 五和扣带子客户端的加强有关系。 因为很多用户反馈四点七它存在变啰嗦、代码注是堆太多工具掉也不太够干净之类的问题。 sorbike 官方自己也变相承认了四点七确实存在一些小问题,只是它的措辞非常保守。 后面有几个点我觉得值得单独说一下。第一是这个比较实用的新功能,我觉得比模型本身可能更值得关注。可拉扣子出了一个叫 iphone 的 响应力度控制功能,分成几个档位,你可以根据任务的难度手动调整,做简单任务时就调低档,省时又省力。做复杂分析或者大型代码任务时就播到最高档,可以让他多思考一会。 但我的使用感受是,你开到 x i 之后的档位速度是真的很慢。这个功能对于高频使用 cc 的 开发者来说,合理分配 iphone 的 效率真的会高出很多。 第二,诚实度。四点八写出有问题的代码时,主动告诉你哪里有风险的概率比上一代大约高了四倍。这个听起来有点需要,但是对于高品用 ai 做项目的人来说还挺重要的。因为 ai 最让人头疼的地方从来都不是他不会,而是明明他犯错误了,还要表现的特别有把握的样子,最典型的就是某包了。 第三是编码能力,这一代拿真实开源项目里的 bug 去测读代码定位问题,改文件跑测试全套流程接近九成的教到可用,更复杂的靠文件重构,老项目迁移这类活完全率也比上一代提升了接近五个百分点,数学推理方面的升级更夸张。 另外快速模式这次也便宜了很多,速度能跑到以前的两倍半,改项目的时候很合适。价格层面没有变化,和上一代完全一样。 总的来说,四点八并没有带来什么质的飞跃,只是把四点七的漏洞给补全了,幻觉率和知识截止点包括待机使用量都和四点七完全相同,顺便它也加强了一下用户的提感,还是蛮期待下一代的 misos 的。

cloud code 的 新功能?程序员开始管理 ai 员工了,程序员的工作方式可能又要变了。 cloud code 推出 agent view, 直接把多个 ai 编程 agent 放进一个中控台,改 bug, 重构,写测试,查代码,可以同时派出去跑。 你不用盯着一堆终端窗口,而是像项目经理一样看进度,插画验收结果。 ai 编程正式进入监工模式。关注我,每天带你插一个正在爆发的 ai 新趋势!关注我,每天带你插一个正在爆发的 ai 新趋势。

我跟你们说,我之前用 cloud code 简直就是在受刑,每次我让他帮我更新周会表格,我都会像个老妈子一样跟他反复交代, 你还记得吗?上次我跟你说的那个链接,帮我再更新一遍,然后他就开始漫长的回忆,加载,找数据,一通操作下来,每次生成的格式还都不一样,真的超级崩溃,感觉自己像花钱雇了一个每天都在失忆的实习生。但是最近我打通了他的两个隐藏技能,简直是打开了新世界的大门,真的太爽了! 第一个就是 m d 文档,说白了就是你给 ai 做的一份专属的入职手册,你是谁,你喜欢什么样的风格,你的任务有什么样的规矩,全都写在里面。 ai 每次开工前都会强制的先去翻一翻这个手册,你再也不需要跟他废话去交代背景了。 第二个就是 skill, 这个更牛,相当于你给 ai 定制的一件 s o p。 比如我们经常要搞封面和视频的爆款拆解,以前每次都得先输一大段咒语啊,风格是什么样儿的,用什么字体等等,都需要去跟他交代很多内容。 现在我写了一个 skill, 我 只需要一句话,封面生成,它就全都自动搞定,生成封面了,真的太省心了!给你们看一下我的文件目录,这里就建了几个专门的 md 周会更新封面生成视频分析,我给你们演示一下现在有多夸张。以前我让它更新一个周会表格,我交代加等待的时间可能要十几分钟, 现在我只需要输入杠周会更新,哎,他就开始自动更新了,看分毫不差的更新好了,一句废话都不用多说,你牛不牛?当然,肯定会有人说啊啊,我不会写这种规则文档啊什么的。 别慌,我教你一招,你不用一开始就自己写,你先跟 cloud code 进行正常的一个聊天。呃,你告诉他你平时是怎么干这个活的,你反复的跟他沟通、打磨,等他能生成一个正常的结果,就说明他已经能完全理解你的流程了。这个时候你直接跟他说, 把我们刚才沟通的内容生成一个 skill, 它就会乖乖地自动帮你生成。好了,压根儿不需要你自己写。用魔法打败魔法,真的太绝了!姐妹们,听我的,今天赶紧跟着搞一遍,明天你就会有惊喜哦!

anthropocene 重大更新, opus 四点八正式推出, missiles 模型即将开放, cloud 正在从一个聊天模型变成一个能长期干活的 ai 协作者。 anthropic 表示, cloud opus 四点八是在 opus 四点七基础上的一次增强,它不是一次彻底换代,而是变得更会写作,更适合 agent, 更诚实, 更适合处理长任务。先看价格, opec 四点八的普通 a p i 价格没有上涨,仍然是输入每百万 tokens 五美元,输出每百万 tokens 二十五美元。但快速模式变化很大,官方说, opec 四点八的快速模式可以达到二点五倍速度, 而且相比之前模型的快速模式价格便宜了三倍。也就是说, antropic 这次不只是提升模型,还在想办法让 cloud 跑得更快。真正的重点是 cloud code 的 动态工作流功能,这是一个研究预览功能。官方说, cloud code 现在可以先规划任务,然后在一次绘画里运行数百个并行词 agent, 最后再验证结果,它能做什么? 不是简单写几行代码,而是处理代码库级别的大型迁移,甚至覆盖几十万行代码,从启动任务、修改代码、运行测试到最终合并都可以自动推进。这就很接近一个 ai 工程团队了。以前 ai 编程是你盯着它写,现在 optimap 想做的是你给目标 cloud 的 自己拆任务、调工具、跑流程、验结果。同 时, cloud ai 还新增了思考力度,简单任务就让它快一点,省额度,复杂任务就让它多想一点, 回答质量更高。还有一个很关键的升级诚实。 antropic 官方特别提到, opus 四点八更容易主动说出自己不确定的地方,而不是证据不足,还硬说自己完成了。他们的评估显示, opus 四点八比 opus 四点七少大约四倍。出现代码有问题但不指出的情况。这对 ai 编程非常关键,因为企业真正需要的 是一个会吹的 ai, 而是一个能安全交付,能发现问题的 ai。 另外, a p i 也更新了 messages。 a p i 现在允许开发者在任务中途更新 cloud 的 系统指令,比如全线 token 预算和环境上下文,不用打断任务流程。最后, anthropic 还留下了一个更大的悬念。 anthropic 预计未来几周会把 mephos 及能力带给所有客户。 这个神秘的模型终于要向大众开放了。所以这次 opus 四点八表面上是一次稳定增强,但更深层的信号是, cloud 正在从聊天机器人走向长期任务 agent, 而 mythos 可能才是 antropica 接下来真正的大招。你觉得 cloud 这次更新之后能不能继续压住 g p t 和 jimmy? 评论区说说你的看法。

凌晨两点的城市早已入睡,只剩下沉默的房间里还亮着一盏昏黄的台灯。屏幕上那个白色的光标像是一颗跳动的心脏,急促而有规律的闪烁着。沉默的指尖在键盘上方悬停,他在思考最后一行逻辑的闭环。随着清脆的敲击声,回车键落下, 代码归位。就在这时,侧边栏的界面微微一颤,记忆文件已更新。沉默好奇的点击打开 预想中杂乱无章的对话历史并没有出现,取而代之的是一个整洁得令人惊讶的项目,维基文件夹。他点开那份名为架构偏好的文档,呼吸不由得凝滞了一瞬。 里面详尽地记录着他过去三个月里每一个在深夜做出的技术决策,每一次对代码风格的坚持,甚至包括他随口提到的一句,对性能的偏执。 ai 不 再是健忘的过客,他像是一位共事已久的挚友, 默默记下了他所有的习惯与思考。他起身去接水,以此平复内心的波澜。看着杯中晃动的水影,他想起了去年那个同样寒冷的深夜。那时因为 ai 遗忘了前一周的关键需求,他不得不面对崩溃的模块,被迫连续通宵三天重写。那种被工具背叛的挫败感 曾让他对技术产生过深深的怀疑,但现在,当他再次回到电脑前,看着屏幕上那个稳步推进的进度条,他知道 那种无助的黑夜已经永远成为了过去时。屏幕上闪烁着名为梦境的进度条,那是 ai 在 后台进行的自我复盘。沉默轻声输入指令斜杠梦境。刹那间, 无数逻辑线条如同流星般划过屏幕,交织重组合并。他白日里随手记在便签上的零散火花。那些连他自己都快忘记的碎片化灵感,此刻被精准地嵌入了庞大的代码堆砌, 而是一场思想的共鸣。 ai 正在他的梦境里为现实的蓝图添砖加瓦。最后的惊喜,是那个名为康威智能体的图标沉没。熟练的配置好接口,将复杂的自动化任务拖入其中,控制台开始跳动,状态栏实时更新着数据流和测试报告。他知道, 即便自己现在关机入睡,这个数字大脑也会在云端持续净化,监听着服务器的每一次呼吸。他缓缓关掉显示器, 房间重归寂静。黑暗中只有主机的微光在闪烁。那不是冷冰冰的机器,而是一个正在构建未来的不知疲倦的数字生命。它记得过去,更遇见了未来。


兄弟们绷不住了呀, cloud office 四点七刚刚曝光, cloud code 一 夜重构,七乘二十四小时替你打工,从今天开始,你们都可以合上电脑去睡觉了, cloud 替你把活干了! cloud code 推出 routines 功能,支持云端拓展的二十四小时自动化任务,无需本地设备持续运行,即可响应触发条件。什么意思?就说这个功能目前的核心就是让 ai 成为云端员工,让我们所有用户在电脑关机断电的时候,它仍然能够处理各种开发任务。 我的天呐,这是让我们所有程序员都需要警惕的信号了,它现在已经变成能够自己干活的执行系统了。 这次更新最核心最炸裂的功能就是叫 rootings, 简单来说,就是你给 ai 写一份工作说明书,设置好出发条件,它就能在云端自己持续干活,不用你打开任何软件,也不用你盯着,甚至都不用你打开电脑。 以下三种出发形式,每一种都能够省你半天时间。第一种是定时出发,比如你定每晚凌晨两点,让它自动扫描代码仓库,找出最高优先级的 bug, 修复完成之后直接生成 pr, 第二天早上起来直接看结果就行。 第二种是 api 触发,比如说你家系统要是报警了,直接调用 code 接口,让它自己拉着置定位问题,提交修改方案,甚至值班同事还没有打开电脑,活就已经干完了。 第三种是 github 触发,有人提了 pr, 它自动开启专属绘画,给你所有的代码更新评论, c i 报错, pr 不 关,它就一直跟着,全程不用你插手。而且最狠的是可 out, 自己本身也被宠够了,它不再是一个单纯的编程工具了,它是一个完整的开发系统, 多个 flag 可以 并行工作,一个修复 bug, 一个写测试,一个写代码。 rewind 咱们开发者也不用自己写代码了,只需要给他们各自分配任务就行了。 ai 不 只是让你更高效,更加在重新定义谁在工作。

cloud 昨天发布了新版本 oppo 四点八,你可能觉得版本号嘛,四点七升四点八,这不常规操作嘛。但是啊,我们去看看更新日期,四十一天。上一个版本四点七是四月十七号发的,到五月二十八号正好是四十一天。 你知道 s o pick 以前发旗舰模型是什么节奏吗?四点五到四点六隔了三个多月,四点六到四点七隔了快两个月,现在直接干到了四十一天,砍了一半都不止。我当时就想,哇塞, 什么事能让一家公司把这个迭代速度啃半?翻了一下你就会发现啊,这次升级其实挺微妙的。 个人看法啊,四点八确实变强了,官方说它的诚实度大概提升了四倍,什么以前爱硬边的地方,现在知道说我不确定。有个叫 super agent 的 测试,它是唯一全部通关的模型, g p t 五点五都没做到,还加了一个叫 dynamic workflow 的 东西,几百个子任务能够同时跑 几个小时的活,能压缩到几分钟,价格还没涨,听起来是正常的升级对吧?但有意思的啊,它的底层模型根本没换, training data cut off 跟四点七一模一样,都是今年一月。说白了 这不是模型升级,我觉得更像是一次紧急抢修。为什么要紧急抢修呢?你知道四点七发出来发生了什么吗? 那真是全网吐槽,什么忽略指令,幻觉评出,阿谀奉承,还变贵了。推特上更是有很多帖子说四点七根本就没有四点六好用。一个旗舰模型被用户骂成这样,你换谁谁不慌。 那更要命的就是 open ai 那 边, gpt 五点五配上 codex 编程能力,把 astropake 压得够呛,你猜怎么着? astropake 在 自己的公告里边专门标注了 gpt 五点五,使用 codex cli 的 得分百分之八十三点四,然后拿自己的数据去对比, 当你发现这些信息之后,你就会觉得你见过哪家公司在自己的产品公告里边贴竞品的跑分,这不是急了?这,这是什么? 所以四点八出来的本质就是被两件事逼出来的,前有四点七口碑翻车,后有 codex 锥子打不升级他是真扛不住。 但说实话啊,谁赢了这个东西不重要,我想跟大家聊的是另一个东西,就是四十一天。首先这个数字,以前 ai 公司发模型得一个季度,起步大半年都很正常,现在呢?一个月就憋不住了。 这不是说 a 是 一家的事,是整个行业的节奏都变了,旗舰模型迭代正在从季度变成月度,你不需要去追每一个最新版本,但是我觉得有件事大家心里要有数,你现在觉得最好用的那个 ai, 三个月之后它可能就不是最好的了。 不是因为它变差了,是因为它整个行业的底线在往上走。还有个细节,四点八发布的当天, s o pick 顺手宣布了一笔六百五十亿美元的融资,估值直接干到了九千六百五十亿。同一天,产品升级和资本弹药一起甩出来,我只能说四十一天,它只是一个开头。

opus 四点八更新了,一句话讲清楚它更新了啥。这次它更适配企业的生产环境,也更像一位可靠的 ai 同事。 官方把它描述为 opus 四点七的升级版,重点提升方向包括编码、代理任务、推理能力和实际的知识工作。 也就是说,他不是单纯为了聊天更自然,而是面向真实的环境。这意味着 astopic 的 策略很明确,不靠涨价讲故事,而是用同样的基础价格把更可靠的能力 推给开发者和企业。那么,能力具体提升在哪里? opass 四点八的提升可以拆为四个方向,编码方面,它更适合复杂代码库和多工具调用。对开发者来说,这不是帮我写一个函数,而是帮我理解一个工程,然后完成一组修改。 代理任务方面,官方和早期测试反馈都提到它更会追问,更会发现计划里的问题,也更愿意在行动前确认不确定点。 推理方面呢,四点八在复杂知识工作和实际任务上表现比四点七更进一步。最后是真实工作,这是最关键的模型能力的竞争正在从谁回答的漂亮转向 谁能更稳定的把事情做完。而要稳定的做完事情,最重要的是可信,还有诚实度。 astopolik 这次特别强调了诚实度。换句话说, opus 四点八不只是更强,他也更愿意承认自己不知道,更愿意指出不确定性,更少把薄弱证据包装成为确定结论。 在真实工作里,这一点非常重要,因为 ai 最大的问题往往不是不会生成,而是生成的很像真的结果,还要人类花大量时间反攻和排查。 官方还提到,在代码缺陷方面,相比上一代, opus 四点八更不容易,让自己写出来的代码问题未经提示就溜过去。所以它的产品价值不是什么永远正确,而是更像一个知道什么时候该停下来确认的协作者。 这种可能性直接服务于 cloud code 的 新工作流。 cloud code 这次新增的 dynamic workflows 是 整次发布里最像生产力工具的部分。它的逻辑是, cloud 不 只是接一个任务然后回答,而是先规划任务,再把大任务拆成多个子任务并行运行。 sub agents, 最后验证得出, 再面向客户汇报。官方给出的典型场景是大型代码库迁移,甚至是数万行代码级别的任务,从 kickoff 到 major, 中间由 cloud 规划执行验证。这说明 cloud code 的 定位正在发生变化。以前我们说 ai 帮我改一段代码,现在更接近 ai 帮我跑一段工程流程。 但长任务和复杂任务会消耗更多的推理资源,所以 astropy 同样给了用户一个控制旋钮。 a for 空隙可以理解为模型思考深度控制。在 cloud 点, ai 和 co work 里, 用户可以选择让 cloud 投入多少 effort, 低 effort 更快,也更省额度。高 effort 更适合复杂任务,因为模型会投入更多的推理过程。 opus 四点八默认是 high effort。 对 于困难任务和长时间异步工作,官方建议使用 extra, 这背后的变化很重要,模型能力不再是一个固定开关,而是可以按任务难度 调节的资源,简单问题不用重推理,复杂任务则用更深的思考换取更少返工。除了用户测的 eiffel, 开发者测也有一组新的运行控制能力, 那就是价格。常规价格方面, oppo 四点八与四点七保持一致,输入每百万 token 五美元,输出每百万 token 二十五美元。 fast mode 是 另一档速度优先模式,官方称它可以达到二点五倍速度,价格是每百万输入 token 十美元,每百万输出 token 五十美元, 并且比此前模型的 fast mode 便宜三倍。 api 方面,开发者可以通过 cloud opus 四点八调用。与此同时, message api 支持 system interest, 让开发者可以在长任务中更新权限、托管预算和环境上下文。这说明 astopic 不 只是发布了一个模型,而是在补齐模型运行时的控制面。把这些功能放在一起看,四点八背后其实是一套代理平台。 dynamic workflows 解决的是大任务怎么拆、怎么并行,怎么验证 effort 空隙,解决的是不同任务投入多少思考资源。 system interest 解决的是长任务中如何更新运行上下文, fast move 解决的是速度优先场景, 这些能力单独看都是功能点再组合在一起,它们组成的是一个更完整的代理平台。也就是说, historic 的 方向不只是让 cloud 更会说话,而是让 cloud 更适合被切入真实工作。业务流程、工程流程 和支持工作流程,这也是 opus 四点八和普通模型升级最大的区别。所以这次报道的核心口径可以收数成一句话 就是让人少操心,哎,这句话听起来很朴素,但很接近我们真实生产环境的要求,企业不缺一个能生成长答案的模型,企业缺的是一个能少犯错、会确认、会验证、会稳定跑完复杂流程的模型。 所以我们可以这样理解 opus 四点八,它是把可能性、速度、档位、思考深度、并行代理和 api 控制面组合成一套新的生产力系统。这也说明 ai 模型竞争正在进入下一个阶段,从谁更会说进入,谁更能稳定把事情做完。最后总结一下, cloud opus 四点八的价值不只是更聪明,而是更能做。 它把模型能力、 cloud code a for 控制器、 fast mode 和 api 运行控制都放在同一条产品线上了。对于用户来说,它更像一个可靠的 ai 同事。对于开发者来说,它更像一套可以嵌进工作流的智能基础设施。


靠子桌面端更新以后,大家的 api 是 不是都接不上了?别怕,我已经找到解决方案了,而且是终极的解决方案。而今天我发了一个视频,是说直接把模型 id 改成靠的官方的模型 名称就可以用了。用是可以用,但是问题是你切到的那个模型只能看到靠的官方的模型名称,最重要的是 bigc, 它会自动把那个模型降级成 flash, 用不了 pro 就 很难受。然后我研究了很久, 总算被我搞出来了,我干脆把我这个方法做成了一个小工具,而且我已经验证成功了,在我的设备上使用是没问题的。呃,就 因为大家的设备的版本跟型号都不一样,可能要大家去试一下,要是有 bug 的 话可以给我反馈,我去修一下。然后 我这个工具还可以一次性接入最多八个的第三方厂商的模型,不管你用的是哪个国产模型都可以,然后模型的名称也是可以正常显示的。然后大家接下来看我的演示吧,带大家教一下大家怎么使用我这个工具。

red cool 的 这一次更新的 dynamic work flow 是 我觉得随着 oppo 四 r 八一起发布的一个重要的更新,也是我这一次模型更新以来最期待的一个功能。然后我在持续的使用了一天之后给我的一个体感,其实 oppo 四 r 八 相较于 oppo 四 r 七是更适合一些长时间任务,然后更适合智能体,以及更适合把它融入到真实的工作流里面, 那么相对的也就是说他不太适合聊天了,他不会再稳稳的接住你了。当然这一个是忍者剑圣啊,对于我来说,我反而更喜欢现在的这一个样子。 然后我们简短的来过一下他这一次的更新有什么?首先就是他的模型 id 变成了卡尔的 oppo 的 四二八价格呢是保持和 oppo 的 四二七不变的,在官方的一个榜单里面, oppo 的 四二八在多项任务上都超过了 oppo 的 四二七, 尤其是 a 级的 coding。 然后残三亚文工作工具调用和复杂的推理,那并不是在所有的榜单里面都排第一,有一项 terminal 版起就是它,虽然是比 oppo 的 四点七要高,但是它依旧没有 gpt 五点五厉害,也就是说在实际的一个代码工作里面,它的表现还是不如 gpt 五点五的。 并且 a 社官方还在脚注里面详细的写明了 g p d 五点五在一些特定的环境下是能够达到百分之八十三点四的,也就是说 oppo 的 四点八在带点流动性上的确是要比 codex 加 g p d 五点五强,但是在专注于写代码的这一个领域上面, g p d 五点五现在还是最能打的。 关于跑分的内容我们就到此为止。真正让我感兴趣的是这一次可乐购的更新的一个新功能叫做动态工作流,官方把它叫做 dammit work flows, 它能够让可乐去啃那种超大规模的问题,也能够让他去精心的冰排你的一个小型的任务,下面我们就来看一下这一个功能如何使用吧。 当我们打开你的 color code 以后,你会发现这里有一个 off 四二八已经上线的提示,我们可以输入斜杠 e f f, 也就是它这里给你列出来的可以调整思想难度的一个,哎,我们直接回车,可以看到我这里默认的是一个 超高,然后你们可能进来的话,可能是这一个中等高,或者说普通或者说低。 然后我们有些同学在使用的时候,他会发现明明他只是提了一个很简单的需求,但是可乐的扣的会给他做一些过度的设计,过度的思考,然后这个时候我就很明显说明你的这个任务不需要那么高的一个思考预算,你就可以把它调整成这一个普通,或者说把它调整成低等级的一个思考档位。 然后这一次我们把它调整到最右边,你会看到一个极其酷炫的一个动画出现, ok, 这一个动画呢就是代表着新出来的这一个功能,这里可以看到就是极高思考加工作流。 ok, 我 们回车, 哎,你可以看到这个对话框都是彩色的,可以给他下载一个任务,看一下他的一个效果,比如我这里我想让他去帮我重构一下这一个 m c p, ok, 我 就回去告诉他,我想要你帮我重新重构一下这一个 m c p, 因为它里面也包含了一些原仓库作者的广告之类的东西,所以我需要你把它完全的重构成我自己的,或者说完全适配于我的,我们直接发送看一下效果, 他现在计划已经写完了,是没有什么问题的。然后我们可以看到他在这里写了一个实现阶段会用多 nint 的 工作流并行重写各模块加对看式验证行为兼容。那么我们来看一下他的这一个功能到底是如何去做的,没有问题, 他现在已经把实施计划给写好了,然后包括有十一个任务,这里呢你可以选择有几种方式,就是他给你的一种几种方式。 首先第一个就是多 n 的 运行工作流,推荐用工作流编排独立模块,然后吧吧吧吧吧这个东西,就是这一个模式下,也就是这个功能下面的一个默认选项。 然后第二个主任务只代理,就是我们之前常说的只代理模式,也就是说派只代理过去做单独的任务,做完之后回来报给你,你去审批。然后第三个的话就是不使用,我们这里要测试它的这一个功能的话,肯定是选择第一个的,我们就选择第一个执行就好了, 我们可以看到他这里是派了六个独立模块四路对抗,这个时候你可以使用这一个命令来看实时进度,他这里有给你说了,其实你还可以选择你的方向键的下, 上下左右的那个下,然后下一下你就可以看到你进入到了这一个任务栏,哎,你只要点击回车,你就直接进入到他的这个任务工作的一个列表里面了,你可以看到他现在已经做的任务,以及他接下来要去做的任务的一些编排之类的。 然后同时你在这里还可以看到他每一个任务消耗的一个托克,前面呢就是六十一点八 k, 然后包括这些托克,然后这是调用工具,然后这个呢就是时间, 也就是说他做完一个任务时间就会变得特别的快,当然他的托克也会消耗的特别的多。然后我们这里任务不是并行重启模块吗?然后集成,包括对看式的验证,所以我们的第一个这里呢就是模块, 然后他这里七个已经写好了,时间是花费的特别快的,然后这里呢就是现在正在做的集成,然后他这里还没有做好,我们需要等待,如果你还想看里面具体的话,你就直接回车,你可以看到你的光标 移动到里面来了,然后你可以继续再回车,哎,你就可以看到他正在进行的一个任务的一些详细的啊,其实也没有那么详细了,至至少你能够看到那么一点,好吧,其实也不一定是需要按回车的,你可以直接鼠标 键盘,键盘上面的上下左右移动就可以,也可以直接去到达右就是,呃,相当于回车的进入,然后左呢就相当于是 esc 的 一个退出。如果你是在 vsco 的 这样的 ide 里面的话,你可以看到它实时的一个代码的进度,但是这个就没有办法了, 但是说实话就是代码摆在你的面前,你能够看到他的进度又有什么用呢?你真的会认真的去看他写的代码吗?我觉得大概你不会, 你可以看他每一个的时间都特别的短,然后这个只有八秒钟,八秒钟,但是他依然耗费了二十五点八的一个托克,就是说明我内置的一个上下文规则,就是你的一些 skill, 你 的一些 mcp, 然后你的一些规则文件,比如说 cloud 点 md, 还有一些你的记忆文件, 他们都是会占用你的一个上下文的。所以这就是为什么很多大神都在说你的 cloud 点 md 文件要保持干净,就是要函数要减少,这些都是有一定道理的,因为当你的一个 遵循指令就越少,也会耗费你更多的一个托管。比如说我们这里, 比如说这里我们有七个工作流,那么每一个工作流他会占用你的一个初次三亚纹,比如我的就是二十七,二十八左右, 给他算二十八吧,每一个都会占用二十八 k 的 一个三亚纹,那么这里有七个,也就是说这七个工作流在没有开始进行任务的时候,就已经耗费了你两百 k 的 一个头等,我们可以看一下,他是把我的所有的任务做完之后,我们自身的这一个三亚纹现在是百分之四十五, 也就是说我们自身的这一个上下文并没有因为他的一个工作的编排去占用到。所以也就是说我们有一些大型的任务在进行工作的时候,你开启这一个功能,那么你的主线层的一个上下文是不需要进行切换对话的,这对于你的一个 上下文的连续长时间的一个任务来说,他是特别重要的一个事情,这意味着你不需要再进行一些康比特指令,包括呃 get 指令,或者说包括呃直接在计划里面下达,让他去 呃做完一步保存一下,做完一步保存一下这样子的一些规则了。我们这一个任务现在就算是已经做完了,然后有一些收尾的工作,然后我这里的话就直接保留原作者加追加一个呃开源协议, 等一会执行完后,我们再总体的来看一下这一个对话他到底花费了多少的一个托管, 这个任务就已经完全做完了。然后我这里的一个进度条的话,他并不是以一百万的上下文来算的,我是给他做了一个限制,是五百 k 还是六百 k 来着,我忘记了。然后我们现在看一下他做这样的一个任务呃的花费是多少啊?我觉得应该不会太少。 呃, ok, 我 们来看一下整体的一个花费,当前这这一个对话总共花费了十六点八二刀,然后是一百二十二点二 k 的 输入,一百七十八点三 k 的 一个输出,十一点六的一个缓存, 然后五个小时的周线用了百分之四十,所以所以感觉起来他并没有花费特别多的一个托,可能其实他在进行任务的时候,他是有,他是能够读取到缓存的,也就是说他的花费没有我们想象中的那么高。但是有一个实打实的花费,就是 你的自己的一个初识上下文,他每开一个工作流他都需要去读取的,他都需要读取你的一个初识的上下文,这些是必须会被浪费掉的,然后在实际的工作过程中,我们可以看到他的这个缓存十六十一点六 照是多少?一千多万啊? em, 是 一百万,所以它这里有一千多万的一个缓存读取,然后有八百零八 k 的 一个缓存写入的操作就是总共总共起来是十六点八刀。 哎,这个花费其实是在我的意料之外的,我原本以为他至少得跑到七十八十,因为之前我们做过的那一些关于 hr, 关于那个超级计划模式的那一个对比,我们就可以很明显的看到他是真的特别的费头很, 因为他是发送到云端,然后这一个我本来认为他的一个工作流就是每开一个工作流,因为他 就是相当于一个新的独立绘画吗?他可能会更加的耗费托克,但是现在看起来,因为他能够读学到缓存,能够读学到缓存的话,那么他其实花费的托克就不会特别多。 呃,也不能说不托克不会花费特别多,应该说是你的金额不会花费的特别多,因为缓存的一个提取金额是特别是低的一个价格。哎,所以这个功能 真的就是这一次 oppo 的 四二八更新之后的最让人意外的一个惊喜,真的我觉得太棒了,太棒了。 并且你还可以看到我的这个上下文,它只占了百分之五十,我们可以再看一下上下文的这一这一个长度就知道了,因为我这一个,你看我总共才花费了二百四十七点四 k 的 一个上下文, 因为我设置的是我的上牙纹长度是五百 k, 所以 就会达到我的上限五百 k 的 一半,也就是二百四十五,然后他这里是二百四十七 k, 没有什么毛病。然后我刚刚所说的就是你的固定的一些花费的 托管呢?就是这一些,比如说这个 m c p 工具这些你读渠道是要花费的,然后还有包括这一些, 哎,这些插件你看到没,他也会耗费你的一个托管,然后包括你的记忆也会花费你的托管,然后你的卡拉德点 m d 文件也会耗费你的托管,然后包括 skills 也会耗费你的托管,只不过他们花费的托管不多,但是他们相加起来其实 也还是蛮多的。比如我这里我在新建一个窗口,我们可以看一下它,这里是百分之零,然后我再看一下上下文,我的一个初使的上下文会占到多少? 我的一个你可以看到我这里一个初使上下文就已经占了二十五点六 k, 所以我觉得这个功能当你的规则文档和你的 skill 如果说是固定在一个项目的话,那么你跑起来真的会特别特别的快,可以把你的大型任务做完,并且它花费的一个托管真的没有想象中的那么多。所以我觉得真的克拉的这一次真的就是 大力出奇迹吧,就是有了足够的算力之后,真的没有之前那么抠抠搜搜的。然后同时也可能是感受到了 gpt 的 一个压力,因为我们从事实客观上来讲,在写代码的这一个能力上面, gpt 五它其实就是最好的。 ok, 这就是本期的全部内容了。然后如果你觉得对你有点帮助,有点用的话,那么就点赞收藏,我们下次再见。

昨天 entropic 发了 cloud opus 四点八和 dynamic workflows。 opus 四点八是 entropic 旗舰模型的一次点版本升级,价格和四点七完全相同, 五美元输入美元,二十五输出每百万 token。 这次核心更新有三块模型本质的判断力和诚实度提升, dynamic workflows 以及用户可以手动控制思考。深度模型诚实度这块有一个具体数字代码缺陷,漏报率比四点七 低了约四倍。也就是说,他更愿意主动告诉你代码有问题,而不是假装完成任务。 opace 四点八同时是推理模型, 支持深度思考,也是多模态模型,支持图像和文档输入。要理解 dynamic workflows 解决什么问题,先说现有 agent 的 根本限制。一、 ai 经常假装完成做抠定 agent 任务时,代码里有 bug, 但不说给用户一种虚假的完成感,这是影响 agent 可信度的根本问题。二,大任务做不了。你用 cloud 或者任何 ai agent 做一个复杂任务的时候, 会遇到这个情况,任务做到一半挂掉了,或者 a n t 开始绕圈子,或者你需要手动把大任务拆成几十个小任务一个个喂给他。根本原因是上下文窗口。普通的 do agent 方案,不管是 autodg p t 还是 kimi 蜂群,工作方式是这样的,就 agent 派一个字 agent 去干活, 子 agent 干完把结果返回给主 agent, 主 agent 读完结果再决定派下一个问题在哪。每个子 agent 的 输出都要塞回主 agent 的 上下文,十个子 agent, 哪怕每个只输出一千 token, 就是 一万 token 的 中间数据,一百个子 agent 就是 十万 上下文,很快就满了,任务就崩了。这是所有现有多 a 阵的方案的共同问题,不是哪家产品的问题,是架构本身的限制。 dynamic workflows 换了一个思路,把中间状态从上下文里移出去,存到外部脚本里。具体怎么做的, 你给 cloudy 一个任务描述, cloud 不是 直接开始做,而是先写一段 javascript 脚本,把整个编排逻辑循环分支并行全写进代码,然后这段脚本交给一个独立的,运行时在后台执行。执行过程中,脚本自己调度子 agent 干活,子 agent 的 输出存在脚本的变量里, 不进主 agent 的 上下文,所有子 agent 的 跑完,只有最终汇总的结论回到主 agent, 这就是为什么它能跑几百个子 agent 而不崩。中间那几十万 token 的 数据根本没有进对话,上下文并发上线是十六个单次,最多一千个。子 agent 脚本跑在你自己的电脑上,不是 antripic 的 服务器, 和第三方 a p i 没关系。这里可能有人会问,这和 n 八 n coseda 那 些工作流工具有什么区别?本质上都是确定性流程编排, l l m 只在节点内部干活。但有两个关键区别,第一,载体不同, n 八 n 那 些事可示画 d a g, 你 先画好一张流程图再跑。 dynamic workflows 能写循环,写动态分支流程图做不到这些。举个例子,一直找 bug, 直到连续两轮都没有新增。这是一个 y o 循环, 可是化低 a g 表达不了。第二,作者不同, n 八 n 是 人工搭流程。 dynamic workflows 是 cloud 根据你的任务描述现场写脚本,针对这次任务量身生成, 不需要你提前设计,和普通多 agent 的 区别更直接。普通多 agent 中间结果全进上下文, dynamic workflows 中间结果住在脚本变量里,这是架构上的根本差异, 不是功能多少的问题。讲真实案例,第一个帮论,作者用三个串联 workflow 生命周期映射数百 agent 并行文件移植变异测试, fix loop, 一 直跑到全部通过,结果 七十五万行 roost 的 代码十一天百分之九十九点八元有测试通过,这个规模在普通多 agent 器下根本跑不完, 上下文早就满了。第二个数据,一个用户用十个字 agent 并行分析,一百三十三个历史绘画生成使用画像报告,八十一点八万 token, 两百五十四秒成本是真实存在的。 dynamic workflows 比普通对话稍 token 多得多,怎么开始使用?首先, 版本要求是 cloud code v 二点一点一五四或更高,先升级,然后 model 确认 dynamic workflows 是 开启状态, max 和 team 计划默认开启。 pro 需要手动打开,触发方式有三种,第一,在 prompt 里说 workflow, cloud code 会自动识别。第二,输入 effort ultra code, 让 cloud 自己判断要不要起工作流。第三, 用内置的 deep research, 加上你的问题就是零门槛的入口,多个 agent 并行联网搜索加交叉验证,什么都不用,准备直接跑,现在直接演示。我用的是 deep research 这个内置工作流。问题是二零二六年五月 ai coding agent 最新进展和各家产品对比, 这种问题必须联网回答,他没法靠自己的知识库应付,会触发多 agent 并行搜索命令输进去之后注意看他怎么拆任务,他自己判断需要起四个 agent, 每个负责不同的方向。这个分工不是我配置 的,是 cloud 根据问题现场决定的。这就是 dynamic workflows 和普通对话最直观的区别。普通对话是一步一步串行,这里是几个方向同时在跑。现在这几个 agent 在 并行工作,中间结果存在脚本变量里, 不会回到主对话的上下文,等他们全跑完,只有最终汇总的报告会回来。他把来源交叉验证了,这是单个 agent 搜索做不到的,一个 agent 容易被某一个来源带偏,多路搜索加交叉验证才能逼近事实。有几个限制要清楚, 跑起来中途不能插手,退出 colodico 的 就得从头跑,不能跨绘画恢复高风险代码改动不要用支付权限,这类不适合。 dynamic workflows 这套东西的核心价值不是 ai 更智能了,是把编排逻辑从模型的临场发挥变成了可控的代码资产,它依赖前沿模型的能力。 opis 四点八乘十度的提升是这套交叉验证机制能成立的前提。值不值得现在就上手。如果你是 cloud code 的 max 用户,先跑一个 deep research, 感受一下多 agent 并行是什么体验,再考虑更复杂的场景。希望本期视频对您有所帮助,我们下期再见。

今天我们聊一下 codex 这一个月更新的八个新玩法。我以前一直觉得 codex 是 个备胎,去年四月 codex cli 刚出来那会儿, 我用了两天就回去用 cloud code 了。理由很简单, codex 当时就是个会写代码的终端 agent, 跟 cloud code 比没什么区别,模型还稍微弱一点。直到四月十六日那天, openai 发了一条公告,标题叫 codex for almost everything, 意思是 codex 不 再只是写代码的 agent。 先说最离谱的那一项, computer use codex 现在能看你屏幕点你 u i, 用它自己的光标在你电脑上打字,授权之后它可以操作你电脑上的桌面 app。 我 第一次让它做的活是把这个 figma 设计稿里的色值抓出来,写到 tailwind config 里,它打开 figma 截屏识图写入全程。我没动鼠标 这类跨 app 的 活, cloud code 作为 c l i agent, 很 难直接做 codex 这一步直接跨出了终端,代价是你给他的权限是整台电脑,不是某个项目目录。心智压力比 cloud code 大 一个量级。跟 computer use 配套的 还有一个内置浏览器。最有意思的设计是,你可以在网页上直接评论,把这个 comment 当成指令丢给 agent, 就像在 google docs 上选中一段文字加评论一样,但被评论的是网页 dom。 举个例子,你打开本地预览页,选中一个按钮,评论一句,这个按钮状态太弱,改成更明显的 primary action。 完了, 这种指着浏览器跟 agent 的 说话的交互,比 cloud code 走 mcp 接 api 那 套直觉多了。普通人不用懂什么是 api, 但真正让我有点恍惚的是, automations 是 一个持续任务系统,你给 agent 的 一个长期目标,它可以附用原来的对话上下文, 按计划自动唤醒继续做。 openai 的 原话是 potentially, across days or weeks。 比如你可以把任务写成每天监控这个开源项目的 issue, 每出现一个跟性能相关的,就帮我整理背景附线路径和可能的修复方向。它每天自己醒一次,自己扫,结果放到队列里等你看。这开始有点接近让 agent 接长期任务了。然后是 pets, 五月一日左右上线的,是这个月 codex 最初圈的更新。你输入 slash pet 就 能召唤一只虚拟宠物,浮在屏幕上做状态指示器, 它告诉你 codex 现在在跑什么任务,是不是在等你输入,是不是做完了。八只内置宠物可以选。还有一个 slash hatch, 可以 让 ai 生成自定义宠物。这设计妙在,它解决了一个我们都默默忍受的问题。 agent 在 后台跑唱任务的时候,你不知道它现在到哪了。以前要么切终端,要么挂个第二屏幕,现在屏幕上一直有只小猫,它的姿势就是状态,但是区域限制要分清。 open 官方明确说 computer use 初期不再意义。 a u k 瑞士开放 hats 这块我没核到同等强度的官方说明。所以如果你人在欧洲,并不是所有 codex 新功能都能立马可用。第二自定义宠物的画风偶尔会翻车,社区里已经有人把 clippy 动漫角色,各种像素小人都做出来了。好看的是真好看,怪的也是真怪。 但一个虚拟宠物功能能被开发者认真讨论,你就知道它戳到了什么。剩下几样我快点过。五月十四日, codex 进了 chat gpt 手机 app, 准确说是手机端可以远程接入正在运行 codex 的 mac host。 你 在地铁上,在咖啡馆, 可以用手机继续控制回答问题,批准操作,看 df 和测试结果。但电脑那边要保持在线, codex 也要再跑。这事跟 automations 配在一起威力很大。早上出门前交代一个长期任务,路上用手机补两句判断, 回家再看结果。这里要修正一下。 cloud code 也有 remote control, 可以 从 cloud app 或 cloud 网页端继续本机绘画。区别不在有没有手机入口, 而在 codex 把入口放进 chat gpt app 这条产品线里。四月十六日那波还顺手加了九十多个插件, atlanta rover、 circle shade code、 rabbit、 github issues、 microsoft suite 都在里面。 cloud code 走 mcp 也能接,但要自己配 servoach。 codex 这边是点一下装好的体验,底层也换了。 四月二十三日, openai 发布 gpt 五点五,并明确说它正在进入 chatttt 和 codex。 官方说法是, gpt 五点五在同类 codex 任务上更强,也更省 token。 它还跑在 nvidia gb 两百和 gb 三百 n v l 七十二系统上。具体到比 cloud code 省多少,社区里说法很多,我没看到一个能直接当结论引用的统一数字,但我自己的体感是,同样刨长任务 codex 的 成本焦虑确实小不少, cloud code 也没掉队。 antropica 四月十六日发布 opus 四点七 s w e bench verified 报道,百分之八十七点六。 open i 这边 gpt 五点五的 terminal 奔驰二点零是百分之八十二点七, cloud opus 四点七是百分之六十九点四。 这些 benchmark 口径不完全一样,不能简单等同于 codex 工具,打败 codecode 的 工具。我现在更愿意把它理解成 codex 在 长任务、跨 app 成本和可用性上进攻很猛。 cloudcode 在 严肃代码质量和复杂重构上仍然很有竞争力。 dv 上有篇社区余情整理,看了五百多条 reddit 评论和一些盲测,结果给了一个挺贴脸的说法, cloudcode 是 高质量但不好用, codex 是 稍低质量,但真的可用。这不是严格抽样调研,但它很像最近很多开发者的体感社区。现在很常见的一种用法是 codex for keystroke, coded code for commits。 日常输入用 codex 跑得快又省心,关键提交 code review, 复杂重构,切回 code code, 求质量。 甚至有人把同一套 skill 同时喂给两边。聊完功能再退一步看,会发现一件挺有意思的事儿。 cloud code 这一个月在生化, harness 做插件 hack worktree 和 deny rules, 把自己往 os like 做, codex 则跨出代码边界做 computer use, 内置浏览器 automations, 手机入口和虚拟宠物,把自己做成 digital co worker。 一个想做你的操作系统,一个想做你的同事。两条路都对,但两条路真的不一样了。 我现在的姿势是两个都开。 codex 跑,长任务跑,跨 app 的 活跑,需要在手机上启动的活。 codecode 跑,严肃 commit 跑,要保质量的重构跑,开源项目。那只 codex 的 小猫还浮在我屏幕右下角,告诉我它在等我。省一个 p r。 你 用 codex pets 了吗?

anthropic 又出手了,最新的 cloud opus 四点八刚刚发布,你可能撇撇嘴,不就一个版本更新吗?至于吗?那么你看一个细节,它距离上一代只隔了四十一天。 一家全球速度最快的 ai 公司,把更新逼到一个多月一次,这说明什么?防护牌越打越快,快到你眨眨眼就被甩开了。先说升级了啥,三个字更狠了。 编程能力当场超过 gpt 和 gmin, 更诚实,不懂会主动说我没把握,不在嘴硬瞎编。还更便宜,速度快两倍半,价格还往下砍。但这些都不是我今天要拍桌子的点。 真正让我坐不住的,是一个叫做 dynamic workflows 动态工作流的新功能。一句话,它可以让 ai 自己组队干活。以前你只会一个 ai, 现在它能调动几个 ai 同时开工,一起啃一个大项目。看到这里,大多数人都会冒出一个念头,那不就是 ai 变多了吗? 一个还不够,我十个效率不就翻十倍吗?打住,这就是普通人对人工智能写作最致命的一个误会。 我掏心窝子说十个 ai 各干各的,自己检查自己,效率不会翻十倍,只会把错误也放大十倍。为啥?因为 ai 跟人一个德行,自己挑自己的毛病会护短,他打心眼里觉得自己干的对。所以真正高级的玩法,从来不是人多力量大,是两个字,制衡, 谁干活,谁挑刺,谁拍板。这套结构才是真正的胜负手。华为早用掏战术论真的道理,赢的从来不是单点最强,而是你解决问题的思路有多高。我给你画一个画面,你秒懂。 你开了家一人公司,手下全是 ai, 一个管引流,一个管私域,一个管交付,爽不爽?可你撒手让他们自己接力,前端方向错一步, 后面做的再漂亮,整条链全废了。所以你得再塞一个审核 ai, 专门针对关键的热点,热点卡质量。而你这个老板,啥都不用,用财富次干, 那只管最后拍板一下平了吗?你的身份变出来了,你不再是埋头苦干的那个人,你是设计整套打法的那个人。 这就是我拼了命完成让普通人的乐签。从会用一个 ai 到会指挥另一个 ai 军团,这中间差的不是技术,是脑子,是思维。这也是我做龙虾多智能体协作这门课 最想给你的东西。我教的根本不是龙虾这个工具,工具早晚会过时,我教的是协作,互相制衡这套思维。这才是你能揣着兜里带走一辈子的真本事。 大厂已经用产品把方向甩你脸上了,就一个问题,这波脑子的升级,你想现在主动跟进,还是等被人甩出一条街了,再哭着追?关注我老朱的 ai 朋友圈,我们普通人一起把 ai 落地。

观众朋友们大家好,今天我们的站点迎来了第一波内测更新,主播在新的板块当中优化了先前板块的算法,在零额外基础设施的前提下,实现深度跨论文交叉分析。 现在我们的平台支持一次性导入十五篇参考论文。随后在上方的模型选择部分,选择自己想要使用的模型,输入对应的 api 秘钥,随后这个模型就会在我规定的框架下对论文进行切片研究,给出对应论文创新点。 这边我们三十二倍速跳过思考时间。 好的,我们可以看到这边 ai 已经完成了对论文的分析, 这个板块是主播制作的论文问答部分, 他会在你所给出的论文当中寻找你想要问题的答案,并且标出出处。