快速盘点一下春节前后 ai 有 哪些新动向?首当其冲的是 jammy 悄悄更新到了三点一,别看只更新的零点一, 但前端能力有了一个质的提升,对比下三点零和三点一,前端产出质量确实高了不少,据说各项跑分又全面反超了其他 ai。 又是新王登基。我个人是 jammy 的 重度用户,但我更倾向于评价它是全能型 ai, 虽然确实能够解决我大多数的使用场景, 但有时候还是不得不用别的模型。然后就是千问的三点五开源了,开源的意思就是你可以直接复刻出同等能力的模型,据说代码能力直逼 cloud opus 四点五。要知道 ansorek 家的 token 是 非常氪金的,所以看到这个千问三点五的开源消息 简直狂喜。下一个就是春节前自节发布的 cds 二点零模型,这真的是 ai 视频生成领域的一个重磅消息,对于一些小型影视工作室,摄影机确实可以逐渐放下了,未来拼的不再是技术, 而是思维和审美。二月五日, s o p e 和 open ai 同时更新,一个是 cloud office 四点六和 g p t 五点三 codex 编程模型。很多小伙伴都没有用过这些产品,觉得不就是聊个天吗? 过如此确实我们不用过多了解他们的参数,但我希望大家能知道他们的能力边界,不值得聊天。在这个时间点,我想用一句话概括他们目前的能力,那就是你的 ai 打工养活你也许真的不远了,尤其是重中之重的 open pro。 很多人还认为这是一个 ai, 但我以普通 ai 玩家的视角来说明一下这个东西,它真不是个 ai, 而是一个技术架构,它的能力会随着上面说到的 ai 模型的迭代和硬件迭代变得越来越强,用的好的人已经用 opencore 赚到了第一桶金, 所以我才说 ai 打工养活你真的不远了,前提是你需要懂得怎么驾驭它们,怎么在 ai 时代做好一个管理者。最后再补充三个国产之光,一个是 kimi 二点五, 现在可以直接在趣里面同步某性开发助手,实时预览编辑小程序。现在我可以负责任的告诉你,编程小白,自己做出一个小程序真的不是梦。另外,智普 ai 发布了 g l m 五 max 也发布了二点五,我实在是有点玩不过来了。你们有没有玩过的,欢迎你们在评论区分享你们的使用感受。 ai 三天一小更,五天一大更,我不制造焦虑,但我想让你们知道这个世界发生了哪些变化,跟我们有什么息息相关的关系。我是卡卡,一直陪你玩 ai, 下期再见!
粉丝6081获赞7.9万

大家好,我是 kate。 opt 四点六和 gpt 五点三 codex 都在今天发布了,我呢会先介绍一下 opt 四点六, 它呢,目前为 pro 用户和 max 用户都提供了额外的五十刀的使用额度,我们需要在两月十六号之前领用,你可以在设置使用量这里,然后起用额外的用量。假设你是 pro 会员, 超过了五小时内可用的量,那你就可以起用额外的用量,无论在 c c 里或者是 cloud 的 官网上都可以用这个额度。记住呢,这个额度是有两个月的有效期, 现在正式看一下 office 四点六这次上下文呢,升级到一百万的 tock, 在 两百 k 以下的定价呢,是和之前的 office 四点五定价是一致的,超过两百 k, 它的定价的话就会有较大幅度的提升, 这次非常好,它的输出呢,最大是达到了一百二十八 k, 也就是说 opt 四点六现在能帮我们完成更复杂的呃, 需要更多 talk 的 任务。 ansocopy 这次特别强调。呃 opt 四点六呢,它是在办公方面表现得更好,无论是文档啊,电子表格还是演示文稿。 就在我的体验里, coreld 模型它在做 excel 电子表格的时候的确是做的是最美观的。但就搜索能力方面的话,我目前觉得还是 gbt 在 搜索方面更好。在 antisocopy 发布 opt 四点六的时候呢,它的 terminal bench 二点零 在当时还是呃目前最高的,但是后来 gbt 五点三 codex 发布之后,那就是呃 codex 更好。 这次呢, up 的 四点六在人类最后测试方面非常优秀,在上下文解锁方面也是非常优异。这张图呢,是呃 gbt 五点三 codx 的, 我们可以看一下它的 swbench pro 的 得分呢,非常高, 还有它的 terminal bench 二点零,达到了七十七点三。我们再看这样一个对比,上方是 opt 四点六,下方是呃 codex。 在 多语言编程方面, opt 四点六相对 opt 四点五呢,是进步有一些,但不是特别多。 在 agenix 设置方面呢, opt 四点六对比 sonic 四点五是进步非常多,还有一项机制呢,特别值得关注一下。 opt 四点六,它在有工具的加持下, 它的人类最后测试的得分呢,是要比 gbt 五点二 pro 要呃高上一些。 gbt 五点二是非常聪明的,但是使用的时候特别慢。 那我们现在看到 opt 四点六呢,居然在这个指标上是要超过 gbt 五点二 pro 了。 opt 四点六呢,现在是有四个努力等级可以选, 我们在 c c 里的话,可以通过斜杠 model, 然后通过左右按键来切换它不同的努力等级。四点六呢,现在接近上下文上线时自动摘要和替换旧内容,执行更长的任务不再受限。 而且 cloud 呢,现在可以自主判断何时需要更深入的推理。 ansosopik 还推出了 c c 里的智能体团队,还有 excel 里的 cloud 呢,表现更好。这次呢,他们还面向 max 会员推出了呃 ppt 里面的 cloud 插件。先来看一下 c c 里的 agent teams, 多智能体协助编排。我们现在看到的是 empercode 的 呃工程师,他使用 c c 里的 agent team。 起用之后呢,我们可以看到它是右边呢,有四个啊团队,这四个团队呢,它给它分配了这几项任务。什么时候使用 agent team 呢?官方给出一些例子,比如说研究和评选新模块或新功能, 它们是可以互不干扰,并行推进开发。还有竞争性假设调试, 跨层协调。 agent teams 呢,它会增加协调开销,并且比单个绘画呢消耗更多的 toker。 子代理和 agent teams, 它们的区别我们可以看一下。子代理呢,它会将结果返回给调用者, 而 agent teams, 它完全独立运行。 agent team 呢,它的队友之间还可以直接通信, 共享任务列表。 agent teams 默认是禁止的,所以需要启用一下,可以通过这样的视力提示词来提示它。它的显示模式呢?分进程类模式,还有分屏模式,您可以指定队友和模型, 要求队友提交计划审批,直接和队友对话等等。官方给出了呃,两个实战的案例, 我们可以并行代码审,也可以竞争性假设调查,通过让队友互相质疑,存活下来的理论更可能是真正的根音。目前 agent team 呢,它还处于实验阶段,有些限制。 opt 四点六,对比 opt 四点五, 它在 excel 表格方面的话,我们可以看到明显在 excel 表格上处理的样式。嗯,还有处理的维度, 表格展示的更好。它在 excel 表格方面,我们会看到它有这样的图标,对比下方也会展示的更美观。但就我自己体验。 office 四点六,它在 ppt 制作方面的话, 那我觉得的话,它的样式做的还是比较一般的。我之前呢尝试过,因为我是 pro 会员,在 excel 里用它的插件 让它做出来表格,的确排版比较美观,但是它实在是太好 top 了, 简单对话了几次,呃,那我当时五小时之内 pro 会员的可用额度就被就没有了。它的表格的深度是没有当时呃 gbt 五点二 thinking 做得好的,现在也可以在 ppt 里面使用 pro 的。 这是一个原声线路的侧边栏,不过目前呢,只有 max team 和企业用户可以去使用。官方呢,有一个呃,薄文介绍,用十六个智能体从零开始,用 rust 编写一个 c 翻译器, 最终呢,能够翻译呃 linux 的 内核接近两千次的 c c 绘画,两万 api token 的 费用。 最终呢, agent 团队呢,产生了一个啊,十万行的翻译器。通过 agent team 多个 crowd 的 实力,在共享代码库上并行工作,无需人类主动干预。为了驱动自主进展,作者呢,构建了一个支架,将 crowd 放入一个简单循环里, 当他完成一个任务的时候,立马接手下一个作者呢,他会告诉 crowd 要解决什么问题,并且要求他将问题分解成小块,跟踪当前工作进度,判断下一步做什么,然后持续工作。他认为病情调试多个问题呢,效率要高很多。 运行多个 cloud agent 呢,允许专业化分工。它的运行 cloud 实现非常简洁,一个裸的 get 仓库,每一个智能体启动一个多克容器仓库,挂载到 upstream, 每个智能体在 workspace 中克隆本地副本,完成后从容器啊推送到 upstream。 为了防止两个智能体同时解决同一个问题,那它们设计了一个简单的同步算法,可以通过写入 task 目录中的文本文件来锁定某个任务。 如果两个智能体同时任领同一个任务,那 get 的 同步机制呢,就会迫使第二个啊智能体选择其他的任务。当 crowd 完成任务之后呢,它会从 upstream 来拉取合并其他 agent 的 更改,推送自己的更改,并且移除锁定合并冲突的时候, crowd 会自己去解决,这样的话就会无限循环。他也分享了和啊 agent team 编程的一些教训,第一呢是要编辑极高质量的测试, 第二呢是站在 crowd 的 角度思考。作者不断提醒自己,这个测试支架是为了 crowd 编辑的,而不是为了我自己,所以要特别关注上下文窗口污染 时间感知的缺失。第三呢是让并行变得简单。第四呢是多个 agent 并行呢,也实现了多样化的分工, 他为不同的 agent 分 配了不同的角色。最终这个项目呢,它是花费了啊,非常多的费用,在大多数编辑器测试套件上面的通过率呢,非常高,编意并且运行了一个 dom 游戏,他也有一些已知的局限。有兴趣的观众呢,可以看一下 isoop 官方 开源出来的关于这个项目,我们看到它这里的提交有三千多次的提交。 antisociology 还发布了另一项博文,指的是四点六呢,它发现了呃五百多个漏洞, 开源仓库里的其中呢,约一百个呢,来自于呃 open crawl 项目。 antisociology 工程师介绍 opt 四点六呢,它的特别之处呢,就是开箱即用,无需定制脚手架或者专业提示,就能迅速找到高危的漏洞。它会像人类研究员一样阅读和推理代码, 研读历史修复记录,以找到类似的未解决 bug, 识别容易导致问题的模式 或深入理解逻辑来精确触发输入它们的实验方法呢,是将 cloud 放到一个虚拟机,可以访问开源项目的最新版本。 提供的标准工具有这些,还有漏洞分析工具,但不提供任何关于如何使用这些工具的特殊指令。然后 cloud 呢,它会聚焦内存破坏漏洞, 还有 cloud 自我批判和去同再之后呢,人工安全研究员来验证,他们发现了三个典型的漏洞。 第一个, ghost script 项目, cloud 最初尝试了模糊测试和手动分析两条路径,未获得有价值的发现。然后他就开始转向阅读 get 的 提交历史。接着他就检查其他调用同一函数的代码路径。 之后他就发现啊,有一个地方呢,维护者是修复了,但是遗漏了另外一个地方。第二个仓库是 open s c。 模糊测试再次失败后, crote 开始搜索仓库中频繁出现漏洞的函数。调用 crote 呢,发现这个缓冲区一出有漏洞。 查看模糊测试覆盖率统计后发现呢,传统模拟测试器极少覆盖这行代码,因为触发它需要满足大量前置条件。 crowd 呢,能推理哪些代码片段值得关注,而无需 而非无差别的均员分配经历?第三个仓库呢,是 c g f 这个案件。令人惊讶的不是 cloud 如何发现 bug, 而是它如何验证并表述概念。验证这个漏洞的话是 触发它需要是有概念性理解。即使 c g f 拥有百分百的行覆盖率和分支覆盖率,这个漏洞呢,仍可能不被检测到,因为它需要非常特定的操作序列,我在读这两篇文章的时候,真的是感觉非常有意思, 这完全说明了 office 四点六现在是有多么的强大。刚才我在介绍的时候用的这些页面呢,都是通过 office 四点六生成的, 它生成的页面还是挺美观,正确率也是非常高,速度也是非常快。再看一个我让它生成的 remote 动画来介绍 opt 四点六,我在提示词里面提示让它用到 iso 的 品牌色, 可以看到最后呢,它这个做的还是非常美观的。最后再给大家看一个轻松的画面,我让它做兵马俑跳舞的界面, 那先让他呢,呃,做计划,这是在 c c 里面做的计划,他在计划里呢做的美学方向是陶土色系,时间线呢,分这六十秒, 他设计了五个角色,包括战马,还有不同的士兵,还有将军永,将军永是这里最高大的, 而且他非常好的是呢,他有三个聚光灯,当哪个舞者在表演的时候,他的聚光灯就会啊随机的去切换到哪个精彩的表演画面。他在这里做的角色设计是说这样有一个马永, 他偷偷站起舞,被发现呢,就装没事,这个非常搞笑。以上呢就是今天介绍的关于 off 四点六的所有内容,后续的话我也会对他做更多的测试,非常推荐大家使用。

oppo 四点六到底留在哪里了?为什么 oppo 四点六发布仅十二个小时,摄像头就炸锅了?那么接下来我就结合自己的实测和专业拆解,总结了几条实际有用的分享给大家,大家可以关注收藏。最重要的升级还是上一份能力的待机升级 到这两个重点即可,一是他是首款开启一百万 tock 上下文窗口的模型,一百万 tock 什么概念呢?差不多是一本公式法的所有内容。二是在一个专业的上下文测试,大约六分钟,得分达到了百分之七十六。什么意思呢?作为一个对比啊,之前的旗舰模型三点四点五只有百分之十八点五, 这就意味着大魔星已经彻底告别了鲸鱼记忆,在上海文中查找信息更准确,推理力更强了。紧接着呢,就是逻辑推理了,重点新增了自适应思考的功能,之前的深度思考模式只能手动切换选择, 现在是自适应的,可以自主判断什么时候需要。更恐怖的是,还引入了更高密度的思维念,在回答前会进行多人的自我博弈。 比如说我上面那个例子中,通过理解一堆源码内容,能够精准的发现代码里面的笼络和错误。另一个也是非常关键和重要的, 就是 office 四六六的定位已经不再是瞎聊天了,而是能真正干活的。 agent 的 模型有土匪证啊!咱们不妨看看当 starbucks 放出来的十三项精准成绩,你会发现有十项全都是 agent 的 能力相关的,比如工具的调用,复杂任务中的自主判断, 上一个理解的一致性等等。最后一个重要的更新,也是最具前瞻性的一个就是 agent teams 多 agent 的 协助就是你可以在 cloud cloud 中同时使用多个 agent, 让它们并行工作。比如你要做一次代码库的审查, agent 一 负责审查前端代码, agent 二负责审查后台代码 agent 三负责检查安全问题 agent 四负责检查性能瓶颈。这些 agent 呢,可以自主协调,互不干扰。这和新人事业的团队协助一样, 不是一个人做完所有事情,而是专人专事,并行推进。第一时间了解以上更新,你就可以直接上手使用 office 四点六或者 color code 了,也就拥有了先人一步的超凡生产力。关注我, ai 时代不迷路!

大家好,春节马上就结束了,大家也快要复工了,那么在这个假期时间呢,关于 ai 编程有些新的信息需要给大家一起分享一下。那首先呢是模型方面的, 在节前的时候,智普和 mini max 分 别发布了最新的版本,那智普呢,是发布了这个 g m 五点零,那 mini max 呢,发布了这个 m 二点五,那这两款模型呢,在国内外都是受到了非常大的关注啊,那调用量也是非常非常高的,也非常推荐大家去使用。 那么 cloud 也发布了 cloud storage 四点六啊,那这款模型呢,是有着 opus 的 智力和这个 socket 的 价格,那么它的定价和 socket 四点五是一样的,但是它的能力呢,是 无限的接近这个 opus 四点五,甚至大部分维度已经超越这个 opus 四点五了。那么这款模型呢,是 cloud 家族里面除了 opus 四点六之外的一个非常好的一个选择了。 那之后呢,阿里也发布了一最新的一款模型,千万三点五 plus, 那 这款模型也是非常厉害,是一个全模态的,那么它也支持图片, 支持视频,支持文字,是一个非常出色的模型。那在之后呢,就是谷歌发布了这个 gm 的 三点一 pro, 那 这款模型比这个三点零 pro 在 前端能力上又得到了很大的提升。 我们来接下来我们来看一下这些模型在编程各个维度的一个数据对比,我们来看一下这几款模型在编程相关维度的一些分数啊,我们主要是看这三个, 比如第一个终端编程的能力,那么 j m 三点一 pro 呢?是百分之六十八点五,那这这个维度的分数上, j b d 五点三 code x 是 最高的,但是在第二个维度呢,是啊,一个 软件工程的一个测试啊,那这个两个呢区别是在于就第一个是指测试了 python 这个语言,那第二个的话,它是测试了多种语言,那么在这个维度的分数最高的话是这个 jmp 三点一 pro, 但是呢 j p d 五点三酷睿 x 在 这个维度是没有测试的,它是比测试比这更复杂了,那么它拿到的分数是五点百分之五,十六点八,那 j p d 五点三酷睿 x, 那 么在这个维度是我觉得是第一的,那综合来看呢,前面三点五在这五六款模型里面,在编程这个维度应该是垫底的, 那其次呢就是,呃,我们的这个 mini max m 二点五啊,还有这个智普的这个五点零啊,那最好的模型是这个 j p d 五点三酷睿 x, 除了前端上他有一些不太行,那整体上这个比如说后端编码编辑上,那我在这个节假日的时候也是用它来进行了大量的这个编程, 就是它这个对于后端代码对这种逻辑的这种把控啊,是非常强的。当然 gm 三点一 pro 对 前端能力上也是非常非常厉害,但我们国内的模型呢,跟他们的差距其实非常非常小,那么大部分任务其实都是可以用,比如说 gm 四点五点零啊,还有这个 mini max m 二点五去完成。 那接下来就是编程工具的更新啊,那这里我只挑了这个 close 和 close, 那 close 呢?发布了新的版本二点五,那这个版本呢,就是新增一个功能叫支持插件系统, 那么插件这个东西在 close 是 很早就已经支持了,那什么是插件呢?我们来看一下。那么一个插件,你可以认为是呃一组规则技能,子弹里还有命令以及 m、 c、 p 钩子这些,把它全部放到一起,就叫一个插件。那这个插件有了这个东西之后,就非常有利于去把一些可以附用的东西啊,去分享给你的团队啊,或者分享给其他人去使用。那么那么你安装这个插件之后啊,你就可以用这插件里面的,比如说技能, 比如说秘密,比如说这个紫代理是非常非常方便的,是一个非常好的一个大的一个封装的一个方法。那么 cos 在 发布二点五版本之后呢, 他自己也有一个这样的一个这样的一个插件市场里面有一些就是呃他挑选的一个插件,当然你也可以去创建属于自己的插件,但是其实你能用到了一些关于 ai 编程的很多流程也好,很多方法也好,很多技能也好。紫代理那么其实有市面上已经有非常成熟非常好用的 插进了,那么你也可以去自己写。那么在 cost 这个插进市场里面,我就看到了两款啊,在 crocco 里面用的比较多的,比如 superpos, 那 这里面就包含了很多很多看 tdd 测试的,调试的,以及一些子代理,还有这个二十九个代理,二十二个这样的秘密,所以有了有了这两个啊, 基本上能省了很多很多,就是你自己去重新去想的一些命令啊,所以说其实是把它们去用熟,然后再去创建自己的这个插件,或者说技能也好,命令也好,是非常重要的。那么添加也是很简单,只要点这个,那么它就会打开这个 css 端, 这个添加到这个,就这个安装插件呢,比这个 curl code 是 非常非常简单的。那么其实 cose 从上一次的版本啊,支持技能,支持子弹里到目前支持插件,它是一步一步跟着 curl code 的 这个方向来,其实这是一个我觉得是一个非常对的方法,因为啊 经过市场验证的这个这种方法或特性,比如说之前 coco 的 发布这个技能,马上技能就成为了行内的规范,那么现在的插件,那 coco 去跟进这个,那么其实我也是希望其他的 ai 编程工具也能去支持这些好用的特性,那有了这些东西之后,你的开发效率啊,你的准确率是会大大提升的。 这段时间呢, coco 也发布了新版本啊,已经更新到这个二点一点五零的版本,那么增加了很多新的功能,比如说通过这种杠杠 coco tree 的 方式啊,去启动这种啊 coco tree。 那 么我升级完之后有两个问题是,我觉得是可能是 coco 的 越来越封闭的一个一些现象,比如说啊会被强制退出,就比如说我用的时候突然就被强制退出了,那要登录,那这个登录要必须要使用 cloud cloud code 支持的这种登录方式啊,也说你需要去注册账号, 那么它对我们国内是封锁是非常严的,所以这个是非常麻烦。那第二个就是今天才发现的,就是 用 c c switch 去切换这个智补这个模型的时候,你不管怎么切换都会提示这个模型不存在,那我一开始以为是这个 color code, 呃,在 发送这个请求给智补的时候,是不是把这个模型的名称给篡改了?但是后面我不断去研究,发现就是要你切换完之后呢,你需要去斜杠 model, 然后去选择这个 default, 然后再去保存, 然后才能用。就是他更改了自己的这个应该是自己的请求流程,就我目前发现这个问题,但不知道其他人有没有这个问题。那么接下来就是国内模型的编程套餐了,那最近呢,阿里也出了专门的这个编程套餐,那我们会统一来看,那这边呢,我收集了国内的所有的云平台或者说大屏幕 或者说大模型的厂商来提供了这个编程套餐,目前基本上所有的这个主流的这个啊提供商或者说这个大模型厂商都提供了这个编程套餐。我们来对比一下各家在定价方面啊,是不是有什么样的差异性啊? 比如说现在目前来说啊,实际上基本上所有人都是使用这种五小时重置,就他会设定一个次数,那五小时重置,然后会有每周的这个一个总的数量,每每五小时有个总的数量,那每周是会去刷新,那每五小时也就也会去刷新。 那么我看一下智普,那智普是三档 light pro 和 max, 那 么这边的话一定要看清楚啊,这个八十次,这个 problems 这边一定要看人少八十次,这样提示词就是大概就是我们跟这个质补对话八十,也就说每五小时最多啊,能对话八十次,八十次啊,那么在编程套餐的这个说明里面经常会说出现这种词,就是说啊,支持这个一千两百次请求,这里面一定要区分开来, 这个请求是他的 api 请求,那你一次跟模型之间对话可能会触发多次,十次,或者是二十次,三十次都有可能 请求,因为他需要去啊,很多次交互才能把这个整个流程才完成,所以我们是一定要去除以这样的一个十到二十,一般你复杂一点肯定要三十次, 所以这个数字大。不是说我们可以跟他对话的次数啊,不是说我们可以跟他对话一千两百次,你要去除以三十,而是大约跟他对话的次数。那么我把所有的这个编程套餐都进行了一个换算, 但是这里的价格呢,是基本上是以续费的价格,因为每一家可能都会有一个啊,首个月都会有优惠。那比如像智普那么 live 套餐四十九,那最多可以对话八十次啊, pro 的 话一百四十九,最多 对话四百次。 max 的 话就是更贵了,那么看一下 mini max, 那 么它是二十九元,每个月最多可以对话四十次,那 plus 呢?是四十九,那这个 mini max 和这个智普比起来的话,那首月它的价格会更便宜,其实相当于差不多啊,你看四十九, 八十次,那我八十次说四十八可以这么去算,但是它四十九的话是有一百次,所以总的来,其实 mini max 的 套餐会比这个智普的套餐会更优惠一些。 那我们看一下 kimi 啊,那 kimi 的 话,我是翻遍了整个官网,我都没有找到它这个关于次数的说明,那我们就不在这边去 呃,那个了。那豆包的话,它的模型的话是支持多个模型,比如说豆包的 c 的 或智普的四点七、 k 二点五。但是呢,我 不是太建议大家在这种,比如说第三方的这种厂商里面去非官方的模型,比如说豆包,你就用豆包模型就行了。如果想用这个智普的模型,那么你就去智普这个厂商里面去用它的官方提供,这样会更加好一些,那么它也是提供两个档位, let's 到四十,每个月六十次, pro 的 话两百个月三百次。那么阿里这次也是推出了很多关于千万系列的模型,还有智普的四点七以及 kimi 的 k 幺点五,那么它这个定价跟这个豆包的是一模一样啊,一模一样。 所以总的来看,其实啊这几个里面,从价格上看, mini max 这个是更加实惠的,但是质谱它是更提供了更大的套餐啊,比较适合,就是你可能需要有开发的量比较多的情况。 ok, 那 本期视频就到这,希望这些信息对你的复工有所帮助。

看看在 office 四点六发布的十二个小时内,爷爷卷出来的几个游戏和三 d 的 案例。比如这个开发者克隆了宝可梦游戏,他直接推给了一个半小时,用了十一万头,肯三次尝试就甩出了一个完整可玩的巨作。 还有更狠的,就有人纯用手机,一次指令没改,就让 office 四点六生成了一个用 siri 写的超逼真豪华客厅,三 d 场景 反光、大理石地板、家具软装灯光全自动布置,甚至还做了早晨、黄昏、夜晚三种模式一键切换效果直接能当影视级的背景使用。最炸裂的有人用 office 四点六配合 c 盘平台, 四分钟就克隆出了一个 ready, 是 不是很恐怖啊! ai 一 键的能力进化真的是不容小觑啊!关注我, ai 时代不迷路!

程序员平时写代码最烦的是什么?肯定是切来切去 id 里切代码,浏览器里看效果,终端里看报错,最后还遭切到 get 哈堡去盯 pi。 但刚刚更新的 cloud code 桌面版 直接把这个折磨人的循环给终结了。他在一个界面里能把写代码、看效果、审代码、修 bug、 合并 pi 的 壁环全部给你包圆了。首先是自动化预览,你不需要再切到浏览器 cloud 直接在桌面端给你拉起开发服务器, 你可以直接在这个界面看网页 ui, 看公式台的日制,但最觉得还是哪里样式不对,你直接在画面上框选,告诉他,他马上帮你叠代代码。 其次就是推送和合并的全自动推送前点一下新增的 review code, 他 直接给你做差异对比和内联批注,还能够顺手把代码修好。更狠的是,代码推到 get 后,他会在后台帮你钉盘, ci 测试挂了,他会自动尝试修复,测试全率通过, 他直接自动帮你合并 pi。 最后就是工作流的无缝流转,你在终端命令行里敲个 desktop, 刚刚聊到一半的上下文直接闪现到桌面端,甚至还能一键无缝转移到云端网页版。不得不感叹,现在的 ai 早就不是一个只会写代码的打字机了。当他开始接管预览、审查、测试和部署的整个开发闭环时,未来的程序员可能真的只需要做好产品经理就够了。

朋友们,祝大家新春快乐,马年大吉!今天一早起来克拉斯尼的模型又更新了,那这次更新呢,有以下几个亮点是值得我们关注的。第一个就是所有的用户都可以直接免费使用,不管你是订阅用户还是普通用户,现在的 ai 大 厂在争夺用户方面真的是下出了血本。 第二个就是他现在几乎可以像真人一样去操作我们的电脑了,特别是像 excel 表格这样的软件,已经接近真人的使用水平了, 那未来呢,真的是可以一句话就做数据汇总或是 ppt 了。第三个呢,就是他现在有一百万透坑的上下文窗口,那这是什么概念呢?这意味着你可以丢几十篇论文进去,或者是一本书,甚至是你把整个代码库丢进去,他都是可以进行有效推理的。 那在之前的模型当中,这么长的上下文窗口模型是很难做到有效推理这一步的,那把它作为智能体的底层推理模型的话,是个非常好的选择,大家赶紧去试试吧。

为什么 oppo 四点六发布仅十二个小时,金融圈就砸锅了?法律、金融行业的软件、股票暴跌,软件行业 e t f 下跌近百分之六, 创造了这一年来单日的最大跌幅。本来我也以为 antarctica 发布 oppo 四点六不过就是一次常规的升级,打个补丁而已,结果我自己上手测完就彻底的震撼到。废话不多说,直接来看我项目开发中的实测,绝对不带任何演绎和美化的成分。 第一个例子啊,是之前 opus 四点五实现的逻辑,在执行和瑞瑞尔的时候被我发现了有漏洞,然后我就给了一句简单的提示,这里的逻辑很奇怪等等,然后他就开始查看并纠正,可以说是一击即中,修改了代码可以同时给出结论,我们一起来看一下,既然工具已经做成节点,再单独列一份工具信息纯属多余, perfect, 是 不是有点架构式的味道?这还不算完,咱们在一起看。一个复杂的项目中,我自定义了一个 tour factory, 能够实现类似 m c p 的 逻辑, 但是在 a 键的实现的时候,之前的模型又开始瞎写了,写了一堆拼接,那么 opus 四点六接下来的操作就让我非常满意,他没有瞎猜,而是直接去查看了所有相关的几十元码,查出当前已经自带了相关的属性,并得出一个重要的结论,这个函数的定义本来就是多此一举,不光修改代码,而且给出了充分的理由, 说实话,这对理由和反馈真的是相当的准确,相当的到位啊。这几个开始下来我就坐不住了,这不得了啊, 这上一份理解,这推理能力,这执行效率和质量,妥妥的一百分啊!我就立即在公司群里面发了一句提醒,让大家尽快的用起来,项目开发中真的可以少走很多弯路。这时候我一下子就理解了为什么奥普斯四点六发布仅十二个小时,金融圈就炸锅了。因为金融本质上就是逻辑纠错的游戏, 顶级分析师看一份五百页的招股书,哪怕眼珠子看掉了,也难免会漏掉几个前后矛盾的数据。但在奥克斯四点钟眼里面,这种逻辑断层简直就像黑板上的白点一样明显。那么接下来我就结合自己的实测和专业拆解,总结了几条实际有用的分享给大家,大家可以关注收藏。最重要的升级还是上一份能力的待机升级, 刷到这两个重点即可,一是它是首款开启一百万 tock 上下文窗口的模型,一百万 tock 什么概念呢?差不多是一本公式法的所有内容。二是在一个专业的上下文测试大海捞针中,得分达到了百分之七十六。什么意思呢?作为一个对比啊,之前的旗舰模型桑尼的四点五只有百分之十八点五, 这就意味着大魔星已经彻底告别了鲸鱼记忆,在上海文中查找信息更准确,推理力更强了。紧接着呢,就是逻辑推理了,重点新增了自适应思考的功能,之前的深度思考模式只能手动切换选择, 现在是自适应的,可以自主判断什么时候需要。更恐怖的是,还引入了更高密度的思维念,在回答前会进行多人的自我博弈, 比如说我上面那个例子中,通过理解一堆源码内容,能够精准地发现代码里面的笼络和错误。另一个也是非常关键和重要的,就是 office 四六六的定位已经不再是瞎聊天了,而是能真正干活的 agent 的 模型,有图为证啊!咱们不妨看看 asarpic 放出来的十三项精准成绩, 你会发现有十项全都是 agent 的 能力相关的,比如工具的调用、复杂任务中的自主判断、上一个理解的一致性等等。最后一个重要的更新,也是最具前瞻性的一个,就是 agent teams 多 a 键的协助,就是你可以在 cloud code 中同时使用多个 a 键,让它们并行工作。比如你要做一次代码库的审查, a 键的一负责审查前端代码, a 键的二负责审查后端代码, a 键的三负责检查安全问题, a 键的四负责检查性能瓶颈。这些 a 键呢,可以自主协调,互不干扰。这和新人事业的团队协助一样, 不是一个人做完所有事情,而是专人专事,并行推进。第一时间了解以上更新,你就可以直接上手使用 office 四点六或者 color code 了,也就拥有了先人一步的超凡生产力。 我们再看下好玩的,看看在 office 四点六发布的十二个小时内,爷爷卷出来的几个游戏和三 d 的 案例。比如这个开发者克隆了宝可梦游戏,他直接推给了一个半小时, 用了十一万头啃,三次尝试就甩出了一个完整可玩的巨作。还有更狠的,就有人纯用手机,一次指令没改,就让 office 四点六生成了一个用 three g s 写的超逼真豪华客厅,三 d 场景反 光、大理石地板、家具软装、灯光全自动布置,甚至还做了早晨、黄昏、夜晚三种模式一键切换,效果直接能当影视级的背景使用。最炸裂的有人用 office 四点六配合 c 盘平台,四分钟就克隆出了一个 ready, 是不是很恐怖啊! ai 这样的人力进化真的是不容小觑啊!他们奥克斯四点六已经这么强了,我们这些人还能干嘛呢?程序员还能干嘛呢?接下来的结论就很重要了,首先不要慌, ai 不是 银旦,它没法代替你的决策,也没法替你承担后果。一个项目的完成是长期积累和合作的结果,不是于锤子买卖。借用网络上一句调侃的话,架构和审美成了 ai 留给人类的最后一次体面了。所以你的架构、思维、设计、布局和审美偏好变得极其重要, 没了这些,你只会被不断的带卡片,留下的只能是一个不可维护、不可叠代、不可升级的产品。另外一点呢,那就是必须得用,不用那就是慢性自杀。他能帮你实现功能,能够做到测试,还能审查代码, 用起来那就是十倍效率的提升。保留你这颗聪明的脑袋,尽情的去驾驭这些工具吧,未来和财富一定会拥抱你!关注我, ai 时代不迷路!

以前那个 n t guido 的 话,它不是感觉它很香吗?因为它有那个就是 jamming 的 模型嘛。但现在 jamming 模型的话是一周一更新啊,它它的那个配合相当少,就随便用用就没了,而它自己的就是 jamming 的 那个 flash 啊, pro 啊, cic 模型的话,给那个 jamming 其实跟那个可可多的话其实差差很多,就是你明显感觉它是差, 比如 j gmail 很多东西他会他他知道,为什么说他更聪明呢?很多东西他不确定,他会问你,而且他跟你的跟你的结果是你想要的。而 j gmail 是 怎么讲的?他很多时候你都已经明确写了 sql 了或者规则了,写好的时候他还是不会按照规则走,就是你必须明确跟他说你没有按照规则走,但是已经晚了,他已经把代码写进去了, 你如果你没有按按照我的要求去写的码的话,那等等于就是讲垃圾嘛,都都嘛,都是屎山嘛,懂你意思吧?所以,所以这个月就是讲谷歌万那个订阅到到期,到期之后我就不会再,至少现在我不会再订阅,那个就是安迪卡拉提,谷谷歌万那个订阅了,我就直接转向那个就是讲卡拉顿,因为卡拉顿出了那个就是那个叫什么 阿金的阿金的 timos。 我 靠,这简直是王炸,知道吗?这东西,这东西就是讲,比如你像那个谷歌万的订阅哈,就比如十九点九,感觉很贵,但是那玩意哈,就是就是,就是阿金的 timos 哈,那个东西就不一样了啊,多花点钱也值。

ansaurus 发布了 cloud open 四点六,这次更新的口号是 cloud 要改革知识工作了,从程序员到学校都在用 cloudy, 这是要取代人类的节奏吗?这次 cloudy 升级到底有什么不一样? ansaurus 似乎想把 cloud 打造成一个知识工作领域的专家,专注服务企业和开发者。 目前来看,这个策略效果显著。那么新模型到底有什么亮点呢?首先, cloud 推出了新功能,包括支持团队协助的 agent 模式,还有 cloud in excel 和 cloud in powerpoint, 这简直是 ai ceo 的 雏形,或者至少是一个 ai 团队领导者。在知识工作方面, opus 四点六达到了新的高度。 antropic 正逐渐从单纯的编码 agent 转型。 opus 四点六还是首个支持一百万 tolkien 上下文窗口的模型,这意味着处理长文本的能力大大提升。 ansaurpie 官方表示, opus 四点六可以处理更大的代码库,代码审查和 de bug 能力也更强,能自己发现错误, 金融分析、研究文档创建 cloud 现在能做的更多了。结合 cooke 功能, cloud 正在集成各种能力。在 humanity's last exam 测试中, opus 四点六也达到了新的高度,是首个突破五十三点一分的模型。 gdp 微弱,精准测试更重要,因为它衡量了 ai 在 实际工作中的经济价值。 cloud code 现在可以组建 agent 的 团队一起完成任务。 agent 团队和 sub agent 有 什么区别? agent 团队是独立的,库洛的实力,而 sub agent 需要汇报给主 agent。 总之, cloud 在 各个精准测试中都表现出色, ai 发展速度太快了,要抓紧学习了。

十六个 ai 两周从零搭建了一座台基垫,然后真的造出了能用的芯片。当然了,这个台基垫是带引号的比喻,后面我会详细解释 ai 是 怎么做到的。今天 cloud 发布了最新的模型 off 四点六,里面呢,有个王炸的功能叫 agent tims, 就是 这个功能让 ai 搭建出了能造芯片的台基垫。计算机其实是看不懂 if else 这样的代码的,只认识零和一。那程序员写的代码要变成能跑的程序,中间需要一个翻译器,这个翻译器就叫做变异器。 这也跟造芯片是一个道理啊。英伟达不自己生产芯片,它只负责设计,是台积电这样的工厂,把设计图纸变成真正能用的芯片。变异器就是软件世界的。台积电 这个项目的意思就是这个新模型调用了 agent tins 这个功能,然后自己造了一个十万行代码的变异器,这个变异器把 linux 三千万行的原代码变异成了真正能启动的系统,就等于说它自己建造了这座台积电工厂,还拿着最难的设计图纸把芯片造了出来。 那这个 agent teams 为什么这么厉害呢?写十万行代码都不出错。以前的 ai 大家都知道,写代码属于单干模式,就像一个人去建造整个芯片工厂,干到一半呢,经常会忘记前面干了啥, 结果当然好不到哪里去,还经常陷入各种死循环。 agent teams 做了一个革新呐,等于把之前单干模式变成了台积电的多条生产线,并且相互分工,协助一个总工程师拆分任务,光刻、石刻、封装、质检,各有专业的人员来负责。 十六个 ai 同时开工,各管各的,还能相互协调指挥。那整个项目是花费了两周时间,总共花费了十四万人民币的偷啃费用,写出了十万行代码的编辑器。 要知道啊,编辑器是公认的最难写的软件之一,人类的专业团队啊,从头写都可能要好几年。但真正让我震撼的是,它展示了一个全新的工作模式, ai 开始像生产流水线一样,分工合作,并行推进。连研究员自己都说啊,没想到二六年初就能做到了这一步。 那目前的 ai 已经从只会搬搬抬抬的实习生,慢慢变成了一个能建造整座台积电的工程团队。那我相信啊,这种 ai 团队协助的新模式,一定会重塑我们的工作流,不管你是做市场营销还是做产品开发,都要试一试这个 agent teams 功能。

不得了了,史诗级的更新, ai 正在突破人类临界点,新的蝙蝠 boss 四点六在逻辑难题上已经表现出接近人类的直觉。 这个数值代表 ai 必须像人类一样,通过观察、抽象、推理现场,学会一个新技能,这叫适应性,已经快要达到人类的平均水平了,这真的是离 agi 就 一步之遥了。必须要告诉大家,这些都是 ai 告诉我的。哈哈,刚好上网看一下什么?还要钱吗? 那我浪费了时间怎么办?行吧,那我们就来一次酣畅淋漓的白嫖吧,就给你好好上一课,让你知道什么叫适应性。 你俩是亲家,那么你肯定能用。果然恭喜大家又可以白嫖了,再用这个项试试,看能不能让 open globe 也用上免费的。

cloud 四点六杀疯啦!高强度用了不到三天,我已经把所有界面的三的工作切到了四点六。这个更新有多大?打个比方, cloud 四点五像是你手机里导航软件,可以告诉你怎么走, 而四点六就是你请的专业司机,只要一句话,目的地到了,老板请下车。这次更新只围绕两个字,效率 来用数据说话。上下文窗口从二十万 token 暴涨到一百万五倍,推理能力二和 agi 二从三十七点六跳到百分之六十八点八,几乎翻倍。 百万 token 下的长文本解锁准确率达到了百分之七十六,是四点五 solo 的 四倍,这在以前是不可想象的。可能你对数字没有什么概念,那么在实际工作中,四点六到底强在哪里? 第一点,一百万上下文窗口它真能用了。四点五虽然编程很强,但是一次生成的应用程序或者网站,它的二十万 token 上下文窗口存在一个上下文衰减的问题,写着写着就忘了前面的, 导致最近很多程序用一种叫做奇怪的叫爸爸的方法来验证 cloud 是 不是丢失了上下文。通俗的来讲, 以前的四点五像是端着一个小碟子去吃自助餐,加了二十样就放不下了,想吃新的就得把前面旧的倒掉。而现在的四点六是推着购物车进场的,一百道菜全部打包带走,你问他第三排第二个菜是什么,他可以给你报出菜名来。第二点, cloud 从思考者变成了一个执行者。四点五是一个思考者,而四点六是一个会把事情做完的思考者,他不再停留在思考阶段,而是会自主行动,跨多个任务自主完成。以前需要多轮对话才能搞定的事情,现在一次就搞定了。 而且四点六引入了一个叫做自适应思考模型,会自己判断这个任务的难度,来决定他思考的深度。作为你的 ai 同事,他已经从事事都要请示你的实习生,变成了自己会做决策的项目经理。 更狠的是,以前一个 cloud 只能干一件事儿,现在你可以让它自己拆成一个小团队,缤纷多路同时干。而且每一个 ai 单独享用独立的一百万 token 的 上下文,干完了再自己把任务合在一起交给你。 第三点, cloud 不 再是程序员的专属,它可以是任何人的同事。 asp 同步推出了 cloud in excel, 支持条件、格式、数据验证等原声的操作。以前是 ai 帮你做 ppt, 做出来的东西像是在路边打印店做的,那么现在他会直接去看你公司的 ppt 模板长啥样,做出来直接丢给老板用, 到了这个时候一定是有转折的。对,我们来谈一谈价格,四点六的 api 价格和四点五完全一样,但是我要说但是了,四点六推出了一个 fast 模式,输出的速度是普通情况下的二点五倍, 以前要写十分钟的东西,现在只要三到四分钟,但是价格直接飙升到普通模式的六倍。你没有听错,输入三十美金,百万投资,输出一百五十美金,百万投资。价格涨了这么多,他变强了吗?没有, 完全一模一样,而且如果你用了超过二十万头寸的长上下纹,价格还要额外再涨一点五倍到两倍,这让有人调侃说 cloud 四点六造成亏损和破产,从未如此之快。六倍的价格换来二点五倍的速度,从数学上来说,这完全不合理, 但在商业的世界里,从来就不是纯数学。这就好比你的飞机要起飞了,你是狂踩共享单车,还是立马叫辆专车,以最快的速度去机场?路还是那条路,人还是那个你,但你愿意付这个费用,因为那个场景下,快就是一切。 这大概也是 ai 行业第一次这么明确的告诉你,你的时间值多少钱,你就付多少钱。所以回到最开始, 为什么我三天就从界面的三切过来了?因为四点六不是一个更聪明的聊天机器人,他是一个真能帮你落地干活的同事。而且 ospec 这次用定价告诉了所有人, ai 这个同事你的时间值多少钱,他就收多少钱。

二零二六年刚开年, ai 界就迎来重磅更新。 cloud 现在能直接操作你的办公软件了。 slack、 figma、 asana 等十余款主流工具,无缝集成一个对话框,搞定所有工作。需要规划仪表盘改版。 cloud 直接调取 figma, 几分钟生成可适化流程图。 想看实时数据,它立刻连接 amplitude, 汇聚出动态折现图。这背后是全新的 mcp apps 技术,彻底打破了 ai 与软件工具之间的壁垒, 未来的界面将引入工作流。 amplight 创始人这样判断,如今的 cloud 已进化成真正的 ai 工作,站在对话框里直接交互图表编辑文档管理项目。早先它虽能调用工具,但需逐步操作,现在结果立等可取,还能实时修改,让 cloud 整理会议摘哦! 它自动在 slack 生成草稿,需要行业报告瞬间从 box 调出文件调研公司信息连接课 a 获取背景资料,从数据洞察到任务执行,从设计协助到邮件拣写,所有操作在一个界面流畅完成 这项突破。基于开源的模型上下文协议开发者现在能为 ai 工具创建丰富交互界面,像开发网页应用一样设计 ai 的 手脚。用户无需反复输入指令,点击图标即可筛选数据,修改表格能实时同步。 想象一下,销售仪表盘可以交互钻取部署表单能智能联动合同 pdf 能直接在对话中批注。这不仅是技术升级,更是工作方式的革命。当 ai 真正融入工作流,重复性劳动将悄然消失, 工具正在隐形,效率正在质变,人与机器的合作进入新纪元。把握变化者赢得未来,固守旧法者终被淘汰,这场生产力变更的浪潮中,你站在哪一边?我是未来少所,关注我获取更多军事科技最新资讯!

二零二六年,如果你的 ai 工具箱里面还是只有豆包 deepsea 千万的话,你确实应该考虑更新一下工具了。我最推荐的有以下几个,在 g b t 五点二 jimmy, 三 pro cloud, 四点五 pro flex。 如果你对这些工具感兴趣,想要加入你日常工作的工具箱里的话,我们正好有一个工具小组,里面会给大家提供这些工具。如果你感兴趣,可以在视频底下留言,会有专人联系你,提供更多的信息和介绍。

就在刚才, cloud opus 的 四点六正式发布了,正面硬钢 open i 最近发布的 codex 的 五点三。但是如果你只是觉得 aspropic 的 cloud 又强了一点点,那你基本没看懂这次更新。那我们先用一句话来讲 aspropic, 这次它不是在秀功能, 而是在利用整套 benchmark 的 突破,明确地告诉你, cloud 正在被做成一个可以自己自主工作的 agent 的 底座。 最关键的数据来看,在评估金融、法律研究等高价值的知识工作的这个 g p t value aa。 基本上之前我们介绍过这个指标, opus 的 四点五比 g p t。 五的五点二高了一百四十四个一楼。 那官方的说法是,百分之七十的场景是胜出的,同时也比上一代 opus 的 四点五高出了一百九十个单位,这明确的代表了待机的跃迁。那在代理编程 time 二点零和人类最后考试这种常规推理测试当中,它也都有相当强的一个表现, 那不只是写得快,而是能够规划执行,还能自我修正。那在这个基础上,它也刀像了 office 三件套。第一刀直接就是 ppt。 cloud 已经不再是帮你写文案,而是能够完整地记住你在公司的模板,字体版式深沉的 ppt 几乎是不会看到 a i v, 而且能够长期服用它意味着熬夜做 ppt 正在被系统性的消灭。 那第二刀呢?刀向了 excel, 那 非结构化的数据一股脑丢进去,它能够自己去建模,跨表、跨步骤的去完成分析,对于财务投研运营的冲击也会非常的直接。但真正的分水岭,在我看来,其实第三个事情名不见经传的 agent team 的 一个发布。 一句话去理解这件事, cloud 呢,不再是一个模型,而是一整个能自己分工,自己协助的团队,你不再是提需求,而是设定目标。那官方的实验里面,他给出十六个 cloud agent, 在 没人指挥的情况下, 两周的时间,丛林写了一个十万行的 c 编辑器,然后能够变异 linux 的 内核,还能跑 dom。 那 恐怖的是它,它不只是一个写编辑器的一个工具,而是已经具备了用组织的方式去工作的能力了。这意味着很多过去只有团队才能完成的事情,复杂的工程,财务研究、安全审计,大模型的研究, 第一次被模型层面直接全部通通的协助吃掉。那所以呢, cloud ops 的 四点五重点不是更强,而是给大家了一个信号,它 ai 正在从工具进化层可以被雇佣,可以长期干活,可以协调工作的工作单元。 接下来真正要被淘汰的可能不再是某一个岗位,而是那些一直停留在一个人,一个工具的工作方式里面的一些组织。