粉丝3.5万获赞30.6万

cloud 四点六杀疯啦!高强度用了不到三天,我已经把所有界面的三的工作切到了四点六。这个更新有多大?打个比方, cloud 四点五像是你手机里导航软件,可以告诉你怎么走, 而四点六就是你请的专业司机,只要一句话,目的地到了,老板请下车。这次更新只围绕两个字,效率 来用数据说话。上下文窗口从二十万 token 暴涨到一百万五倍,推理能力二和 agi 二从三十七点六跳到百分之六十八点八,几乎翻倍。 百万 token 下的长文本解锁准确率达到了百分之七十六,是四点五 solo 的 四倍,这在以前是不可想象的。可能你对数字没有什么概念,那么在实际工作中,四点六到底强在哪里? 第一点,一百万上下文窗口它真能用了。四点五虽然编程很强,但是一次生成的应用程序或者网站,它的二十万 token 上下文窗口存在一个上下文衰减的问题,写着写着就忘了前面的, 导致最近很多程序用一种叫做奇怪的叫爸爸的方法来验证 cloud 是 不是丢失了上下文。通俗的来讲, 以前的四点五像是端着一个小碟子去吃自助餐,加了二十样就放不下了,想吃新的就得把前面旧的倒掉。而现在的四点六是推着购物车进场的,一百道菜全部打包带走,你问他第三排第二个菜是什么,他可以给你报出菜名来。第二点, cloud 从思考者变成了一个执行者。四点五是一个思考者,而四点六是一个会把事情做完的思考者,他不再停留在思考阶段,而是会自主行动,跨多个任务自主完成。以前需要多轮对话才能搞定的事情,现在一次就搞定了。 而且四点六引入了一个叫做自适应思考模型,会自己判断这个任务的难度,来决定他思考的深度。作为你的 ai 同事,他已经从事事都要请示你的实习生,变成了自己会做决策的项目经理。 更狠的是,以前一个 cloud 只能干一件事儿,现在你可以让它自己拆成一个小团队,缤纷多路同时干。而且每一个 ai 单独享用独立的一百万 token 的 上下文,干完了再自己把任务合在一起交给你。 第三点, cloud 不 再是程序员的专属,它可以是任何人的同事。 asp 同步推出了 cloud in excel, 支持条件、格式、数据验证等原声的操作。以前是 ai 帮你做 ppt, 做出来的东西像是在路边打印店做的,那么现在他会直接去看你公司的 ppt 模板长啥样,做出来直接丢给老板用, 到了这个时候一定是有转折的。对,我们来谈一谈价格,四点六的 api 价格和四点五完全一样,但是我要说但是了,四点六推出了一个 fast 模式,输出的速度是普通情况下的二点五倍, 以前要写十分钟的东西,现在只要三到四分钟,但是价格直接飙升到普通模式的六倍。你没有听错,输入三十美金,百万投资,输出一百五十美金,百万投资。价格涨了这么多,他变强了吗?没有, 完全一模一样,而且如果你用了超过二十万头寸的长上下纹,价格还要额外再涨一点五倍到两倍,这让有人调侃说 cloud 四点六造成亏损和破产,从未如此之快。六倍的价格换来二点五倍的速度,从数学上来说,这完全不合理, 但在商业的世界里,从来就不是纯数学。这就好比你的飞机要起飞了,你是狂踩共享单车,还是立马叫辆专车,以最快的速度去机场?路还是那条路,人还是那个你,但你愿意付这个费用,因为那个场景下,快就是一切。 这大概也是 ai 行业第一次这么明确的告诉你,你的时间值多少钱,你就付多少钱。所以回到最开始, 为什么我三天就从界面的三切过来了?因为四点六不是一个更聪明的聊天机器人,他是一个真能帮你落地干活的同事。而且 ospec 这次用定价告诉了所有人, ai 这个同事你的时间值多少钱,他就收多少钱。

用可乐的扣子写项目,聊着聊着就会蹦出来一句话,提示你上下文窗口快满了,一旦压到上下文, ai 就 开始抽风,出现上下文腐烂的问题。问题是在命令行里边,你压根看不到上下文用了多少,等提示的时候就晚了,尤其是你在这个绘画里面已经取得了一些项目进展的时候。 如果你有这个痛点,强烈建议安装可乐的哈的这个插件,执行三条命令就能用了。装上之后,在终端底部会出现一个实时的状态栏, 以进度条的形式显示当前窗口的上下文使用情况,还会显示 ai 正在调用什么工具,跑什么 a d 的。 当可乐的卡住不动的时候,一眼就知道它是在思考还是在调用工具,还有显示当前项目的 get 分 值,任务代办进度。 这种感觉就像给开车从没有用过仪表盘的人突然撞上了仪表盘。使用可乐的扣子,心里面就有数了,可以很清楚的看到可乐的在做什么,剩余的上下文有多少,哪些工具处于活动状态。当你管理多个变形的可乐的绘画的时候,会非常有用。点赞关注,每天获取一个新知识!

无论你是在用 cursor、 cloud code 亦或者是国产的车衣 q o 的, 你一定都对向下文窗口不陌生。在和 ai 结对编程中,一旦向下文窗口接近应用设计的象限,就必须进行向下文压缩, 且受限于目前的模型水平,绝大多数的模型技能休息区仍在二五六 k 以内,尽管其向下文窗口可能长达一觉。 而当我们切换新窗口或是进行对话压缩后,让 ai 再次重新理解项目是一件很重要的事情。最简单的办法就是直接让 a 键重新读取项目文件, 但 a 键仍然容易因为读取项目不全面等原因和人类产生误差,在恢复记忆上需要消耗的时间也是一大苦恼。为此,我做了一个叫做 nexus 钢 map 的 skill, 让 ai 一 口气为项目做一次系统性的扫描分析, 铲除一套结构化的文件微地图,并支持用 skill 中的脚本对依赖关系等进行精准查询。首先来介绍结构化文档的几个部分, 引导文件 index 是 ai 恢复项目记忆的主入口,包含着项目的大致情况和一些关键文件的导航。七、次系项目的架构层,我们分配了三个文件,负责架构图的不同部分。 systems 负责记录下项目的各个核心系统。 e penance is 负责用流程图记录系统间的调用关系以及数据流。 test coverage 则负责记录项目有哪些测试文件,还有哪些缺口。严厚细于易理解层, 一个接送文件负责记录项目中的各个重要概念,另一个则是以 md 格式解析项目的概念和秀引。最后则是通过分析 get 历史来分析严谨中活跃和高风险的文件,以及经常一起改动的文件队,通过历史记录来辅助理解文件间关系。 还有我们用脚本分析得出的原始数据层,分别是用 ch、 c、 t 进行的结构分析,鱼对文件的 get 变更频度的分析等。除此之外,我们还设计了一个脚本,用于在图谱,也就是刚刚看到的原始数据项进行精准查询。其中第一个功能是输出指定文件的完整骨架, ai 拿到这个输出后,不需要读原码就可以大致知道文件结构了,在写箱代码上的效果尤其好。 其二,查询依赖指定文件或模块的文件有哪些,可以在重构或改接口时使用。其三,查看肖像的依赖,确定文件整体的影响范围,适合做改动某个功能前的影响评估。 其四,扫描项目全集,利用引用被引用关系,找到真正的核心节点。其五,给出全集中每个区域的模块秀、类秀还秀秀等信息,比如哪里是代码主体,色系有多小,用于初步编排。 最后,考虑到 nexus 杠 map 生成一整套结构化文档,属于比较复杂的规范驱动开发,一部分同学可能更喜欢清量化,不做趋就性文档,而是直接分析结构。我们拆分出了第二个 skill, nexus 杠 quiver, 一个更清亮的不包含对项目全级分析及地图文档, 只专注于结构分析与查询的版本。通过查询依赖图谱和代码结构为 a 键,在开发过程中改动文件前提供精准的结构判断。一项就是这个视频的全部内容了,如果喜欢这个视频,欢迎点赞、投币、收藏。 上述 skill 的 开源地址和安装方式我会放到简介,如果希望获得更多关于提示词、 skills ai 编程相关内容的分享,欢迎关注我,我们下期再见。

万众期待的 smart 五没来, ip 四点六先来了,而且来的很猛。先说硬实力, ai 行业里几个公认的测试写代码, ip 四点六拿到了行业的最高分,那么如果你是做金融法律这类知识密集型的话,赢 g p t 五点二的概率大约是占了百分之七十。一句话,多项的核心指标,新的世界第一, 但跑分值表面真正牛的这两个东西。第一个, one million token 的 上下文窗口,一百万的 token, 用过 ai 的 都知道,对话异常的模型就开始上下文污染以及 memory 会丢失,前面说的东西后面已经记不住了,越往后聊会,越聊越差。那么 up 四点六在 一百万 token 的 大海捞针测试当中,得分是百分之七十六,而 so net 只有百分之十八点五,这不是量变,是质变, 它不只是能装下更多内容,还能真正的用好一些内容,不会读着读着就丢失或者污染。对所有人来讲,直接的影响就是 cloud code 在 自动压缩上下文之前,能干更多活,记性更好了。 第二个呢,是 agent teams, 这是 cloud code 的 新功能,你可以同时启动多个 agent, 让它们自己分工,自己协调并行干活。什么意思呢?以前是一个 agent 从头干到尾,现在可以一个团队同时唱,前端一个,后端一个测试一个各干各的 互相检查。那么 rockton 实测的数据非常夸张, up 四点六在一天内自主关闭了十三个 iso, 然后把十二个分配给正确的团队成员,管着五十个人,六个代码长库,他知道自己该干什么,什么该交给人。然后呢, iso 和 api 这边还加了一个比较特别的功能,叫 adaptive thinking。 什么意思呢?就是自适应思考,以前你只能选择深度推理打开或者关闭,现在模型可以自己判断,简单问题快速回答,复杂问题深度思考。 然后接下来就是定价啊,它的输入五美元,输出二十五美元,每百万套坑。所以 up 四点六意味着什么啊?一百万的上下文,它不会烂也不会旺,满了还能自动压缩,继续跑, agent 可以 主队并行。这三件事凑在一起,让 ai 可以 长时间自主的干活这件事啊,终于也算是从概念变成了现实。好了,可以更新你的可 out。


那我给大家快速介绍一下小工具啊。首先左边是一个终端的预览窗口,可以根据你的终端的背景颜色来选择暗色模式还是亮色模式。大家好呀,最近在用 codex, 发现无论是三幺 i 还是桌面 app 都有上下文窗口用量的展示, 但是呢, cloud code 里面就没有,每次我只能敲命令来看上下文的使用情况, 就非常的不方便。直到我发现 cloud code 有 一个功能叫 statusline, 可以 实时的展示当前绘画的一些关键信息。我研究了一下文档,发现整个 statusline 都是可以配置的, 你可以通过这个功能自定义 cloud code 的 底部的状态来。于是呢,我就想我就开发了一个小工具来帮我选择合适的展示形式和配色。那我给大家快速介绍一下小工具。首先左边是一个终端的预览窗口,可以根据你的终端的背景颜色来选择暗色模式还是亮色模式。那这里面会展示这样几个信息, 首先是模型,根据你当前用的是官方的账号还是 api 来展示不同的模型。后面是上下文窗口的使用情况,可以看到当前上下文窗口还有多少的空间,方便进行上下文的管理。 接下来这个部分是在当前的绘画中 token 的 输入和输出情况,这里是当前的目录,会显示两个层级。如果说你当前的目录有连接 get 仓库,这个是 get 仓库的分支和当前仓库的状态,大家看到所有的信息在右边都是可以配置的。 首先是进度条样式,我提供了六种样式供大家选择,比方说我选择这个渐变的样式,我提供了多套配色方案,比方说我选择这一套,这里可以配置你的目录前缀,然后是 top 的 显示格式, 最后可以选择 get 状态的一个展示好,当你选择完你的组合以后,点击这个按钮,就会把配置命令复制到剪贴板,回到终端,我们新开个窗口粘贴命令回车, 看到这个提示的时候就代表已经成功了。这个时候回到可乐扣的我们看一下配置已经成功了,目前我用的是 glm 五,然后这是当前的上下文窗口总结的 token 的 使用情况以及 get 状态和当前的文件夹。好了,今天就给大家分享到这里,大家拜拜。


去年十一月, ansorepic 发布了一系列新的测试版功能,只在解决我们在构建 ai 智能体时遇到的一些实际问题。 工具定义在你发送第一条消息之前就已经占用了大量的上下文。当智能体连续执行多个工具调用时,这些工具调用的中间结果会进一步膨胀上下文。 而且随着你在系统中增加工具的数量,智能体在为任务选择合适工具时会变得非常吃力。因此,这些测试版功能帮助解决了这些问题。而且随着两周前 sony 四点六的发布,这些功能已经在云 api 上全面开放。 在他们的原始帖子中,他们展示了这些功能如何帮助实现了八十五百分之的 token 使用量减少。 这也导致一些网友宣称 entropic 已经终结了工具调用,或者至少是传统的工具调用方式。虽然这种说法有些夸张而且确实不准确,但这两个功能编程是工具调用和工具搜索工具 确实是非常巧妙的解决方案,在集成到任何 ai 智能体中时都能发挥极高的效用。而且关键在于这些功能并不是云 api 独有的,也并非最初就是 entropic 的 创意。 这些是智能体构建的核心模式,适用于任何框架或模型。我会解释这两种高级工具调用如何运作,并演示如何集成到你的定制智能体中。 这正是我在这里所做的事情。我已经把它集成进了我的系统,这个系统是我用 python 和 react 定制开发的应用,这是我在本频道过去四期视频中逐步搭建出来的。 我还用全新的困三点五,拥有二百七十亿参数的模型来测试这些高级工具调用方法。所以与其直接跳进理论部分,不如我们在应用里演示一下。 而最简单的切入点大概就是先演示一下工具搜索工具。所以即使只是打个招呼,我们也能收到一个简短的回复。但在底部,你可以看到我们正在追踪本次绘画的上下文窗口。 我们已经用了一万三千个 token, 为了弄清楚发生了什么,如果我们切换到 langfuse, 如果我们看一下这个生成追踪,你会发现已经有六十个不同的工具被加载到上下文中了。 虽然听起来很多,但实际上只有两个 mcp, 就是 playrite mcp 和 github mcp, 再加上一些我在前几期节目中开发的工具。 所以工具搜索工具的关键点在于你不会一开始就加载所有内容。你会延迟加载让代理去搜索他,所以他会多出一个额外的步骤。现在我会把这些 m c p 服务器标记为延迟加载,然后让我重启一下服务器。 如果我再次问同样的问题,比如我们打开一个新的聊天窗口,输入 hello, 然后得到一个回复,你可以看到我们现在只用了六千三百个 tokens。 如果我们看一下这个追踪,你会发现现在只有十二个工具被加载到上下文中。第十二个就是这个工具搜索工具。 这个工具允许代理在工具注册表中搜索,通过名称或关键词来发现并加载工具。为了演示工具搜索的实际效果,我们让他获取这个项目的最新提交。这是一个私有项目,所以他需要使用 m c p。 你 可以看到他现在正在触发工具搜索。他找到了一个工具, 就是 list commits 工具,然后他用仓库的信息触发了这个工具。好了,我们得到了提交 id 以及提交内容的信息。 如果我们查看这次工具搜索的响应,你会发现 listcommits 是 一个延迟加载的 mcp 工具,它会把这个工具的完整模式加载到上下文中。 现在这个工具已经被加载到接下来对话的上下文中了。所以如果我再问任何后续问题,就不需要再去搜索这个工具了。比如说给我最后一个提交,我就可以直接使用 listcommits 工具。 如果我们切换到 langfuse, 在 我发送的第一条消息中,你可以看到只有十二个可用工具。然后在它触发工具注册表搜索后, 在下一次调用中,我们有了十三个工具,包括 list commits, 并且它能够对此作出响应。而在我后续的问题中,我们同样有十三个可用工具。 简而言之,这就是工具搜索实际的工作方式。虽然这已经非常有用,但我认为以编程方式调用工具更加令人印象深刻。如果我们开启一个新的聊天,现在我们在 opodder 上使用的是 cloud hikou, 我 一会会切换到 queen 三点五。但我想先给大家展示一下云端模型和开源模型在这里是如何工作的。为此,我们将使用 anthropic 在 其文章中发布的官方示意。 这里他给出了一个预算合规检查的例子。然后问题是哪些团队成员超出了他们第三季度的差旅预算? 这里有三个可用工具,分别是获取团队成员,获取支出和按级别获取预算。他在这里展示了传统的方法,也就是需要大量的工具调用和许多中间响应,这会导致上下文窗口被迅速填满, 所以我已经写好了云端代码来生成这个场景的虚拟数据。首先我们来看一下传统的做法,我已经关闭了沙河,现在我来提问哪些团队成员超出了他们第三季度的差旅预算。 正如我之前提到的,我们现在用的是嗨酷模型,所以他正在执行工具搜索,获取报销数据,获取团队成员。现在他正按照这种传统方式操作,需要为每一位成员逐一获取报销信息, 让我们看看会得到什么答案。所以第三季度差旅预算分析显示,有三个人超出了他们的差旅预算,这是他给出的结果。 根据测试数据,这个答案是正确的,但实际上应该有四个人,所以他似乎漏掉了一个。 marcus johnson 超出了预算一千七百, 所以这种传统方法实际上消耗了大量的工具调用。实际上有五十六次工具调用。正如你在这里看到的, 它处理了七万六千个 tokens, 但实际上并没有给出一个准确或者说全面的答案。这正是程序化工具调用能够解决的问题,因为所有这些其实都可以通过脚本自动完成。 因为一旦你知道了团队成员和预算水平,你就可以用一个负循环来获取每个用户的开销,并计算实际的超支情况。 那么现在让我们起用沙盒,并尝试用程序化工具调用来实现。好的沙盒已经开启,让我们重启后端,打开一个新的聊天窗口。好的哪些团队成员超出了他们第三季度的差旅预算?现在正在进行工具搜索。他找到了所需的三个工具。 现在他进入了编程模式,并创建了一个即将被执行的脚本。他抛出了一个错误。这其实并不奇怪,因为他并不知道这些工具的输出结构。所以本质上,如果没有所有信息,他就无法一次性完成。 现在他正在不断迭代自己的代码,实际上是在尝试得到一个结果。你可以看到他不断抛出错误,并且正在逐步解决。 与 anthropomorphic 的 论文相比,这可能是更贴近现实的程序化工具调用方式。因为我相信在 anthropomorphic 的 论文中,它是一次性完成的,而实际上并不会这样。经过多次迭代后,我们得到了一个准确的答案, 所以二千二百, sarah, chen, marcus, alex, emily。 所以 我们得到了所有正确的答案。 这很好,但这才是程序化工具调用的现实。它的方法相当迭代,就像 cloud code 或 open code 一 样。出于兴趣,我们再运行一次,看看能不能得到正确的答案。它会不会走一条不同的路径。我们假设是的, 很有趣。这一次它实际上是在预算层面获取团队成员的信息,所以它实际上是先获取所需的数据,然后再生成代码。所以这次它可能一次性就能完成。 但实际上他并没有做到,他仍然在自我迭代。不过我们确实得到了正确的答案,所以结果是对的,每一次都是如此,只是到达结果的路径不同。所以我们来看看这两条追踪记录。在我刚才运行的那一次中,总共进行了六轮调用, 总共调用了十二次工具,总提示词数为五万八千。现在如果我继续这个对话,目前只用了一万三千,但这是在与大语言模型进行了六轮来回交互的情况下。而之前那一次是在十一轮中用了十一万六千个 prof tokens, 都是为了得到正确的答案, 所以我确实没有看到 anthrax 所报告的八十五百分之的 token 节省。但这其实非常依赖具体的用力。 比如说这里我是在和二十个团队成员一起工作的,如果你有两千个团队成员,那情况就完全不同了,因为大圆模型需要运行两千次单独的调用,这根本行不通, 所以在那种情况下,就需要程序化的工具调用。或者你就需要一个真正的端点,让实际的数据处理在服务器端完成,而你只是获取信息并将其展示给用户。所以这其实切中了这个话题的核心。 也就是说,你的大圆模型到底应该像这样临时进行数据处理,还是应该仅仅从一个预先创建的脚本中传递信息? 比如说这个脚本可以放在一个技能文件夹里,因为这是我们在上一个视频中搭建的一个完整的技能部分。你可以有一个 python 文件,一旦创建测试并验证后,它就能真正完成这项工作,或者你也可以把它放在工具调用的 m c p 端,这样它就只是简单地传递接收到的信息。 那么我们把 cloud haiku 换成 queen 三点五二十七亿参数,来看看它的实际表现如何。我现在是在网络上运行这个模型,这里用的是欧拉玛,我有一个十万个上下文窗口长度,这里用的是 rtx 五零九零,显卡有三十二 gb 的 显存。 那么我们保存一下,重启服务器,然后问同样的问题,哪些团队成员超出了他们第三季度的差旅预算?现在加载需要一点时间,因为他需要把模型加载到内存中。好了,他已经触发了工具搜索,然后直接开始生成代码。 他实际上在工具调用之间没有输出文本,但你可以看到他正在生成代码本身,而且他正在经历和嗨酷一样的迭代过程,他正在从错误中学习, 并且在不断完善。看看,这就是我们的答案。让我看看二二百十五十七,还有三百,看起来很准确,我觉得这比嗨酷用的 tokens 更少,这很酷,我们来深入看看追踪记录吧。 是的,这次用了四万五千个 tokens 就 得到了准确的回应,这真的很棒,只用了四次工具调用,这已经相当不错了。这是我们 ai builder 系列的第五个视频。在这个系列中,我们正在用云端代码构建一个功能完善的 ai 系统。 本模块的 prd 可以 在我们的公共 github 仓库中获取完整的课程和代码库则在我们的社区中提供 相关链接在下方描述中。那么好吧,这一切到底是如何运作的呢?因为你可以看到我们正在这里的沙箱中触发代码执行,但这实际上意味着什么呢?所以这是一个完全本地化的系统。 我之前用的是嗨酷配合 open router, 但现在用的是 queen 三点五,这里内置了一些文档和 r a g 功能,使用的是 queen 三的嵌入模型。所以你看到的这个代码执行其实是在 docker 中触发了一个沙箱。你可以看到 现在所有这些容器都已经启动了。这里有一些孤立的容器是因为我一直在重启后端。但总体来说,代码执行都是在这里的一个隔离沙箱中进行的。 而这个架构安全性的一个关键部分就是工具桥的概念。所以从头到尾,当用户提出问题时,他会先到 fast api, 然后到 python, 接着再转发到 ai 模型。无论是远程还是本地的, 我们会收到一个工具调用,也就是你需要去执行这段 python 代码,这时后端就会启动一个沙箱容器。 我在上一个视频里已经介绍过这个的设置过程,但本质上我们用的是这个 github 仓库,也就是 llm sandbox。 这是一个非常清亮即可移植的沙箱环境,你可以配合 docker 这样的工具使用。或者如果你不用 docker, 也可以用 portman。 但本质上,这大大简化了启动这些环境的复杂性。 它们支持多种语言,还有许多不同的高级功能。你可以预先启动容器,而不是按需启动。 你也可以使用自定义镜像。这个项目里有很多很棒的功能,所以我会在描述区留下相关链接。我在上一个视频里已经非常详细的讲解过了,所以基本上我们就触发了那个容器的创建, 然后我们会把代码和一个绘画 id 一 起传递进去。所以现在在这个容器里,我们有一个 python 运行器,它会执行那段代码。在我们之前的例子中,有很多不同的工具需要被触发,比如获取预算水平、获取部门、获取团队成员, 而所有这些都可以存在于比如说一个外部系统中,但我们并不希望让沙乡访问外部服务。 相反,我们创建了一个安全的工具桥梁连接回 python 应用程序,然后每当工具或函数在 python 脚本中被触发时,都必须通过这个桥梁。正如你之前看到的,单个脚本中可能会有五十次不同的 api 调用或工具调用, 所以对于每一次工具调用都需要通过这个桥梁,它会使用绘画 id 来进行身份验证, 然后 python 应用程序会将该调用路由到外部系统获取响应后再将其发送回沙乡。因此,除了访问这个 python 应用程序中的 fast api 之外,沙乡没有任何互联网访问权限。从安全角度来看,你可以对这个 fast api 进行严格限制, 这些限制是基于工具本身的精确模式,所以所有这些工具片段、工具定义都是在创建时作为存根发送到沙箱中的。因此,多个工具调用会在 python 代码中,比如说在一个 for 循环内进行, 而且这样做速度非常快,因为此时你完全忽略了 l l m 没有任何中间代码堵塞上下纹。在这里, l l m 完全不参与这个过程,直到 l l m 完成脚本并生成响应。你在之前的演示中已经看到了, 然后这个响应看起来大致是这样的,这就是我们的脚本结果,然后这个结果会被反馈给 l l m。 l l m 接着可以决定下一步该做什么。 如果它已经获得了所有需要的信息,就可以生成综合响应并返回给用户。或者正如你在演示中看到的,它需要对代码本身进行迭代。在很多情况下,它会生成更多的代码,并再次触发沙盒环境。 这就是端到端的流程。我在这里提到了 gviser, 因为 docker 容器并不是你能拥有的最安全的隔离沙盒,因为它们与整个系统共享内核。 所以为了真正保障像 ram, sandbox 这样的安全性,我建议你搭配 gviser 一 起使用。 cloudflair 曾经做过一些有趣的研究,探讨了 ram 在 生成 python 代码或 type script 以及触发工具和 mcp 方面的有效性。他们发现,当工具以 type script api 的 形式呈现,而不是标准的 mcp 时,智能体能够处理更复杂的工具。 我认为这是有道理的,因为他们在训练时接触了大量原生的 python 和 javascript, 所以 在 cloudflared code mode 版本中,也就是我们所做的类似,他们会把 mcp 的 schema 转换成 type script, 因此 l l m 只是生成 type script 代码来触发 m c p。 这和我们正在做的事情非常相似。所以我刚才提到,工具存根被发送到沙盒中。因此,我们在智能体层面定义的 m c p 和工具会被转换成 python 存根 自动生成的 python 函数。这样,当 ai 为沙盒生成代码时,它实际上只是触发 python 函数, 而且因为这是原声 python, 所以 它在这方面会非常擅长。而且重要的是,沙盒永远不会接触到 api 凭证,它永远不会接触到任何机密信息或类似的内容。 我之前提到过需要高效的工具设计,因为在早期,有太多的 mcp 服务器完全塞满了你的上下文窗口,让你根本无法完成任何实际工作。 即使在 anspec 自己的文章中,他们试图解决的挑战也是关于臃肿的 mcp。 在 这里,他们提到 github 的 mcp 有 三十五个工具和两万六千个 tokens。 但即使是在这篇文章发布之后, github 也发布了他们 mcp 的 新版,现在这个数字大约是四千个 tokens。 所以 在 mcp 和工具调用端其实可以做很多工作来确保不会无谓的给你的上下文窗口增加负担。 最后, entropy 在 他们的高级工具调用工具包中还加入了另一个功能,就是关于工具使用视力的这个概念。因为虽然 jason schema 非常擅长定义结构,但它无法表达使用模式。 他们举了一个例子,比如说截止日期,它的数据类型是自复串。日期格式有很多种传递方式, 那么他们到底希望用哪种日期格式呢?除非你真的引导他,否则大圆模型是不会知道的。所以,通过工具使用势力,你可以为每个字段提供一个势力,以便让大圆模型朝着正确的方向前进。比如在这里,日期格式就是年月 日。在他们的测试中,他们发现这能将复杂参数处理的准确率从七十二百分之提升到九十百分之,这很合理,因为本质上这就是多轮提示。你只是给了一个你想要的视力,这绝对会引导模型朝着正确的方向。 实际上,我不确定你是否需要把这个设置成系统中完全独立的功能。我认为,使用技能这个概念意味着你可以在加载技能时提供视力,这样就可以触发你想要实现的任务的执行顺序。 你会发现 cloud 也有点类似,里面有很多功能是重叠的。 antropic 之所以没有取消工具调用,是因为他们认为你应该有策略力对这些功能进行分层。 所以,如果你的上下文因为工具定义工具搜索而变得臃肿,如果你有大量中间结果污染了上下文,那就走沙河路线。或者,如果 ai 总是把错误的值传递给参数,那么使用工具势利就是有意义的。非常感谢你的观看,我们下期再见。

cloud 的 一百万头梗上下文正式开放了,很多朋友在问,这到底有什么用呢?那么今天就从一个每天用 cloud code 写代码的开发者视角聊聊我的理解。先说一下问题,那么用 ai 写代码最大的痛点不是说他写的不好,而是他容易忘记。 比如说你跟他聊了很多龙之后,前面定好的架构决策讨论过的边界条件他全部都忘了, 那么因为上下文窗口就那么大,满了之后就会自动压缩,压缩就是有损的,就像把一份详细的会议基要压缩成几句话的摘要,那么信息在这个过程中必然会丢失。 一百万 token 本质上就是把这个工作记忆扩大了五倍。以前二十万 token 大 概可以放一万五千行代码一个小项目的量,但是现在一百万 token 大 约可以放七万五千行,中大型项目都可以基本完整的放进去。 对我们来说,最直观的变化是,我不再需要替 ai 来管理记忆了,以前得精心来设计哪些的时候需要去压缩上下文,什么时候该 clear 一下,重新开始 怎么分批去投喂信息,现在这些心智负担会大幅的减少。那么大家最关心的问题是,装得下这么多的东西,就意味着它可以快速的找得到这些东西吗?在 cloud 官方中有一个数据, 他们做了一个叫 m r c r 的 测试,在一百万 token 的 文本里面顶藏八条关键信息,看模型能不能全部找到。那么 opus 四点六的准确率是百分之七十八点三,上一代 solo 四点五只有百分之十八点五, 那么这不是说上下文变大了,但是变得笨了,而是上下文变大了,并且还变得更准。最后说一个很多人都关心的是, 就是它的费用有没有贵,那么我用的是 maxplus, 每个月一百美元的这样的一个费用,包含 cloud code 的 使用的额度,那么这次更新之后,一百万上下文自动开启,不需要加任何的配置,也没有额外的费用。 之前 api 用户超过二十万的话, token 要付双倍的价格,那么现在这个溢价也取消了。 总结下来就是一句话,一百万上下文不是一个你需要去刻意去用码的功能,他是让一个你不需要再去操心上下文够不够的保障, 当你需要的时候他在那里,当你不需要的时候他不碍事,这就是体验上的一个质变好的。那么本期视频就到这里了,关注我以后为大家带来更多的 ai 的 编码的教程,我们下期视频再见。

cloud mem 是 一个为 cloud code 构建的持久化内存压缩系统,它能够跨绘画自动保存上下文,让 cloud 在 绘画结束后仍然能够保持对项目的了解和记忆。 这意味着你的 ai 助手可以像人类一样记住之前的工作内容。 cloudmem 提供了强大的核心功能,持久化内存让上下文在绘画间存活。渐进式批录实现了分层记忆解锁并显示 token 成本。 基于技能的搜索让你可以用自然语言查询项目历史。还有 web 查看器界面可以实时查看内存流。 安装非常简单,在 cloud code 中输入插件市场,添加命令,然后安装插件并重启。 上下文将从之前的绘画自动出现在新绘画中。你也可以通过一条 curl 命令在 open cloud 网关上安装,实现持久化内存插件。 系统由六个核心组建,组成五个生命周期勾子,包括绘画开始、用户提示、提交工具使用后停止和绘画结束。 智能安装检查依赖工作进程服务,提供 http api 和 web 界面。 c h i 数据库存储绘画和观察记录搜索,既能支持自然语言查询, chroma 向量数据库实现语义搜索。 chromem 提供五个智能搜索工具,遵循 token 高效的三层工作流模式,首先使用搜索获取紧凑锁引,然后用时间轴获取感兴趣的按时间顺序的上下文, 最后通过获取观察详情,只提取已过滤 id 的 完整细节,这样可以节省约十倍的 token 消耗。 五个强大的 m c p 工具随时为你服务。搜索工具支持权威查询和类型日期项目过滤 时间轴工具,获取特定观察或查询的按时间顺序的上下文获取。观察工具,通过 id 批量获取完整详情。保存内存工具,手动存储重要信息,还有工作流文档始终对靠的。可见 系统还提供许多高级特性。隐私控制,可以使用私有标签排出敏感内容。上下文配置精细控制,注入内容自动操作,无需人工干预。饮用系统可以通过 id 饮用过去的观察。 bit 通道可以尝试无尽模式等实验性功能。还有详细的文档和故障排除指南。 cloud mem 让 cloud code 获得了持久化记忆能力。通过自动捕获工具使用观察和生成羽翼摘药,实现跨绘画的上下文保持。 安装简单,使用方便,功能强大。访问 github, 它 come 你 又来捡 maccloud mam 了解更多,让 ai 助手拥有真正持久的记忆。

终于来了, cloud 永久记忆插件上下文永不丢失。这期给大家分享一个 ds up 项目, cloud m m。 一个 cloud code 插件可以自动捕获 cloud 在 你的编码绘画期间所做的一切。使用 a a i 对 其进行压缩,并将相关的上下文注入到未来的绘画中。 通过自动捕获工具使用观察生成羽翼摘药,并使其可用于未来绘画。无缝保留跨绘画的上下文,这使科奥能够在绘画结束或重新连接后仍保持对项目的知识连续性。想要了解更多详情,评论区六六六。

cloud 四点六全面降临,百万上下文窗口不再是实验室数据。 ansorepic 昨晚直接开放全量公测,且取消了长文本附加费, 这波价格战直接把大模型推理成本打到了地板上。 ansorepic 官方宣布, opus 四点六和 sonnet 四点六现已支持 em contacts window, 最硬核的是所有上下文长度,适用统一费率, opus 每百万 token 仅二十五分之五美元,长文本附加费正式成为历史。聊完长文本,再看代码圈,科 sir 发布了新机准 cosbench, 专门测真实开发中的高效执行。虽然 cloudsonet 四点五在某些编码基础上表现出色,例如 suitebench 达到百分之七十七点二,但在其他评估如 artificial analysis intelligence index 中, 其分数可能低至三十七。这表明能跑通 demo 和能高效改代码完全是两回事。不仅如此,数学大神陶哲轩也下场了。 sir foundation 启动数学蒸馏赛,提供两千两百万道代数逻辑题,挑战者要把整个代数世界的知识浓缩进一张 a 纸,让弱模型实现推理能力的跨越式进化。与此同时,马斯克的 xi i i 正在推倒重来。 老马承认 x i i 早期架构没打好,现在从地基开始重造,目前以微软、克斯两位核心高管, 目标是年终让 rock 的 编程能力追平 cloud code 看完了文本,多模态领域也有大动作。谷歌地图上线 jammy 驱动的 esk maps, 你 可以直接问找个环境温馨、七点有位子的素食餐厅,它不仅能分析评论,甚至能帮你预定垂直旅行应用。这下真的选了! 硬件圈的老爷们注意了,聚深智能突破了!上海 ag 保特公司开发的 ag 保特 ag 保机器人,最近斩获了人形机器人行走距离最长的吉尼斯世界纪录,在三天内行走了一百零六点二八六公里。 小本中提到的 a、 w、 e 三点零和毫米级高密度触觉感知以及工业精密操作的吉尼斯记录,与阿杰波阿的成就并非直接关联,但巨深智能的潜力正不断显现,真正的数字员工要进场拧螺丝了。 算力基建方面,梅威斯完成 a 轮融资,这之前,华为北美高管团队正攻克兆瓦级 a、 d、 c 电源,单机柜功率飙升,传统 ups 已经带不动了, 八百微高压直流架构才是大模型工厂的终极答案。说到底, agent 没钱怎么行?前蚂蚁团队推出了 agent wallet, 现在你的龙虾 open 了,不仅能自己抢红包,还能自主购买 api 和算力 agent 亲戚的最后一块拼图终于焊死了。龙虾火了,安全成了大问题。三六零发布安全龙虾和龙虾卫视主打以魔之魔,通过虚拟化沙箱隔离运行环境, 一键安装缩短到十分钟。周鸿祎甚至亲自下场当工程师,帮用户部署最后同步一个行业动态。美国商务部撤回了此前拟议的 ai 芯片出口管制新规。值得注意的是, 部分高性能芯片的许可政策已于两千零二十六年一月十五日从踢定拒绝调整为竹案审查, 这对全球算力流动来说,无疑是个喘息的机会。从长文本价格战到 agent 自主支付,两千零二十六年的 ai 进化速度已经超出了所有人的预料,各位观众老爷,你是准备养一只会赚钱的龙虾,还是去挑战陶哲轩的数学赛?评论区见 level complete。
