智能体的未来是属于 skills 技能,而不是 m c p 工具,现在还在开发 m c p 工具,方宣 callin 的 赶快停下来。十月份 astropik, 也就是 cloud 他 们公司提出来的 agent 技能的一个概念, skills 的 概念。 一句话说清楚,就是给现在的智能体一个技能插件包,它的本质上就是一个文件夹,然后文件夹里面有分成不同的文件,就像一个内容一样,每一个内容下面有具体的 skills markdown 的 文件, 然后由智能体自己决定和动态的发现并加载它们的内容,使得智能体拥有这项技能,或者拥有调用这个工具的能力。它里面可以是你的提示词,可以是你的一些经验的流程,甚至一些脚本的势力, 或者你之前的 mcp 工具调用的方式。它可以直接在代码沙盒里面直接进行 mcp 工具的调用, 这样它有两个好的点,首先它是动态的加载并发现它们,因为现在的大模型它是有上下文 token 限制窗口的,动态的加载和发现就能使它的性能提高非常多。第二个点,由于现在的大模型,它上下文越长的时候,它的性能是在急剧下降的。 现在大模型性能最好的上下文窗口就是全丢弃,让他只要达到了上下文窗口之后,把绝大部分甚至全部上下文直接丢弃掉,让他继续按照之前的一个任务继续的执行, 让它重新去加载它的能力,重新去加载它的上下文,这样才是它性能最好的时候,不是什么总结,不是什么招标,也不是什么 ace 步骤整理的方式,大道至简,直接全部丢弃又重新来,性能是最高的。 然后我们来详细看一下这篇文章。这是 luncheon 他 们团队发的,他们 v 一 点零之后发了一个 deepance 的 一个深度智能体框架, 然后这个智能体框架其实跟 cloud code, 像 minus 这些差不多,只不过它是一个属于框架,可以高度定制化,也是支持 cloud elastic 他 们提出来的 skills 这样的一个思想,或者这样的方式。 他们提出来之前的,比如说 cloud code 用 mcp 或者用 function calling 的 方式,或者 minus 他 们使用这种方式的时候,是没办法使用超多的工具的,因为这些工具在每一次加载的时候,是把它全部的 工具提示词全部加载到上下文中。所以说他的 token 消耗非常的大,性能下降不说,就是你加载过多了之后, 系统提示词加上工具 token 消耗了一半的 token, 那 你真实拿来执行工作的 token 窗口就只剩下一点点了,那必然性能就下降了很多。然后他们就提出怎么样才能让少量的工具就能完成任务, 它就是 cloud 他 们提出来的这个方法。 skills, 每一个 skills 的 文件它都是有一个格式化的,第一个方式就是它的一个招标前沿,这个文件的内容大致是什么,这里才是会全部加载到上下文中的。 然后这里面就是具体的一些内容或者脚本,甚至它还会给出其他的一些引用,比如说其他文件的详细解答的一些文件的引用,当智能体它需要详细的解答的时候,它又会自动地去 抓取这些文件,进行自动加载到上下文中,这样他的技能和上下文就是动态的,他在完成这个任务的时候,他自己去探索和收集他的上下文,来达到最好的效果。然后他就说了一下,这个方式有两个最大的优势。首先 token 效率,令牌的效率会非常高,因为他只加载前置版本,后面的所有内容由大模型 智能体自己去动态的决定是否要加载。第二个点就是降低了认知负荷,因为你的上下文长了,它性能会下降。还有就是这些工具的提示词,你写的不复杂,你调用起来性能就低,如果你写的复杂,你多个工具的时候,中间可能会有一些混淆, 性能又下降了,它就是两个自相矛盾的点,它的第三个点其实才是我认为最最重要的点,因为这个 skill 方式它不仅能减少 token 的 使用,而且它是能达到持续的学习。 当有新的任务的时候,它可以及时或者你完成了这个任务,你直接用用代码杀核的方式,你直接用这种脚本 执行,完成了之后你可以新建这个技能文档,当下一次有类似的任务的时候,你又可以去探索之前这个技能,就可以附用之前的这个技能,这样做起来就不重,因为它只是一个文档而已,不像之前的 m c p 工具,你要去专门去编码,你要专门去开发一个 m c p 工具, 这样的话他就非常轻,他只要写成一个文档就可以了,他文档保存下来就相当于就是一个新的工具了,下一次这个智能体直接去读取你之前已经运行成功的代码脚本,然后他再附用就行了, 这样的话各个智能体之间又能共享,而且他才能持续的进步,学习进化。这也就是为什么现在的他的代码能力非常强, 会越来越强。后面可能真的完全不需要什么,你专门给他预定义好 m c p 工具,你只需要把你调用这些工具的一些脚本 尺例放在文档中,让他自己去找,自己去写代码调用就完成了。我们自己也有一个数据分析的智能体,我发现最近看了这个 x r o p 的 一些研究,发现 真的大到质检未来全部都会换成沙盒执行的方式,而不是之前的芳薰 callin 的 方式。 后面就没有什么了,就是它在讲它的一个这个开源的智能体框架。这个智能体框架其实跟那个 cloud code 是 差不多的,只不过它更适合定制开发,但是我感觉它不太适合 sars 服务,更适合这种本地化的 开源助手,可以使用本地的一些文件系统,这个会比较方便。这个 deepedge 自己做定制,相当于你自己可以构建一个 cloud code。
粉丝9744获赞11.6万

今天刚刚刷到一个新闻, openai 它们的 gps 有 一个 data analytics 的 一个分析工具,然后和它的 codex 命令行的代码编码助手工具, 它们悄悄地都支持了 skills。 skills 是 最近 esoteric, 也就是 cloud 它们母公司 cloud code 它们支持的一个功能 或者叫工具,它主要的意思就是它会将所有的一些知识库文档,它会把它整理到一个文件夹下面,它文件夹会分成非常多的文件夹进行命名,在里面具体的文件夹下再写上这种 markdown 的 格式, 这些文档里面你就可以去存一些你的技能,你应该怎么样调用,存一些知识库或者存你的工作流描述都是可以的。 这样的话,这些智能体使用的时候,它就不需要加载很多工具,也不需要加载很多预构建的上下文,它可以自动动态的去加载它的上下文,它自己去发现上下文加载到它的上下文中再去完成任务,这样的话它的性能会提高的同时,而且它的脱口令消耗也会下降很多。 最有意思的就是 openai 悄悄地也支持了 skills, 而且国内的有一个代码助手也是最近也是支持了 skills, 因为 skills 它是一个非常轻便的知识库,可以这样说明,让大模型或者说让这些智能体它自己去加载,去动态地加载上下文。 最近这个技能框架已经悄悄地成为了行业标准,隐隐有一种取代 m c p 工具的一个趋势,因为这些 m c p 工具你可以把它写到 skills 里面,让这些大模型去执行这种代码沙盒来调用 m c p 工具 也可以,甚至这些 m c p 工具所有都不需要。 m c p 工具说白了它还是一个一段代码,你直接把这段代码放在它的 markdown 的 文件里面,作为视例参考,让这些大模型去发现了之后去附用这些代码就可以了。 这样的话它有一个特别大的好处,就是它非常的轻便,你在做能力或者技能扩展的时候会非常的方便,因为你 m c p 还是需要你人去自定义,自己去开发。但是这些 skills 只要智能体执行了之后,你 skills 或者说它的系统提示词里面,你给它写一句,只要你执行完成,你觉得是 ok 的, 用户觉得是 ok 的, 你就把这样的内容,你执行的整个过程或者代码去保存到一个新的 skills 里面,能力里面,下一次你进行执行的时候,哦,它就可以自动加载上一次成功的经验, 这样的话就能达到非常动态而且轻便的扩展能力的功能。这也是我们有一个智能体,未来可能都会改成这种方式,可能都不会再使用 find calling mcp 工具,调用的方式可能全部都只给他一个工具,就是 ko 的 沙盒还有 skills。

tiktok 上最近出现了一个非常火的项目, agent skills for contest engineering, 发布不到一周就斩获了二点三 k stars。 为什么它能瞬间引爆社区?今天我们深入来聊聊这个项目。你可能有过这样的经历,用 ai 编程时,明明给了足够的上下文,可 ai 要么答非所问,要么被永长的历史信息绕晕。最近 github 上的一个项目或许能解决这个痛点。 这个叫用于上下文工程的智能体技能的项目,发布不到一周就拿下了二点三 k 星。为什么他能这么火?我们从二零二五年末的技术背景说起, 这些年大厂白皮书里反复提到上下文工程,但对每天敲代码的开发者来说,那些理论太飘了。 我们需要的不是什么是上下文的论文,而是能直接用到 cloud code 里的工具。这个项目恰恰填补了这个空白,它把灰色的上下文管理策略打包成十个即插即用的智能体技能,借助 cloud 的 自动加载和触发机制, 让 ai 终于能像资深工程师一样自己管理内存。这就是一套上下文工程的最佳实践工具库。怎么理解它的核心逻辑?项目把上下文拆解成五个部分, 系统指令、工具定义、查找文档、消息、历史和工具输出。其中工具输出是最拖后腿的。研究显示,原始工具返回结果往往占了上下文百分之八十以上的体积,就像你电脑开了太多网页导致卡顿。 ai 的 上下文也有注意力,预算 一旦超支,性能就会下降。项目提出的渐进式路由策略就是解决这个问题的关键。初始状态下,智能体只读取所有技能的名称和简短描述,就像你手机桌面只显示常用 app 图标。 当你输入 prompt 后,智能体会自动进行语义匹配,找到相关能力,再加载详细内容。这跟操作系统的液交换机制很像,确保模型始终处理最相关的高信号信息。 你可能听说过 ai 的 迷失在中间现象,当信息放在上下文中间位置时,召回准确率比两端低百分之十到百分之四十。 除了这个,长对话里还会出现上下文中毒、干扰、混淆、冲突等问题。比如你先问 ai 怎么写 python 爬虫,再问怎么优化 java 性能。旧的爬虫信息可能干扰 ai 对 java 问题的回答。项目里提到的压缩优化技术能帮我们解决这些问题。 比如观察掩码技术,读取原文后提取核心结论,把原文从上下文里替换成引用 id, 这样上下文体积能骤降百分之九十。就像你把厚厚的参考手册换成一张锁影卡,需要时再去查详情。还有铆钉、叠带、摘药技术, 维护结构化的状态快,包括绘画意图、状态清单、决策记录和下一步行动向,让 ai 始终记得对话的核心目标。在多智能体协助场景里,上下文隔离很重要。比如一个项目分三个智能体, 写前端的,写后端的,做测试的。如果写前端的智能体看到后端的代码细节,可能反而会影响它的工作效率。 项目建议,每个子智能体只关心自己的任务,拥有专用工具,减少后选工具数量,实现故障阻断。 就像工厂里的流水线,每个工位只做自己的事,互不干扰。记忆系统也是上下文工程的重要部分。传统的向量检索有个时态盲区,它能找到相关的知识,但不知道这些知识的时间顺序。比如, ai 可能会把二零二三年的旧技术和二零二五年的新技术混在一起。 项目里提到的时态知识图谱就是给知识加上时间戳,让 ai 能区分旧方法和新进展。在工具设计方面,项目提出了一个反直觉的建议, 不要为每个细小功能写一个工具,而是把高度藕合的步骤合并。比如,你要做读取文件加分析代码加生成报告,与其写三个工具,不如合并成一个,这样能减少工具调用次数,提升效率。 项目还建立了完整的评估体系。智能体性能的百分之九十五变异由三个因素决定, token 使用量占百分之八十,工具调用次数占百分之十,模型本身选择占百分之五。这意味着优化上下文比换模型更能提升性能。 最后,项目给出了从 demo 到生产环境的五阶段流水线方法论。第一阶段,先用人肉方式跑通流程,再写代码。第二阶段,利用文件系统作为状态机,管理任务进度。这跟软件开发的最小可行产品思路类似,先验证流程可行,再投入开发。 通过这个项目,我们能看到,智能体开发已经进入了系统工程时代。以前我们可能只关注模型本身,现在发现,上下文工程才是构建确定性系统的关键。就像造房子,模型是地基,上下文工程就是框架, 没有好的框架,再好的地基也建不起高楼。这个项目的意义在于,它把抽象的上下文工程理论变成了开发者能直接用的工具,让更多人能用上高质量的智能体。说到这里,你可能会想, 以后 ai 会不会自己变得越来越会管理自己?我们会不会不再需要花太多时间调整 prompt? 这些问题或许会在未来的技术发展中找到答案。好了,今天的内容就聊到这里了,如果你有什么想法,欢迎在评论区交流,我们下期再见。



hello, 大家好,今天我们来深度分析下 cloud skills 的 原理。你可能在各类 ai 工具里见过插件工具调用这类功能,但 cloud 的 skills 和它们不一样,它没有用代码直接外挂功能, 而是用了一种特别聪明的方式,在需要时给大模型临时装脑子。这到底是怎么回事? 为什么说它是基于第一性原理的设计?今天我们就一步步拆开来看。首先得明确 cloud 的 skills 本质是什么。 传统的 ai 工具调用,比如你让 gpt 调用计算器,它是真的给外部计算器发了个请求,计算器算完结果再传回来,中间有个外部代码运行的环节。 但 cloud 的 skills 不 一样,它其实是一份 mockton 格式的专家手册,当你调用某个 skill, 比如处理 pdf 的 功能,系统不会去运行手册里的任何代码, 而是把这本手册里的所有指令、工作流甚至专业知识 完整的塞进 cloud 当前的对话。上下文理。就像你问一个普通人数学题,他不会,但你瞬间给他植入了一套高中数学的完整知识点和解析流程,他立刻就能像数学老师一样给你解析 skill。 不 直接做事, 他让 cloud 的 自己变专家去做事。接下来是架构层面,为什么叫圆工具与纯大模型推理? 你想,如果把所有 skill 的 指令都预先塞进 cloud 的 提示词里,那上下文窗口早就爆了。因为每个 skill 的 手册可能有几千字,所以 cloud 的 设计很巧妙,它只有一个叫 scale 的 圆工具, 相当于一个技能目录 glot, 平时只能看到这个目录里所有 skill 的 名称和一句话简介,比如 pdf 处理,帮你分析提取 pdf 内容。 当你提需求时,比如帮我分析这个 pdf 里的核心观点, glot 完全靠自己的语言理解能力,从目录里匹配到最适合的技能, 没有任何硬编码的规则,也没有正则表达式分类器这类中间环节。整个决策过程就是大模型自身的前向传播运算。这种设计的好处是完全靠大模型的理解能力,不需要额外的工程逻辑,扩展性极强。 然后是最核心的机制,双重上下文注入。这里解决了两个矛盾,一是技能手册那么长,直接发给用户会刷屏,体验很差。二是手册必须让 closed 完整看到才能生效。 所以系统用了双通道消息显性通道给用户看。比如正在加载 pdf 处理技能,让你知道进度。隐性通道是给 cloud 的, 带着 excel 出标记,里面是 pdf 处理 skill 的 完整手册, 可能几千字的工作流和专业知识,这些内容会进入 cloud 的 短期记忆,但在你能看到的界面上完全隐藏。 除了文字注入 scale 还能动态改环境,比如临时给 clue 开权限,让它能调用 bash 里的 pdf 处理工具。或者某些 skill 能直接切换更适合的模型版本, 比如从 cloud 三 haikou 切到 opus, 这些都不需要你反复确认,系统会自动处理。那整个运作流程是什么样的?用一个场景来类比,你说帮我分析这份产品说明书的 pdf。 第一步,大模型,看到员工距离的 pdf 技能简介,判断这个需求匹配决定调用。 第二步,系统接入读取 pdf skill 的 完整 mockdown 文件。第三步,系统给你发一条显性消息,正在加载 pdf 处理技能,同时给大模型发一条隐藏的隐性消息。现在你是 pdf 处理专家, 你的工作流是,一、先调用工具把 pdf 转成文本。二、提取结构、目录章节。三、梳理核心观点。四、用简洁语言总结。 第四步,系统临时给大模型开权限,允许调用 pdf 处理工具。第五步,大模型带着这些新注入的记忆核心权限,开始调用工具处理 pdf, 然后给你输出结果。 整个过程就像动态加载领域,大脑,原本只会聊天的 cloud, 瞬间变成了 pdf 分 析专家。说到这里,你可能会问, 这和其他 ai 的 工具调用有什么本质区别?我们拿 gpt 的 tocolin 来对比, gpt 是 外接工具,大模型只是个调度员,告诉外部工具你去算这个,你去查那个,结果回来再整理。 而 cloud 的 skill 是 内化知识,大模型自己变成了专家,工具只是它可用的手脚。举个更形象的例子,假设你想让 ai 帮你修电脑, gbt 的 方式是,你说电脑开不了机。 gbt 先给你列几个可能的原因,然后告诉你,你去查电源有没有插好,你去拆开机箱,看看内存条松没松,它是在给你指步骤, 但自己不会动手,也没有真正的修电脑知识。而 closed 的 skill 方式是,你说电脑开不了机, 系统给他植入了完整的电脑维修知识库和操作流程,他瞬间变成电脑维修工程师,不仅能给你指步骤,还能告诉你内存调松的话,会出现什么报错,怎么检测电源是不是坏了。 他自己懂,维修工具只是辅助他操作的手段。这种设计的优势在哪?首先是扩展性强,因为每个 skill 都是独立的 macd 文件,要加新功能, 只需要写一本新的专家手册,不需要改大模型的代码或者重新训练,也不会影响其他功能。其次是一致性,所有的决策和处理都在大模型内部完成,不会出现调度逻辑和模型理解脱节的问题。 当然,它也有局限性,客观冷静。比如如果 scale 的 手册写得不好,大模型的处理效果也会差。而且因为要把手册塞进上下文, 所以 dango skill 大 小还是受限于上下文窗口的长度。那这种设计为什么能成立?核心是利用了大模型的上下文学习能力,就是你给大模型一段视力或者指令,它不用专门训练,就能立刻按照这个要求去做。 ecropic cloud 的 开发公司在二零二三年就公开过一篇关于上下文学习的论文,里面提到 cloud 三系列的上下文窗口最长可以到两百万 toc, 相当于一百五十万字的文本,这给 skill 的 设计提供了基础,足够大的窗口能装下完整的专家手册。 最后总结一下 closed 智能体技能的第一性原理就是基于大模型的上下文学习能力,用圆工具和双重上下文注入的方式,把静态的专家手册转化为大模型的动态零食 记忆,让大模型自己变专家去解决问题,而不是依赖外部代码运行。它没有创造新的程序执行方式,而是极其巧妙地利用了现有大模型的能力,实现了功能的无限扩展和按需加载。 说到这里,你可能会思考未来的 ai 工具会不会越来越多的用这种内化知识的方式,而不是外接工具。 毕竟外界工具总免不了沟通成本,而内化知识能让 ai 更像一个全才,但同时这种方式对大模型的上下文能力和理解能力要求更高,不是所有大模型都能做到。 这可能也是 ai 智能体发展的一个方向,从工具集合变成可动态升级的专家大脑。 好了,今天的内容就聊到这里,你觉得未来的 ai 会更倾向于外接工具还是内化知识?欢迎在评论区留下你的看法,我们下期再见。

ai 早报二零二五年十二月三十一日星期三一、英伟达发布 nanometron 三系列开源模型,只在为跨行业开发透明、可扩展的多智能体系统提供支持。二、全国首笔巨深智能数据集 在江苏数据交易所完成交易,标志着数据驱动的 ai 发展进入要素市场化新阶段。 三、安全机构报告揭示二零二五年五大 ai 安全威胁,包括影子 ai、 供应链、投毒凭证窃取、提示词注入、极恶意 m c p 服务器。四、谷歌发布开源工具 a r u i 项目,使 ai 智能体能够根据对话上下文动态生成用户界面, 提升任务完成效率。五、中国碉石制行公司开源全球首个大规模真实世界巨深 v l t a 多模态数据级, 包含超过十万条人类操作视频,以加速机器人智能化。 six antropica 将其 ai 技能项目 skills 设立为开放标准,以实现工作流程在不同 ai 平台间的可移植性。 七、专家指出,随着 ai 智能体、浏览器等应用普及,因配置不当、恶意模仿和过度依赖导致的隐私与安全事件 在二零二五年显著增加。八、 linux 基金会宣布成立 organic ai 基金会,并将 model context protocol 等多个关键项目纳入其中,以推动智能体 ai 的 透明与协助发展。九、二零二五年,国产大模型加速 从数字空间迈向真实物理世界,在智能制造、自动驾驶,即通用人形机器人等领域开始实质性赋能。十、 open ai 为付费用户 发布代码优化版模型 gpt 五点 two, 并启动针对网络安全专业人士的新能力内测计划寄语,当智能体学会协助并生成界面, 当数据成为明码标价的燃料技术的竞赛已悄然蔓延至安全与生态的深水区。岁末回首,喧嚣与风险并存。 前瞻未来,唯有砥砺根基,方能驾驭浪潮。祝各位新年新视野!

大家好,今天我们来聊一个特别有意思的话题,是关于 ai agent 的, 你知道吗? entropic 公司最近提出了一个全新的思路,他们管这个叫技能 skills, 就 可能要彻底改变我们构建智能体的方式了。 所以接下来我们就从 entropic 官方的视角,还有一位顶尖技术分析师的深度解读,一起来看看这到底是怎么一回事。 好,那我们今天具体要聊下什么呢?首先,我们得搞明白这个技能到底是为了解决什么痛点。 然后呢,我们会看看 anthropic 拿出的具体方案是什么。接着,我们会引用一位技术专家西门威利森的分析,看看技能这个东西跟以前的技术比到底牛在哪儿。 再往后,我们会聊聊正在快速形成的技能生态。最后,我们会用一个特别形象的比喻来收尾,让你一下子就明白这个新概念的潜力有多大。 好,我们先来看看问题的根源在哪儿。我们都知道啊,现在的 ai agent 非常非常聪明,对吧?感觉什么都懂。但是 anthropic 的 人就指出了一个关键问题,就是纯粹的聪明和真正能解决问题的专业知识其实是两码事, 这两者之间有一道巨大的红沟。为了让大家更好地理解这个红沟, antropic 的 巴黎章就提出了一个特别地气的问题,他问,如果现在你要报税了,你会找谁来帮你办? 你看这个对比就非常有意思了。一边是马和氏,一个智商三百的天才,他能从最基本的原理出发搞定任何事情。另一边呢,是巴黎一个经验丰富的税务专家,他对二零二五年的税法了如指掌。 现在的 ai agent 其实更像是那个天才马和氏,理论上什么都能学,但真要办事儿,你心里可能还是会打鼓。而我们真正需要的,其实是像巴黎这样的专家,能稳定可靠地把事儿办好。所以你看这个专业知识鸿沟,就是 anthropic 的 技能想要解决的核心问题。 那问题来了, anthropoid 到底打算怎么把一个天才型的 ai 变成一个靠谱的专家呢?他们给出的答案说实话,简单到让人有点意外。我们来看看他们是怎么做的 这个解决方案。他们就叫技能 skill, 它的核心思想就是两个字,简单。 按照 antropic 自己的说法,一个技能说白了就是一个文件夹。对,你没听错,就是一个文件夹,里边装着一些指令脚本之类的文件。这种形式别说开发者了,就是我们普通人或者 ai 自己都能轻松创建和理解,几乎没什么门槛。 那么,这种简单的文件夹设计到底妙在哪里呢?这里面有个很聪明的机制, ans 把它叫做渐进式批录。 你想想看,大模型的上下文框是有限的,很宝贵的,如果把所有东西都塞进去,很快就满了。所以技能这个机制呢?他不这么赶。 ai agent 一 开始只看一个简单的技能介绍,也就是原数据占用的空间非常小, 只有当他判断出哎这个任务需要用到这个技能的时候,他才会去把整个文件夹里的详细内容加载进来用,这样一来,就极大地节省了宝贵的上下文空间。 就是这么一个看似简单的想法,却可能带来非常深的影响。著名的科技博主西门威利森就专门分析了这个事,他甚至提出了一个很大胆的问题,这个技能会不会比之前大家热议的那个模型上下文谐音也就是 m c p 还要重要的多? 我们来看看西蒙威利森的分析,他把技能和 m c p 放在一起做了个比较,这个差别简直是一目了然。 m c p 是 什么呢?它是一套非常正式、非常复杂的协议规范,涉及到主机、客户端、服务器等等一大堆东西。光是加载这些规范叫吃掉几万个 tock。 而技能呢,它就简单多了,本质上就是一堆 markdown 文件和脚本扔给模型,让模型自己去理解和执行,所以它特别清亮,特别省 tock。 你 看,一个复杂,一个简单,一个笨重,一个轻巧。 当然,光说不练假把式,西蒙威利森为了亲手试试,就用了 entropie 官方提供的一个视力技能。这个技能的功能很简单,就是帮你在 slack 里创建一个 gif 动图, 他还特意让 clode 用这个技能做一个技能比 m c p 酷多了的 gif。 结果怎么样呢?哈哈,用西蒙自己的话说,做出来的那个继父糟透了。但是注意了,这恰恰是技能这个思路最妙的地方。 为什么?因为一个技能就是一个文件夹,里面就是些文本、文件和脚本。所以当结果不好的时候,开发者可以非常直观地打开这个文件夹,看看是哪句指令写错了,还是哪个脚本有问题,然后直接修改迭代, 这个过程非常简单透明,正是因为这种创建、修改和分享都特别容易的特性,技能这个概念开始飞速发展。 这正好印证了 anthropic 的 愿景,也和西门威利森这样的观察家的预测不谋而合。 你敢信吗?根据 anthropic 官方的数据,才短短五个星期,社区里就已经涌现出了几千个技能。 他们把这些技能大致分成了三类,第一种是 antropic 自己做的基础技能,比如帮你编辑 word 文档或者 excel 表格。第二种是第三方技能,就是像 notion 这样的公司为自己的产品开发的技能。第三种也是潜力巨大的,就是企业技能, 公司可以把自己内部的工作流程和最佳实践封装成一个技能,让 ai 来执行。 这种惊人的增长速度,就是为什么西蒙微利神会用寒武纪大爆发这么一个词儿来形容它。预测跟当年 n c p 那 种不温不火的推广相比,既仍的简洁性会让它的普及速度快得多,应用范围也广得多,简直不是一个量级的 好。聊到这里,我们就要说到最后,也是我认为最有启发性的一个观点了。 astonopy 提出了一个非常棒的比喻,帮助我们理解这个全新的智能体架构。他们让我们回想一下个人电脑的发展史。 在这个比喻里,首先大语言模型,比如 cloud, 它本身就像是电脑里的那个中央处理器,就是 cpu, 它有超强的算力,潜力无限。但是光有一个 cpu, 你 是干不了什么事的,对吧? 然后呢?有了 cpu 还不够,你需要一个操作系统,比如 windows 或者 mac os。 在 ai agent 的 世界里,这个操作系统就是所谓的智能体,运行时它的工作就是管理和调度各种资源,让那个强大的矗立器,也就是大模型能够真正地运作起来。 最后最关键的一步来了,有了处理器和操作系统,你的电脑能用了,但真正让它变得无所不能的是什么?是各种各样的应用程序对不对?是 office, 是 photoshop, 是 各种游戏。那么在这个比喻里,技能扮演的就是应用程序的角色, 这才是真正释放 ai 潜力的地方。无数的开发者,甚至是不懂编程的普通用户,都可以把自己在某个领域的专业知识打包成一个技能 app, 去解决一个具体的真实世界的问题。 所以你看,整个思路的转变就在这里。我们不再是去追求打造一个什么都懂,什么都会的超级智能体,而是转向去构建一个由无数个技能组成的可以共享的专业知识生态系统,这完全改变了游戏规则。那么最后留给大家一个问题来思考, 如果说 ai 的 专业知识未来就是由一个一个共享文件夹组成的,那么你最想教会他的第一个技能会是什么呢?

今天给大家分享一个上海交大他们推出来的一个智能体框架,它主要是用 ai 去给 ai 写算法的,这个框架它是达到了开源界的第一,它用的也是 deep seek 的 模型,我们来看一下它的这个基准,它们用的是这个 ml 一 编程的一个基准,它主要是用这种大模型去写对应的 ai 算法, 然后去优化这些算法,使它的性能更加的好。整体来看它们的这个框架加上 deepseek 新的这个模型 v 三点二 special 这个版本,这个版本主要是重推理的模型,它应该是在推理上跟 gpt 五点二和 gemini 三 pro 应该是一个水平的, 可以看到它也是登顶了,而且比第二名的这个框架加比较强一点的 gmi 三 pro, 它们的整体的性能要高了六个百分点,总体的要高了六个百分点,这个还是非常强的一个提升了, 这也证明了它们这个框架的优越性和这个 deepsea 它这个模型的呃优越性。这个模型 special 版本它虽然只有一百二十八 k 的 上下文,但是它的推理输出就能达到一百二十八 k, 所以 说它是一个非常重推理的。 ok, 我 们来详细看一下他的这个项目和他的文章。我们先看一下他的项目,他一共推出来了是两个版本,一个版本,之前他也是说他的,但是时间长了之后他就被超越了。我们先来看一下他的这两个版本吧, 它其实一点零版本和二点零版本它提升非常大,但是它只是在工程上的提升,在整个框架和方法论上其实没有做太多的修改,其实最重要的就是它之前是使用 deepsea r one 模型,然后这一次它是使用的 deepsea special 这个重推理版本的一个模型,所以说它的性能也提升了。我们来详细看一下它的文章吧。 首先它也说了一下它们在什么样的一个基线下达到了什么样的一个标准。这个文章它是对一点零版本的,没有对二点零版本,因为二点零版本它只是一些工程上的更新,没有整体的框架,但是我们看一点零版本就可以了,它一点零版本只用了十二个小时的限制,它们二点零是用了二十四小时加 deepsafe 呃,新模型, 所以说达到的性能是比较高的。然后在之前的一点零版本它们也是达到了 soata, 而且是之前其他的一些框架的二十四小时限制的一半, 可以看出它这个性能还是非常不错啊。然后它就说了一下这个基准,或者说它们这个任务是什么样的一个任务,主要就是 ai, 对 ai 的 终极设想就是 ai 能自动优化 ai 的 算法,这个想法也是非常前沿的哈。 然后他就说了他们提出来的这个框架 m o l master, 这个框架主要有两个比较大的优化, 一个是多轨迹的探索,它其实是借鉴了那个蒙特卡罗的一个搜索术的一个方法,让他可以去探索非常多的一些路径和分支,最终得到一个最强的最优解。 第二个就是引导式推理,首先他在这种记忆的整理上有了非常大的一个创新,第二个点就是他其实把这些记忆直接塞到了这个模型的推理部分, 而不是放在这个系统提示词或者说用户提示词里面,这样的话它的整体的性能有了比较大的提升。因为最近很多模型或者说这种框架其实都在这上面做了非常多的优化,比如说 g a m 四点七它们的一些思维交错推理, 它们都是对这个做了非常大的优化的,很多都是保留了它推理的上下文的第二次继续进行推理,像 minx m 二 二点一,他也是有这样的一个功能,说明他们在推理的时候,其实推理的这个过程保留下来很重要。 ok, 他 们就说了一下,这样提升了非常多,提升了百分之三十,比之前的他们主要的这个贡献或者创新就是提出来了一个新的框架,然后获得了更好的效果, 主要就是他们还只用了十二个小时的限制,而且他们用了这种蒙拓卡罗的一个搜索术的方式来做的这种路径优化,而且它是有并行计算的。还有就是他们推理的时候是可控的,记忆也是可以自己调整的,并行进行处理。 ok, 主要的方法论就是跟蒙特卡罗的一个算法很相似,首先他会在一个根节点,就是能初步跑出结果的一个根节点,然后再去探索这里,比如说这里去优化他的一个超参数,这里去换一个模型,这里去增加一些 模型的,或者说增加一个模型,再做一下参数,或者说做一下这种参数优选,最终选出来一个比较好的,然后继续这样去做推理优化,而且它的记忆是包含它的胸节点和它的腹节点,它的一些操作以及它 在推理的过程中的一些摘药,它也会保留下来,得到这样的节点,得到这样的一个记忆了之后,再塞到这个模型的一个推理的部分里面,而不是直接塞到这个系统提示词或者用户的消息里面去,所以说它们有一个比较大的提升。 ok, 我 们就不讲那么详细,他这个就是典型的蒙托卡罗数的一个算法,去反向传播去增加他的一个权重。他们做这种子节点的优化的时候,主要分成三个,主要就是首先写出这个可以运行的一个最初的一个代码解,然后第二个就是调试 代码的一些错误。第三个就是通过进行一些调优或者说预处理,或者说模型优化,模型修改,然后得得到这样的一个动作。 接下来就是他们蒙托卡罗的一些反向传播和一些病情搜索,病情处理,他最最重要的就是这个可引导的推理,就相当于把这种记忆全部整理了之后,并不是全部的内容都直接放到下一次进行推理,而是 进行一些摘药之后放到这个推理的内容中,这样他也要求这些模型他必须是在 thinking, 这个步骤他是能被拆开的, 比如说这种开源模型你才能去动它的新品这个部分。但是像一些闭源模型你就没办法去动它的新品部分,你就只能放在比如说用户,用户消息或者系统提示词里面,你把你的记忆上下文塞进去。 但是像现在的一些闭源模型其实也可以换一种方式,我不知道他们有没有支持它的这个项目里,其实是支持到了 gpt 五,没详细去拆解它的项目,因为现在的很多推理它是可以在推理中调用工具的,其实可以给他一个提示词,在 工具中调用,在这推理中调用一个工具去获取之前的一些上下文其实也是可以的,相当于一个性质。只不过在推理的过程中必须要调用一下工具才能获取这个上下文的记忆, 其实也是相当于一样的东西。然后他就讨论了一下他们的这个方法的一些优势,这个就不说了,这个是之前一点零版本的,之前也给大家看了,他这个版本在低的时候已经达到了非常高的一个水平,在中等提升最高,然后在高等的时候也比第二名也是提升了百分之二点二的一个水平, 总体提升了百分之六,所以说他这个优越性还是非常强的。这后面就没有什么了,重点就是说了一下他们这个框架主要的一些优势, 就是他们蒙特卡罗的一个搜索术的这个算法,他会把探索和思考两个都进行综合的去测重,而不是光测重探索或者光测重推理思考。 而且最最重要的,我个人感觉他的性能的话,比其他的框架提升最多的应该就是在他记忆直接塞到推理过程中,这个部分应该是他最大的一个创新,也应该是他们性能提升最大的一个板块。

手把手的带着大家搭建一个 cos 智能体,核心是提示词在智能体当中的运用, 今天咱们来构建一个英文四六级口语练习这样的一个智能体啊,那么今天这个智能体呢,核心啊就是在于人设与回复逻辑啊,那么第一步我们需要构建的就是智能体的一个记录配置, 比如说他的介绍,他的名字,还有他的头像,对吗?第三个呢就是我们的开场白的文案啊,这个是给用户进行交互使用到的,所以说啊,咱们返回到扣子的官方平台啊,然后呢这里会看到有个头像,对吗? 这个头像我们点开它,然后点击扣子开发平台,点开它,然后在这里啊,这个页面可能会稍稍的有些变化了,因为前段时间扣子有一个页面上的更新啊,那么我们要创建智能体,首先要点击创建,当然了你是在你的个人空间啊, 点击创建,这里会有一个创建智能体,好直接点击它,那这个时候我们需要给他他一个智能体的名字,还有智能体的一个功能的介绍,这两个东西啊都是给用户看的,用户啊 还有下边的这个图标啊,我们需要改变一下,好吧,那么这里边啊,我就直接在这里复制过来,那智能体的名字啊,就叫做英文四六级口语专家,好把它复制过来,那么还有一个叫做智能体的功能的介绍啊, 那用户看到这个内容的时候,他知道啊,原来你这个东西到底有什么样的作用,也是给用户进行展示看的,那么这个时候呢,还需要用到一个图标啊,那这个图标直接点击它啊,点击这个小按钮啊,点开它,然后我们去找一下我们的 下载,然后这里边可以随便选一张图片啊,比如说选择这个,哦,不可以啊,这个错误,我再换一张图片打开, 嗯,这张图片应该没有问题啊,那么我再来试一下。好,这又上传了这张图片啊,很有意思啊,然后点击确认, 这样的话我们就进入到了智能体的编排页面了,对吗?那么今天咱们的核心内容啊, 有两趴,第一趴呢就是人社有回复逻辑,这里边我给大家去讲过,这里边放的啊,都是提示词,就是 prompt, 这个 prompt 是 给谁看呢?是给大模型看的。好,那用户未来在这里边发送的任何的信息,他的交互逻辑是什么样的呢? 发送的信息之后,哎,这个大模型看到这个信息了,然后结合这个提示词给我进行反馈,就这样一个逻辑啊,那么在这里大模型呢啊,我默认选择的就是豆包的一点五 pro 三十二 k 啊,那么你们也可以选择什么呢?往下去滑动鼠标啊,这里边有 deepsea 啊,那么如果说你们想测试的话,我建议大家去用这个 v 三啊,因为他没有那么强的深度思考能力,那基于我们现在这个,呃,英特斯六级口语专家啊,他不需要有很强的推理能力,所以说用到 v 三呢,他的速度会很快。好吧, 大家可以课后去测试一下。那么在这里啊,有一个人社与回复逻辑,这个东西,就是我说的 提示词啊,提示词,它就是指令给谁看到大模型,那大模型在这里咱们用到的不就是豆包 一点五 pro 三十二 k 吗?对吧?就是它啊, ok, 没问题。那么这个人寿回复逻辑啊,这套提示词我已经准备好了,然后啊,我给大家直接复制过来,复制过来之后啊,咱们看一下它的效果啊,这个内容会非常的多啊,然后内容非常多,来,我给大家先看一下, 这是我做的一些内设的内容啊,大家会看到又会有很多的英文的内容,也会有中文的一些步骤在里边啊,然后我在测试的过程当中,逐一的给大家去解释一下,这些东西为什么要这样去设置,因为体式词的设置啊,是非常重要的, 给大模型什么样的指令,大模型就能给你做什么样的精准的回复。好吧啊,不仅仅要有角色,有技能,还要有什么,应该还记得啊,大家应该还记得,往下滑,滑滑滑,滑到最后啊,这里边有一个东西叫做限制, 就是这个大模型,我不能让他什么都会干,那么这个智能体啊,只能是针对于英文口语练习,尤其是四六级的啊, 他能干这件事,其他的事不能让他去做好,那下边还会有一些什么东西呢?你看这里,这也是技能啊,技能里的步骤三,咱们今天的这个智能体啊,这套提示词里边总共有三套步骤,我们往上去看啊, 我们先看一下他的第一个步骤是什么啊?内容会非常多啊,这个是技能一出题啊,出题,这是有步骤一,然后看到这里啊,有个步骤二,好,再往下走,就是我们刚才看到的那个步骤三啊,然后所有的内容啊, 我们需要通过跟智能企进行交互的过程当中,让大家去理解这套题式词的作用啊。 好,那咱们复制过来之后啊,咱们就可以测试了,但是在测试之前啊,我说了,咱们还需要有一个开场白,这个开场白我记得我也给大家去讲过啊,那这个开场白是什么?咱们可以点开它,然后我直接把它复制过来, 然后大家应该记得啊,看,哎,嗯,我不这样去复制啊,这样去复制有问题啊?嗯, 我把它变一下先,我这样,我先把它复制出来,好拿出来啊,再重新复制。你们不要直接去复制啊,因为直接去复制的话,它是一种 markdown 格式的,所以说刚才我们看到的那种效果就不对了,哎,这是正常的展现的一种形式啊,然后 这个地方为什么加粗了,哎,因为我是点击它了啊,我们可以再试一下,点击它,然后再点击它,它就会加粗加速显示啊,那么我不需要加粗啊,那中间这个位置啊,我们还可以让它变化的更有意思一些,你可以点击啊,选中它,鼠标选中它之后啊,点击它, 你会看到他会有一个变化啊,看到,哎,有变化了,中间多了一个竖杠,那在这里啊,就会有展示了,对吧?所以说玩扣子啊,咱们玩的就是所见即所得,好吧, 这个东西啊,说白了就是一种交互信息,用户当登录到智能体之后啊,他就会看到这个东西的一个显示啊,你看这里还给用户一个很贴心的一个提示啊, start, soon 啊,马上开始,对吧?那么咱们 先不要看这套提示词,这套提示虽然很多啊,但是核心的就那么几趴东西。我们第一步啊,我们先来测试一下,其实我们这套智能机啊,就已经搭建完成了,核心是什么呢?核心是这套提示词给我们带来的这种交互感,以及我们通过这个啊, 英文四六级口语专家这个智能起来体会到怎么去使用这套提示词的,怎么去应用的。好吧,来,那在这里啊,我就直接做一个 啊,测试,那说了 start soon, 那 咱们就直接把它复制过来粘贴,直接发送,这个相当于啊,我们作为用户,比如说我现在是用户 a, 直接把它复制过来就可以了,然后直接回车发送, 你看这里边他就会有信息了。哎,这个信息为什么会反馈出来?好,咱们逐一的往下去看啊,这个是给用户的一个提醒,他需要输入这个触发的关键词。好,那接下来你看这里边有个技能, 对吧?这个技能再往上走,你看啊,这里边会有一个 start, 马上开始, 那这两爬东西是结合起来的啊,这套东西也会在我的提示词里边 start soon, 只要他看到了大模型智能体,看到了这个东西之后就会执行以下的内容了。那么第一个事情呢,就是步骤一, 选择练习模块,你看这里面是什么内容呢?很高兴陪您练习英文口语练习,对吧?然后你看这里是不是刚才说的这句话,这是一种什么啊? 这是一种回复的逻辑,他按照这种回复逻辑给我回复的,回复的内容就是我们刚才看到的 回复的内容完全没有问题啊,你看这个头像也有了,对不对? ok, 那 在这个时候呢,我们就需要去选择了,你看他给你的提问是说选择哪个模块的话题,那么我想说,我选择一个事件,好不好,直接发送啊?事件在这里啊,咱们就用啊, 中文是事物啊,不是事物,不是事件,是事物啊,事物好直接发送,你会看到他会有信息的反馈。哎,这里边有意思了啊,他又给你反馈了, 这个模块的随机话题是 e book and paper, 这,这是什么东西啊?往下去走,你看啊,这个是什么?这个是人物的模块,再往下走 事物的模块,你看事物的模块的第一个内容是什么? e book 就 电子书吗?还有纸质书,对不对?是不是他的信息就过来了,然后下边的内容是什么? 这个内容啊,他说你是喜欢电子书啊,还是喜欢纸质书,对不对?那这个不就是问题吗?这个模块里的这个 事件,那个大模块里边的子模块,第一个子模块啊,里边有四个问题,那么我们做英文四六级的练习,我们需要把这个东西练习到位,对吗?那么我, 我怎么来去做呢?他说你喜欢纸质书还是啊?电子书,对吗?那我那在这里啊,咱们做答呢,既然是英文的练习,一定是要用英文练习的,对吗?那你在这里啊,一定要输入英文,在这里啊,我就翻译一下,那么我找到一个百度啊,咱们找到百度 啊,百度翻译啊,然后找到翻译,我快速的给大家去过一下,然后这里边百度翻译啊, 我关掉它,然后在这里啊,他问了一个什么问题呢?在我们的这个智能题里啊,他会看到他说你是喜欢纸质的还是喜欢这种电子书?那我想说啊,我让他翻译一下啊,我喜欢电子书啊,因为电子书比较 方便,直接在电脑或者手机上都可以观看。好, 那么翻译一下, ok, 那 我们把这句话,那当然了,你们在做测试的时候啊,因为这个是给用户去用的,对吧?他们应该是不需要进行翻译的啊,就直接输入这段英文就可以了,那么我作为用户,我在这里边直接把这个内容给到他,好,那发送啊, 然后你会看到他的一个反馈,哎,这个地方就有意思了啊,他输出了非常多的内容,你看 这里啊,你看我为你本次回答打七分,好吧,这个打的七分从哪来的啊?这是其一啊,咱们要注意这一点,还有 就是进一步分析,你可以这样去说给的我一些建议啊,就是我刚才输的这些内容,他给我进行的一个优化,在这里还有一个呢,开始给我进行翻译了,好吧?啊,然后最后 这么优化后,就是基于这个优化的内容啊,给我打的分数是八分。好,这里边又增加了些内容,就是我为什么要这样去讲这种英文的方式对吗? 啊?他说什么?取代了 like 对 吧?这个 preference 应该就是偏好的意思,对吗?然后等等诸如此类的内容,那么这一啪东西它的输出从哪来的,对吧?来,我们往下去看啊,其实这个就是我们体式词的核心的关键了,你看啊,在这里啊, 你看是不是他这个我们想让智能题怎么去回复?你需要指定一下他输出的格式,这个就是我们输出的格式,几分多少分,你看他是有这个 三项评分的啊,一二三,那最后就这四点啊,来,我们回过头来,是不是这四点,一二三四啊?那么这个内容怎么去写出来的?那是根据你对于用户的理解,你可以在这里边进行修改的啊,完全没有问题啊。好, 那么还有一个东西啊,大家看就是,嗯,往下去看啊,你看啊,这里面还有一个本话题,还有三道题,下一个题目是这个,是吧?那这个东西啊,咱们也可以有据可查啊,看看是不是他。 你经常是在线上阅读吗?应该是这个意思啊,看是不是他。 那这个题目我们是不是也应该进行回答呢?对的,也需要进行回答,一共有四个题目,你看还剩下三个,因为第一个题目我们已经回答完成了,那这个内容,这个计算他是怎么计算出来的?很关键啊。来,咱们回过头来,往这看,马上去走啊, 马上去走啊,在这里啊,你看题目提问规则, 在双语解析完回答时啊,给用户提供下一个题目,并告知还剩多少个,这个多少个是怎么计算出来的。因为咱们这里不是已经给了他的一个内容了吗?比如说这个内容一共给了四个,当我们回答完第一个之后啊, 这个大模型很聪明,自动就给我们去剪了,剪掉这个第一个,然后依次类推,剪第二个,剪第三个。所以说这里边你会看到还剩下几个题目,他是这样的一个逻辑啊,那么在这里啊,我们再继续,我们看看一下他整个的一个流程啊,一个流程, 比如说啊,你经常在线上阅读吗?对吧?是不是?是不是这个意思?来,我翻译一下, 别搞错了啊,我翻译一下啊,你通常在网上阅读什么是吧?啊,对,然后那我就用英文再翻译一下,经经常阅读 ai 相关呢, ai 相关的内容啊,比如说 ai 大 模型、 ai 智能体,还有就是未来 ai 的 发展,发展情况。好,我们直接啊让他翻译一下, ok, 我 把它,我把它复制一下啊,复制完成之后再放到这个智能题里啊,然后他依旧是在给我去打分,然后给我评价我的这个回复内容到底如何啊? 好,其实这样的话,我们就对于啊有了一个很好的一个交互性的练习啊。 好,你看这里还有两道题,那其实这些内容啊,都是根据我们的这套提示词 给我们指定出来的啊,这个是题目提问的规则啊,你看这里边还有评分的标准啊,就是我们回复的那个消息回复的那句英文,他怎么去给我评价的?这是评价的一个逻辑啊,评分的一个标准。 那么接下来你看他又问了,你看这是这是还有一一个题目啊,就是这个题目,看到他啊,他给我提醒出来了, 他是说啊,未来你还会更多的线上阅读吗?应该是啊,应该是,那么我再回复一下他啊,嗯,我会 一直这样去做,因为这样做非常的便捷,而且现在 用纸质书很少了。好,那么他翻印完成了啊,我直接把它粘贴过来啊,再拿过来先放在这里。好,我们看一下他的结果啊, 你看他又给我打分了,那打分的逻辑啊,就是刚才我们看到的这个整个的逻辑打分的内容,好吧? ok。 他 你看啊我们每做的一个内容啊,每提供一句话一句英文,他都会给我做一些 内容的一个交互,对吧?啊?优化可以怎么去说?他是完全有一套规则和逻辑的,那么再往下去走啊,我想让大家看到整个提示词,我们把 这个内容结束完成之后你会看到他还会有什么样的结果出来啊?他说啊还剩一题啊,还有一个题,那就是这个题,那 那这道题是词啊,大家可以去进行修改的对吗?里边的这些内容可以再往后去加,对不对?比如说五啊六七, 你想加多少就加多少,这是根据你你们的一个需求啊,可以进行练习的。这句话什么意思啊?他说你认为纸质的书啊在未来将会 disappear 消失吗?对吧?那么我再给他回复一下啊,我再回复一下啊,我认为 我认为纸质的书籍不会,书籍不会消失,因为这是五千年来文化的传承, 是文化的。嗯源头。好吧。啊咱们就这样去说, ok 啊,我再把它复制一下啊,哎。复制然后再粘贴过来,你看它有什么样的一个回复啊? 啊你看其实这个百度翻译还是比较厉害的,对吧?基本都是六点六点零分以上的。 好了他说已经结束了,你可以。哎,你看这里啊结束了 零道题没了。那也就说我刚才的选择事物这里边一共有四个内容,我现在都已经答完了,然后他说你可以选择查看话题总分 对不对?还可以干嘛?练习该模块的其他话题,选择其他模块进行练习,回顾练习进度 是不是?好,那咱们继续。嗯,怎么说呢?我再设置一个内容啊,比如说我这里查看话题总分,好,咱们看一下啊, ok, 这里啊,你想继续训练还是你看每一次交货他都会给我进行一个提醒的对吗?请问你想继续训练还是查看进度?我想继续训练啊,继续训练。来, 再发送一下,请选择哪个模块对吧?啊,那我就是事件,比如说啊,人物,人物啊,来,咱们再来看一下人物吧, 好,继续啊,这个循环上面的操作,他说你是一个学生还是一个有工作的人,对不对?大概其是这样一个意思啊,那么我想说啊,咱们再来试一下啊, 叫做我是一个学生,嗯,今年, 今年大三啊,我是 ai 专业,好吧,这就可以啊,好,嗯,咱们直接给它复制过去啊,复制过去粘到这里,然后你看它的一个反馈的一个结果啊, ok, 还是上面的一个逻辑啊,然后,呃,这句话什么意思?翻译一下啊 翻译一下啊,你正在学习哪些科目?那么我想说,嗯,我正在学习,嗯,数学, 物理啊,还有英文,好吧,然后我直接把它再发送过去, ok, 同样就可以练习了。他说你喜欢你的专业吗?啊,那么我再说一下啊, 我非常喜欢我的专业,因为我的专业是 ai 啊,我发现啊,未来 ai 发展 会非常的有前景,有机会。好, 然后我再把它复制过来再粘贴过来发送给他,你会看到他依然啊会有信息的反馈, 然后他会有一些你看优化的内容啊,优化的内容,好,其实这个就是我们对于智能体这样的一个简单的一个应用啊,那核心内容是在于什么呢?就是首先啊,来咱们看一下 这个英文的部分啊,大家会看到英文的部分都是一些话题,都是我们作为用户来说,你们给用户设置的一些练习的内容。这个练习的内容一共分了四个大部分,一个是人物、事物、事件地点,对吗?那么我们往下看啊, 这个就是人物,人物这里面会有几个呢?一个他,一个他,对吧?这就是两套题了, 这套里边有十二个,这套里边有十个,当然你可以根据你的情况去添加啊,那么事物里边你会看到,那么事物里边你会看到会有很多的内容,咱们刚才是不是已经把它测试完了?那么我们其实还可以测试更多的内容啊,测试更多的内容, 你看这里面预设了非常多,这些预设的东西,我们可以是随意改动的。好,这是,这是什么艺术,是吧? 然后再往下,再往下,再往下,好,接下来是事件了,这个,这个是挑战,对吗?啊?等等一系列的,这里边又有很多,再往下,然后是地点了,是吧? 啊?工作地点还是学校啊?都可以去问啊,再往下走是什么?你看这个技能二,咱们刚才看到的那个是技能一,技能一就是为了出题,出题用的,那技能二呢?就是评分与评价了, 评分,评分与评价,你看每一个技能啊,他都会有步骤,步骤的,对吗?步骤一完成了做步骤二,好,他是这样一个逻辑啊,然后这些内容啊,我会给到大家的。好吧,大家可以直接把它复制走。全都复制走啊, 在这里怎么复制啊?点击复制直接粘过去。 ok 了,然后咱们继续往下去看啊啊那步骤三呢? 步骤四从网上看啊,这个是步骤三,中英 中中英双语,好吧,然后再往下特殊情况你看特殊情况当用户表示不知道如何回答, 给用户提供案例并让用户重试好不好?你看别担心,你可以这样去说。哎这是什么友好的交互?就是这些内容啊,我们需要作为一个 啊智能体的设计人员啊,一定要把这些用户的一个交互设计好,好吧啊就是变得有意思一些。你使用中文回答呢 啊他说你看这里啊,你使用了中文进行回答,别紧张,这个事怎么才能测试出来?来咱们测试一下,好吧。在这里啊。啊这是什么意思?他说还有第九道题啊, 来翻译一下啊,把它翻译一下。他说你为什么选择那个学科?这个事有意思啊,那我说嗯, 因为这个学科,因为这个学科很有意思,很适合我。好吧,我正常来说咱们应该用英文回答的对吗?但是没办法英文不好。那用中文好发送一下, 你看 ok 是 不是看到了内容了?是不是看到了内容了?这个你使用了中文进行回答呢?别紧张来,是不是在这里 他严格按照这三个部分可以试着这样说。这句话的意思是啊,这么优化后吧啦吧啦内容对吧?来我们对照一下,是不是他回复的就是他呀?来我们把他定图啊,拿过来,然后跟他对比一下, 你们看到是不是一对一的会有信息啊? 好,这是这个作用啊,剩下的内容啊,然后大家去拿到这套提示词进行练习就好了,好吧?然后有什么需要改动的地方啊, 你就直接在这里边,你想怎么改就怎么改,好不好?因为这就是一套提示词,一套指令,这套内容啊,其实就是给大模型进行观看的,让大模型去拿到这套提示词,通过用户的信息进行分析,然后把这个信息的内容反馈给用户就可以了啊, 那么其实在这里边也可以增加很多的内容啊,比如说开场白的预设预设问题啊,来咱们测试一下吧,预设问题,你看我这里边一写东西一写内容就会有展示啊, 你所在的,你所在的院校是哪里啊?再可以加一个你现在的英文水平如何,对吧?然后呢? 还可以说啊,你你准备要考四六级了吗?对吧?这些都是预设的开场白的一些问题啊,放在这里,那么我们刚才看到的那个,呃,你看啊, start, start, soon, 来, 我发送过去之后。好, ok, 那 这些东西是什么东西?这些东西啊就是用户的一个问题建议了,好吧,就是相当于啊, 就是相当于给用户提供了一个快捷的一个方式,比如说我点击一下,你看他有什么回复吗?啊?好 o 不, ok, 有 没有感觉了?兄弟们,就是所有的问题他都会给我展示出来了,对吗? 你看这里边有二十二个啊,那这个内容在哪里啊?不就是咱们刚才看到的上边的这些内容吗?我们预设好的内容就已经存在于这里了啊,刚才咱们看到的是那个 一个是他,一个是他,两个嘛,两趴东西,然后他都给我展示出来了啊,一共二十二个,我来查一下是不是二十二个,一到十二还有呢,一到十加起来一共是二十二,好吧,他就是把整个模块这个人物,这个模块下边的所有的提问的信息啊,都给我展现出来了。好吧, 那么我觉得今天的这个内容还是相对于来说比较简单,大家啊主要是针对于这套提示词的一个理解啊,拿到这套提示词,然后可以根据你的需求啊,你可以进行随意的更改的,更改完成之后就在这里边进行测试就可以了,当你们测试完成之后没有问题了。干嘛呢?直接点击发布 啊,我就发布一下啊,点击它发布右上角有发布啊,发布完成之后,你看我默认啊,就是在扣子商店里边,好吧,然后这个学习教育可以啊,就选择这个分类就可以了,那么在这里边我们直接点击发布, 点击发布啊,你看正在审核啊,正在审核,审核大概,呃,有的时候快,有的时候慢啊,可能几分钟,也有可能半个多小时,不好说,好吧,直接点击完成啊,然后这个时候我们就返回到我们的智能体的编排页面了,对吗? 有一个审核中,所以说我们等待他的审核啊,那未来的话你就可以把你的这个做好的智能机啊,分享给你的身边的小伙伴,也让他们用起来,他们用的过程当中有任何的问题啊,给你进行反馈,你可以在这里边进行修改了,好吧?那么今天的内容啊,咱们就讲这么多。

哎,你有没有想过这么个事,为什么现在这些 ai 智能体明明聪明的吓人,逻辑能力超强,可一到处理那些真正专业的复杂任务时,就总感觉像个高智商的外行。 如果你也在琢磨这个问题,或者你正在 ai 这个火热的赛道里找下一个创业的风口,那今天这个话题你可千万别错过了, 咱们要深入聊一个来自 entropic 团队的可以说有点颠覆性的想法。别再死磕 agent 的 本身了,真正的机会在于开始构建技能,也就是 skills。 咱们就从这个最核心的问题开始。你看我们现在手里的大语言模型,那真是前所未有的强大,能推理、会写代码,什么都懂一点儿, 但为什么一让他去干点特专业的事,比如说做税务审计,或者分析生物信息数据,他就好像突然不行了呢? 说真的,这个比喻简直绝了,一下子就把问题说透了。现在大多数 ai 智能体就像这个智商三百的天才, 潜力无限,但就是缺了点特定领域的内功心法。换做是我,我可不想雇一个天才,让他从头开始推到一遍二零二五年的税法是什么样的?我需要的是一个能直接上手,经验丰富,每次都能给出稳定可靠结果的专家。 所以啊,问题的关键就在这。很多团队现在的做法是想为每一个垂直领域都去从头打造一个全新的大而全的智能体。但这就像什么呢?就像是为每一个不通的任务都重新雇一个天才,然后再从头开始培训它。 这种模式不仅效率低的可怜,而且根本就不可能规模化。那么出路到底在哪? 答案是,我们得来一次根本性的思维转变,别再执着于去打造那些一个一个孤立的全能型选手了,咱们得转向一个更灵活也更强大的新模式。从关注智能体转向关注技能, 这个新范式到底长什么样?你看这张图,新旧方式的区别一目了然。过去,我们每要做一个新任务,就约等于重造一个智能体, 就好像每次用电脑都得先重写一遍 windows 系统一样,太累了。而现在的新范式呢,我们有一个通用的轻量级的智能体核心,它就像一个干净的操作系统。 然后呢,我们通过给他加载不同的技能,也就是各种各样的 app, 来让他能干各种专业的好。既然技能是这个新模式的核心,那它到底是个什么东西?听起来是不是特别高大上?但其实啊,它的设计理念就是两个字, 简单。你可能想不到,一个技能的本质其实就是一个普普通通的文件夹。 你没听错,这个设计是故意这么做的,目的就是为了让它足够简单,足够开放。这样一来,任何人甚至 ai 自己,只要有台电脑,就能创建和使用它。它不是什么神秘的黑瞎子,而是一本本清清楚楚可以直接执行的操作手册。 咱们打着这个文件夹,看看里边儿都有些啥。首先会有一个核心的 skill 点, m d 文件, 它就相当于说明书的封面和目录,告诉 ai 这个技能是干嘛的,主要步骤是什么。但更厉害的是,你还可以往里放更详细的说明文档,甚至是写好的 python 或者 javascript 的 脚本, 这就意味着什么呢?意味着当 ai 需要做点复杂的计算或者调用某个工具时,它再也不用现场去瞎拆怎么写代码了,而是可以直接运行你已经测试好的绝对可靠的脚本。 好了,听到这儿,你可能会问一个特别关键的基础问题。咱们都知道 ai 的 上下文文窗,也就是它能同时记住多少东西,是非常宝贵而且有限的。那要是我们给他成百上千个技能,把所有说明书都塞给他,那他的脑袋肯定一下就爆了。 这个问题要怎么解决呢?答案呢?其实是一个特别聪明的设计,叫做渐近式批漏。你可以把它理解成一种智能加载机制,它能确保 ai 在 任何时候都只关注和当前任务最相关的那一小部分信息,而不是被一大堆用不上的指令给淹没掉。 你看它分三步走,特别巧妙。第一步,启动的时候, ai 只看一眼所有技能的花名册,也就是每个技能叫什么,是干嘛的,成本非常低。第二步, 当用户下达的任务需要用到某个特定技能时, ai 才会去仔细阅读那个技能的主要说明书。 第三步,如果任务进行到一半,需要运行个脚本什么的,它才会去加载那个具体的脚本文件。这样一来就极大地节省了 toker, 也让 ai 能够真正拥有一个规模庞大,而且随时都能调用的技能库。 好了解了技能本身是啥,咱们现在把视角拉高一点儿,看看在一个全新的 ai 生态系统里,既能处在什么位置,它又是怎么跟其他部分打配合的? 在这个新架构里啊,主要有两个关键组建,一个是所谓的 m c p 服务器,你把它想象成 ai 的 电话线就行,专门负责连接外面的世界,比如公司的数据库、各种 api 或者其他应用程序。 而技能呢,就是那本操作手册,它清清楚楚地告诉 ai 怎么用这些电话线来干具体的专业的活。 一个负责连接,一个负责指导,分工明确,配合得天衣无缝。如果我们把这些都拼在一起,就会得到一个我觉得哈,最贴切,也最能点名未来机会在哪儿的比喻。那些强大的 ai 大 模型,比如 g p d 四或者 cloud 三, 就是计算机的处理器,也就是 cpu, 提供最底层的算力。而智能体的运行环境呢,就是操作系统,比如 windows 或者 mac os, 负责管理和调度。那么我们今天一直在聊的技能是什么? 它就是未来运行在这个操作系统之上的价值万亿的应用程序生态,也就是 app。 好了,技术的部分。我们聊得差不多了,现在咱们来聊点最实在的这个新范式,对于咱们这些想在 ai 时代里抓住机会的创业者、开发者来说,到底意味着什么?金矿到底在哪儿? 这个新模式的苗头有多火?咱们先来看个数字,数千个。您没看错,在技能这个概念刚刚被提出来,功能刚上线的短短五个星期里,整个生态里就涌现出了数千种新的技能, 这个增长速度简直有点吓人。他已经用最直接的方式告诉我们,市场的需求有多旺盛,这个模式的潜力有多巨大?那这黄金到底在哪呢?咱们看看这些活生生的例子。 财富一百强的大公司,正在用技能把 ai 训练成熟悉自己公司内部流程的老员工。 在金融和声明科学这些专业领域,已经有公司开始通过打包定制的技能来提供专业的 ai 解决方案了。 像 notion 这样的合作伙伴,也在为自己的产品开发技能,提升用户体验。但最让我兴奋的是最后一类人,很多没有技术背景的行业专家,比如律师、会计师、招聘顾问,他们也开始把自己的专业知识和经验封装成一个个技能了。 这也不就直接给我们指路了吗?你的下一个创业项目,完全可以是专门开发和销售针对某个细分行业的高价值技能包。或者你可以更一步去做一个技能的创作工具,让那些行业专家能用拖拉拽的方式轻松打包他们的知识。 你想想技能数量一旦爆发,怎么保证质量?那提供技能测试和评估的服务,肯定也会是个大市场。当然,终极形态,一个技能的 app store, 一个技能交易市场,更是充满了想象空间。 最后,咱们聊聊这个技术背后,那个真正让人心潮澎湃的长远的未来途景。 and frobrick 团队说的这句话,我觉得完美地概括了这个终极目标。我们想要的根本不是一个一成不变的静态工具,而是一个能和你一起工作,一起成长,一个会不断学习,越来越懂你的个性化 ai 火 技能,就是让这个愿景成真的关键。为什么这么说呢?因为它创造了一个看得见摸得着的知识库。今天你觉得 ai 某个地方做的不对,你纠正了它,这个纠正就可以被保存成一个技能的更新。 那么到了明天,你团队里的每一个人,他们用的 ai 都会因为你今天的反馈而变得更聪明,这种学习成果是能够被沉淀下来并且传递下去的。 所以你看啊,我们正站在一个新时代的门口,那些 ai 巨头们正在搭建这个时代的处理器和操作系统, 而未来真正的价值爆发点,将来自那数以百万计的,包括了各行各业独特知识和创意的应用程序,也就是技能。 ai 的 操作系统已经就位。现在的问题是,你准备好构建你的第一个 app 了吗?

我们直接来看 agent lightning 这个框架,它只在解决一个核心问题,如何用强化学习来训练各种各样的 ai 代理,而且是真正意义上的任意代理。 好,现在的问题来了,为啥需要 agent lightning? 因为现有的方法说实话有点水土不服。你看很多强化学习方法,特别是针对大模型的,它们往往跟特定的代理实现绑得太死了。你想改个代理逻辑或者换个框架,那训练代码可能就得跟着大动。 更麻烦的是,处理多轮对话或者复杂工作流的时候,大家常用的办法是把所有历史信息一股脑拼成一个长长的序列,然后用各种言码 musking 来告诉模型哪些部分是当前要优化的,哪些是过去的。 这听起来好像挺直观,但实际操作起来,尤其是在代理逻辑非常复杂、动态变化的情况下,简直让人头疼。 这种硬偶合和长序列拼接的方式,不仅不够灵活,扩展性也差。尤其在面对长上下文、多代理、协助这些现代 ai 代理越来越常见的场景时,就显得捉襟见肘了。我们需要一种更优雅、更通用的方法。 所以, agent lightning 的 核心思想是什么呢?就是完全解偶。我们想让代理的执行过程和强化学习的训练过程彻底分开,就像两条平行线,互不干扰。怎么做到呢?关键在于把代理的执行过程抽象成一个标准的马尔可夫决策过程。 m d p。 一旦你这么一想,事情就变得清晰多了。这意味着什么?意味着你可以用 agent lightning 来训练你手头已有的任何代理,不管你是用 luncheon、 open ai agents, sdk, auto gen 这些流行框架搭的,还是你自己从零开始写的,理论上几乎不需要改动一行代码, 就能把它们扔进强化学习的熔炉里练一练,这对于我们推动真实世界中复杂代理的训练和部署意义重大。 为了实现这个完全解,偶 agent lightning 首先定义了一个统一数据接口,听起来有点玄乎,其实就是一套规则,告诉我们该收集哪些数据,以及怎么组织这些数据,让强化学习算法能够理解。 这里有个巧妙的设计,我们不需要去费劲巴拉的解析整个代理执行过程的复杂图谱,只需要抓住关键点就行。根据 m d p 的 思想,我们关注两件事,一是状态,也就是代理在某个时刻的一个快照,里面包含了描述当前情况的关键变量,特别是那些能体现语义信息的变量, 我们叫它语义变量。二是调用,也就是代理执行过程中 l、 l、 m 或者工具被调用的一次动作,包括了这次调用用了什么,组建,输入了什么,输出了什么。你看这个公式 state, t 就 代表了 t 时刻的状态,而 call i 就 代表了第 i 次调用。 有了状态和调用,下一步就是奖励。强化学习嘛,没奖励怎么学?所以我们需要给代理的每一次行动打分,这个奖励可以是标量信号,衡量任务完成得好不好。 它可以是中间奖励,比如代理成功调用了一个工具,或者完成了一个小步骤,我们就给点奖励,也可以是最终奖励,等整个任务跑完了,根据最终结果给个总分。当然,很多时候我们只有最终结果,那就只能依赖最终奖励了。 这样一次完整的执行过程就变成了一个包含一系列调用及其对应奖励的系列,即作 execution。 二、把这些不同任务的执行数据汇集起来,就构成了我们的训练数据集,里面既有任务本身,也有评估这些任务好坏的奖励函数。 光说理论可能有点抽象,咱们来看个具体的例子。比如一个常见的剪缩增强生成 r a g。 代理,左边这个图展示了它的执行流程,用户问了个问题, user input。 代理先调用 l l m 生成一个搜索查询 query, 然后用这个查询去搜索工具 search 里找相关文档 passages。 接着代理再调用 l l m, 这次是结合原始问题和找到的文档来生成最终答案 answer。 最 后,我们用一个评估函数,比如 r a g f。 一 来判断这个答案好不好,给出奖励。右边的图就展示了 agent lightning 是 怎么收集数据的, 它会记录下每一次调用哪个组建,输入了啥,输出了啥。然后把这些信息再加上对应的奖励,整理成强化学习需要的轨迹格式。 input output reward。 注意,即使是非 l l m 的 调用,比如搜索工具的执行,我们也通过这种方式捕捉到它的影响,这对于全面优化非常重要。 这个统一数据接口的好处在哪?首先,他把代理的具体设计和强化学习的策略优化这两件事清清楚楚的分开了,开发者可以专注于设计更聪明的代理,而不用太担心底层的训练细节。 其次,他巧妙地绕开了解析代理内部复杂逻辑的坑。不管你的代理是多代理协助还是执行流程,千变万化,只要能按我们的接口收集到状态调用和奖励,就能为给强化学习模型。 而且它还特别灵活。比如在一个多代理系统里,你可以只选择优化其中某一个或某几个代理,只需要在数据收集时包含它们的转换就行了。更重要的是,这套接口不仅仅是为了微调模型服务的,它也为其他优化方法,比如自动提示。此优化打下了基础。 可以说,它提供了一个非常通用的接口,让各种优化手段都能方便地应用到代理上。 有了数据,接下来就是算法层面了。我们怎么把代理的执行过程严格的套进强化学习的框架里呢?最基本的想法就是把待优化的那个 l l m 看做一个策略模型。这个模型在做决策时,其实就在经历一个部分,可观测马尔可夫决策过程,简称 p o m d p。 别被名字吓到。他的核心思想就是在某个状态下,策略模型观察到一些信息观测,然后做出一个动作输出,这个动作会导致状态转移到下一个状态,并获得一个奖励。 我们用一个五元组来表示,这个 p o m d p s 是 所有可能的状态空间, o 是 模型能看到的所有可能的输入观测, a 是 模型可能产生的所有动作输出系列。 虽然我们通常不知道状态转移的具体规律 t 也不知道奖励函数 r 的 精确形式,但没关系,强化学习的目标就是通过试错,让模型学会一个策略。派西塔使得长期获得的总回报。 r 等于从 t 等于一到 t 的 r, t 的 核最大化。 基于刚才的 m d p 框架,我们需要从每次代理执行中提取出对强化学习有用的数据。具体来说,我们要收集什么呢? 就是 l l, m 调用的原始输入输出,以及它们对应的奖励。把这些信息打包成一个序列,就是这个公式, e x e c u t i o n r l x k 等于左括号 i n p, u t t x k 逗号 o u t t x k 逗号 r t, x k 右括号从 t 等于一到 t。 这里的 o u, t p u t t, x k 就是 我们要优化的 l l m。 派西塔在 m p, u t, t, x k 这个输入下的输出。这个提取过程非常关键,它的好处在于,我们完全不需要关心代理内部是怎么运作的,比如它是用什么模板生成的输入,输出是怎么解析的。 这些复杂的细节都屏蔽掉了,我们只需要关注 l l m 当前看到的输入,它产生的输出,以及由此带来的奖励。这种简化使得我们可以轻松地将强化学习应用于任何 ai 代理,无论其内部结构多么复杂。 现在我们有了数据,怎么用强化学习来更新模型呢?这里就轮到 agent lightning 的 核心算法 lightning r l 登场了。目前针对 l l m 的 强化学习方法大多还是针对单次调用的场景,比如让模型解个数学题,生成一个答案就完事。 但我们的代理往往需要多次调用 l l m, 还要跟环境互动怎么办? lightning r l 提出了一种简单的分层强化学习方法, 他的核心思想是先把代理的一次完整执行过程拆分成一系列我们之前定义的转换 transition, 也就是输入输出奖励的三元组。然后他用两步走的方式来优化。第一步叫信用分配 credit assignment, 就是 把这次执行得到的总回报 r 合理的分配给每个动作,也就是每次 l l m 调用应该承担多少功劳或责任。第二步,对于每个动作输出系列,再进一步把它分解到生成的每一个 token 上,然后就可以用我们熟悉的那些单词调用的强化学习算法,比如 g r p o p o, ray, force, 加加等等来进行优化了。 lightning r l 这个设计有啥好处呢?首先,它非常兼容现有的算法,特别是那些不需要显示价值函数的算法,比如 g r p o, 可以 直接拿来用,几乎不需要改。你想怎么组织每个转换的输入上下文 随便你,可以是 l l m 自己总结的,可以是模板拼起来的,也可以是明确告诉 l l m 你 现在要扮演什么角色,非常灵活。 相比之下,以前那种靠拼接续列再用掩码的方法就麻烦多了。掩码不仅实现起来复杂,调试困难,还可能破坏 l l m 对 未知编码的依赖,比如 rope。 而且长续列本身就带来了计算和内存压力。 而 lightning r l 把轨迹拆成转换,天然就跟 l l m 的 输入结构对齐了,不需要额外的掩码,实现更简单,扩展性更好,也更容易处理长上下文问题。当然,现在的信用分配模块还比较简单,只是简单地把总回报平均分配给每个动作。未来完全可以集成更复杂的策略, 比如基于启发式或者学习得到的价值函数来做更精细的分配。这张图就把 lightning r l 和其他几种处理方式做了对比,一目了然。 a 是 最简单的单次调用场景,同一个任务的输出放一起算优势。 b 是 之前处理多轮对话的一些尝试,他们会把一次完整的多轮对话轨迹拼起来,然后用简码把非 l l m 生成的部分,比如用户输入工具返回结果给屏蔽掉,只优化 l l m 的 输出。而 c 就是 我们提出的 lightning r l, 它把轨迹拆成了一个个独立的转换, 每个转换都包含当前的输入 l l m 的 输出和对应的奖励。相同任务的转换会被分组用于计算优势。最关键的区别在于, lightning r l 完全避免了使用掩码,直接利用了转换的自然结构。 输入是当前状态的一部分,奖励由信用分配模块动态计算。这种设计在灵活性和鲁棒性上都有显著优势。 有了好的算法,还需要一个强大的系统来支撑。 agent lightning 在 系统架构上也做了创新,提出了训练代理分离架构。这个架构的核心思想是把计算量大的 l l m 生成过程和相对清量但逻辑灵活的代理应用逻辑以及各种工具彻底分开。 具体来说,它由两部分组成,一个是 lightning server, 负责管理整个强化学习的训练过程,比如调度任务、更新模型、权重等。它像个大脑,还提供一个类似 open ai api 的 接口给客户端。 另一个是 lining client, 它更像是代理的执行环境和数据采集器,负责运行代理,收集执行轨迹和奖励数据,然后把这些数据传回给 server。 这种分离的好处是双向的, server 可以 专注于 l l m 的 优化和资源管理,不用关心代理具体是用什么框架写的。 而 client 上的代理则可以独立于训练框架运行,开发者可以更自由地设计和实现代理逻辑,不用担心被训练系统的限制。 我们再细看一下这个 lightning client, 他 扮演着代理运行时的角色,职责可不少,他要负责管理代理的执行,确保任务顺利进行。 同时,他还要像个侦探一样,自动捕获执行过程中的各种数据,比如调用链、 l l m 输入输出等等,而且最好是零代码修改就能搞定。这里就用到了像 open telemetry 这样的可观测性框架。 训练过程难免出错, client 还得像个消防员,能处理代理崩溃、网络断开甚至无效输出这些问题,保证整个训练过程的稳定。 还有一个很有意思的特性,叫自动中间奖励 a i r, 它能把系统里的一些监控信号,比如工具调用是否成功返回了,自动转换成强化学习需要的中间奖励,这对于环节奖励稀疏问题非常有帮助。 此外, clant 还支持把环境和奖励计算服务化,这样可以更好地应对资源密集型的任务。理论讲完了,是骡子是马,拉出来遛遛。 我们来看看 agent lightning 在 实际任务中的表现。第一个任务是 text to circle, 用的是 land chain 搭建的一个多代理系统,处理的是 spyder 数据集上的复杂 circle 生成问题。 这个代理系统里有三个角色,写 circle 的, 检查 circle 的、 重写 circle 的。 我们训练的时候只优化了前两个角色。奖励很简单,就是看最终答案对不对。 结果怎么样呢?请看这两张图,左边是训练奖励,右边是测试奖励。可以看到,随着训练步数增加,奖励值稳步提升,并且在测试级上也取得了持续的性能改善。这说明 agent lightning 能够有效地优化这种设计代码生成和工具调用的复杂多步决策过程。 第二个任务是解锁增强生成,用的是 open ai agents sdk, 实现的数据集是 m c k, 解锁员是整个维基百科,相当有挑战性。这次我们用的是单个 l l m, 让它自己决定什么时候生成查询,什么时候根据解锁结果生成答案。 奖励函数也比较讲究,是格式分和正确性分的加权组合,结果如图所示。同样是训练奖励和测试奖励都在稳步提升,这表明 agent lightning 在 这种更开放、更复杂的 r a g 场景下,依然能够有效地提升代理性能,尤其是在处理多跳推理和海量解锁员时。 最后一个任务是数学问答,重点考察代理调用工具的能力。我们用 auto gen 搭建了一个代理处理 caliskx 聚集上的数学题, 这个代理需要判断什么时候该调用计算器工具来计算中间结果,然后整合这些结果给出最终答案。奖励还是看最终答案是否正确。结果再次印证了我们的观点, agent lightning 能够在需要精确外部函数调用和复杂推理的工具增强场景中持续稳定地提升代理的性能。 这三次实验覆盖了不同的任务类型、不同的代理框架、不同的复杂度,都取得了积极的效果,充分证明了 agent lightning 的 重要性和普适性。 当然,我们的工作也不是凭空出现的,它站在了很多相关研究的肩膀上。我们简单对比一下,在多轮对话的 l l m 强化学习方面,确实有一些工作,比如 regen, trinity, r f t 等等。 他们常用的方法是把所有对话轮次拼成一个长序列,然后用严码来控制优化范围,而 agent lightning 不 走这条路。我们通过 m d p 形式化统一数据接口和信用分配机制,把数据组织成一个个独立的转换,这样更灵活,也更容易处理多代理和长上下文。 在大规模 l l m 训练系统方面,像 volo, open r l h f 这些系统很强大,但它们通常要求你把代理逻辑搬到训练系统内部去实现,这就导致了跟现有生态的藕合度很高,迁移成本大。 而 agent lightning 的 核心优势就在于完全解偶,你几乎不用改代理代码就能用,兼容性极强。还有一些工作聚焦于特定场景的强化学习,比如专门针对 r a g 或者代码生成的,但它们往往不是通用的代理训练框架。 总结一下 agent lightning 的 主要贡献,我们认为这是第一个实现了代理与强化学习训练完全解偶的框架,这意味着它可以无缝应用于任何 ai 代理,而且改动极少。它通过一个统一的数据接口,巧妙地抽向了代理执行的复杂性,使得收集到的各种代理数据都能被用来改进模型能力。 在算法层面,我们基于 m d p 形式化和统一数据接口,提出了 lightning r l 这个分层强化学习算法以及核心的信用分配模块。 在系统设计上,我们引入了训练代理分离架构,将训练和代理执行彻底分开。利用了现有的可观测性基础设施,并提供了一个标准化的代理微调接口。这些创新共同构成了 agent lightning 的 核心价值。 当然,我们的工作只是一个开始,还有很多值得探索的方向。比如,除了强化学习,我们这个框架还可以支持其他的优化方法,比如自动提示词优化。我们甚至提出了感兴趣组建的概念,让用户可以指定只想优化代理执行流程中的某一部分。 在算法层面,我们也可以继续努力,比如研究更高效的长时序信用分配,更好的探索策略离策略算法等等。系统基础设施方面,还可以进一步解偶训练器、推理引擎和代理工作流来更好地应对大规模训练和长时序任务。 在服务端,也可以探索更高效的 l l m 服务方式,比如 parrot 这种更友好的抽象,或者 memphis 这种长上下文加速技术来提升整体效率。 总的来说, agent lightning 为我们提供了一种灵活可扩展的方式来训练各种各样的 ai 代理。 它通过完全解偶的设计、统一的数据接口和 lightning r l 算法有效地解决了代理复杂性和多样化的挑战,实验结果也证明了它在多种场景下的有效性。我们相信 agent lightning 有 潜力极大地推动真实世界中 ai 代理的训练和部署,让 l l m 在 动态交互环境中发挥出更大的威力。