粉丝1.0万获赞12.5万

为什么科技巨头这么着急收购 minis 呢?我做了一个实验啊,做的让我头皮发麻,我让 minis 攻击一个,我部署在谷歌的系统里面,设计了一个超级复杂的密码,并且呢,我做了安全防护,然后你看啊,我给了指令之后,他会自己不断地尝试各种办法去攻破。 第一个办法,你看他失败了,然后他马上再会换第二个办法继续试,没有人指挥他,他就自己在这迭代优化,然后突破。你要知道,大模型本身就掌握这个世界几乎所有的加密和解密方式,他什么都懂。 但以前呢,他只是个顾问,你问他怎么做,他只能告诉你办法。但是现在呢, minus 给了他一双手,他不再只是告诉你怎么开锁那个人,他可以自己拿起工具自己去撬锁。 那最后结果呢?三分钟就攻破了我这个密码,然后他还能给我一份完整的报告。以前搞网络攻击需要顶尖黑客大量的时间,然后专业技能,现在呢,一条指令, ai 就 能二十四小时帮你不断的去尝试, 他不会累,也不会烦,而且比任何人类懂的都多。所以回到开头的问题啊,为什么这些公司这么着急呢?他们不是在抢一个 ai 工具,他们是在抢一个能把 ai 的 大脑和双手连接起来的开关。

聊个新 ai menu, 它号称是首个通用 ai 代理,能帮你完成各种复杂的电脑任务。 我给他布置个任务,搜集二十个病毒营销案例,还要数据和素材,你看他马上开干并行研究,效率惊人。他搜完数据,像冰冻挑战、纯纯的死法,这些案例都在里面,还自动生成了一个能筛选和搜索的网站,这完成度简直了。 还有个大新闻, manus 被 met, 就是 那个脸书的母公司给收购了。有了大厂撑腰,稳了, manus 自己也憋了个大招,推出一点六新版,它能帮你刷领英,根据职位自动匹配候选人。这次 manus 一 点六版本升级, 就是为了自动处理更复杂的任务,需要的人工干预也越来越少。一点六版本最重磅的就是这个 max 模式, 数据显示,它的各项性能都比普通版高出一大截。 max 模式能同时处理多个子任务,效率极高,用户满意度也提升了百分之十。九点二,又快又好,更省心。 menu 一 点六 max 带来两大升级,移动 app 开发和全新的设计图后面细看,这就是设计师图。 我生成六个角色,然后用一句话指挥,把一号的外套换成二号的。对真实照片,它也能精准编辑。你看,一号换野花,二号窗外变秋景,三号加上台灯,最后加上把台灯放到桌上, manis 立刻理解并执行了所有复杂指令,生成了这张全新的图片交互。太直观了,十占九的自动化率登顶第一。 再看内部测试, miniso 一 点六 max 这个旗舰版在多个维度上都完胜普通版,这意味着它处理复杂任务更可靠,成功率也更高。比如做个竞品对比表,左边普通版还需调整,右边 max 版依次生成详尽工整的表格,几乎不用修改,直接就能用。 max 版能自主完成更复杂的任务。比如这种详尽的竞品功能对比,一次生成几乎无需修改。你看它自己输入网址,找到 site explorer, 然后执行任务。这就是真正的端到端自动化。你看它把 a、 h、 f、 s 上的反向链接、域名、权重这些数据 全都自动提取,整理成一份清晰的分析报告,全程只需要一个出示指令。接下来是移动 app 开发一点六版的新增能力,你只要动动嘴 minus 就 能把它做出来。比如画面里这个读书追踪 app, 它能设计 ui, 实现记录进度、打分、写笔记等核心功能。这已经是个能直接用的完整 app 了, app 做好了,还能扫码实时预览 menus, 把开发流程全自动化了。接下来是设计式图,玩法更多。 再回到设计式图,我让他把一条龙换成飞猪,你看效果简直了。他把 ai 生成和精准编辑完美结合, 它还能进行标记编辑,也就是指哪打哪。我用数字标出花瓶、窗外和台灯,下达指令,它马上就懂了。我们同时给出三条指令,换花、换窗景、加台灯, menu 立刻理解并开始生成。 看前两条指令,完美执行,画风、光影也无缝融合,效率太高了。再回到设计师图,它能识别图里的文字,让我直接修改。比如把 clas 改成 hunter 好了,上手实操。登录后先选模型,有最强的 max 版、普通版和 lite 版,咱们按需选择就行。左边是任务和项目管理,它还有个知识库, 能把你完成的任务都存起来,方便以后查找。主界面儿非常简洁,就是一个核心输入框,你可以直接提问,或者点下方的快捷方式,比如做 ppt、 建网站。来个狠的,让他研究十大 ai 代理平台。 不仅要分析优缺点,还得输出 excel 和分析报告。指令发出去后, menu 马上开始思考和规划。它会先识别任务,再进行初步研究。右边窗口实时显示它的操作过程完全透明。 你看 max 模式,已经开始多元搜索、交叉验证来保证准确性,整个过程全自动。 现在他正在自动浏览网页,提取关键信息。他能像人一样阅读和理解,把每个平台的功能特点都给你挖出来。 过程完全透明,初步研究完成。他找到了十个平台,比如 lanchen、 奥德镇。但这只是第一步,接下来才是对每个平台的逐一深度分析。最牛的地方来了,他把为每个平台收集信息这个大任务拆分成了十个并行的子任务。 这意味着他会同时派出十个 ai 代理分别去研究,极大地提升了效率。你看右边电脑窗口,他已经开始写代码了。他在用 python pandas 库自动创建 excel 表格。 你看他把产品焦点、核心能力等信息全都自动提取,并结构化整理好了。这种处理非结构化数据的能力,是衡量 ai 代理强弱的关键标准。他正在汇总所有子任务的结果,准备写入最终表格, 还会自动格式化,确保输出足够专业。任务完成不只有我要求的 excel, 还多给了一份超详细的分析报告,从摘药到方法论,专业的不像话!咱们打开 excel 文件看看, 哇,非常清晰,平台、公司、产品焦点、核心能力、所有信息都整整齐齐,一目了然。再看这份深度分析报告,他对每个平台都做了详细拆解,从产品到定价面面俱到,这完全是商业分析师的水平了。更夸张的是, 他还把研究结果直接做成了一个网页。你看这现代设计,卡片式布局,交互体验拉满,而这一切全是 ai 自动生成的。 网页上不只有平台对比,还有趋势和市场分析。他把枯燥报告变成了信息密度极高又好懂的交互网页,这能力真的服了!再看这份深度分析报告,他对每个平台都做了详细拆解,从核心能力到定价模式,面面俱到。 最后,咱们来挑战个最难的,从零开始开发 app。 我 让他做一个 flappy bird 风格的游戏,要求有重力跳跃、随机管道和计分。 他立刻开工,选了 react native 框架。你看右边,游戏的核心逻辑,代码正在飞速生成,组建、状态、管理全都有。他不光是写代码,还把整个项目结构全搭好了。你看数据库存、用户信息、文件存储、放素材,连游戏图标都给你。 ai 生成好了, 游戏完成了,他不仅实现了所有功能,还在预览窗里跑了起来,从一个想法到上架, manu 帮你搞定全程。 总之, menu 一 点六 max 版更像个全能数字员工。他能自主规划执行复杂任务,想提升效率,把重复操作交给 ai, 他 绝对值得一试。

这期内容,我们将深入探讨文件系统及上下文。这不仅是一个工程技巧,更是一种深刻的架构跃迁。首先,虽然现代大模型的上下文窗口越来越大,但在真实的 agent 场景中,这不仅常常不够用,甚至会成为一种负担。具体来说有三大痛点, 物理限制、性能衰减和成本高昂。面对上下文溢出的问题,很多团队都尝试过唱下文压缩策略,比如摘药、对话、历史压缩膨胀。 这些方法确实能简短 prompt, 但引入了一个更根本的问题,当 agent 必须根据历史状态做出预测时,你无法确定哪一步的 observation 在 十步之后仍然关键。 举个例子, agent 在 分析一个永长的财报网页时,可能会为了节省空间,将其中一段关于非核心业务收入的详细数据压缩成一句话摘要。但在后续的任务中,用户可能恰恰需要基于这些被压缩掉的原始数据进行深度分析。 因此,任何不可密的压缩都带来语域丢失的风险,一旦关键信息丢失,代理就会失忆, 后续的所有决策都可能基于错误或不完整的信息。 minus 的 创新在于,它不再依赖模型上下文来存储所有历史,而是将文件系统本身视为 agent 的 外部长期记忆。这句话极其重要, 它标志着从内存上下文到外部语义存储的架构跃迁。这样做的好处是巨大的。首先是大小无限制,文件系统的存储空间几乎是无穷的, 可以天然地支持网页、 pdf 等海量非结构化数据。其次是持久化与结构化,存入文件系统的数据可以长期保存,不会像上下文一样在绘画结束时被清空。同时, agent 还能以结构化的方式存储其中间产物,比如将思考过程存为日记文件,或将分析结果存为 json 文件,而最关键的一点是直接交互。在这个架构下,大模型不再只是被动地读上下文,而是被赋予了一套工具,学会了主动地操作文件系统。 当他读取数据时,就相当于在加载外部记忆。当他写入文件时,就相当于在更新自己的记忆或状态。于是,上下文这个概念的内涵被极大地扩展了,它不再局限于 token 窗口里的那段输入,而是扩展成了一个 agent, 可以 与之交互、可读可写的持久化世界。 这个文件系统及上下文的架构不仅仅是一个工程解决方案,它更为 ai agent 的 未来指明了一条激动人心的道路。我们知道,现在的 transformer 模型虽然强大, 但计算成本极高,而新兴的 s s m 架构,比如 member, 速度极快,但长距离记忆能力是它的短板。 这恰好形成了一个完美的黄金组合,用 s s m 扮演一个速度飞快的闪电大脑,负责高效处理当前内存中的任务。用文件系统扮演一个无限大的外部硬盘,负责保真的存储长期记忆。 s s m 的 弱点被文件系统的优势完美弥补了。 这个闪电大脑加外部硬盘的接口架构,正是早期 ai 研究中神经图灵机,一个能读写外部记忆带的神经网络。这个伟大梦想在现代技术下的真正实现,它为我们构建更强大、更高效、也更低成本的通用智能体,打开了全新的想象空间。 好了,今天关于文件系统及上下文的分享就到这里,如果你觉得本期内容有帮助,别忘了点赞、收藏加关注,我们下期再见!

二零二六年全网爆火的 ai agent 的 skills 最全操作文档,从 cloud skills 到 open ai skills, 再到 tree skills, 再到扣子 skills, 从收费的到免费的,从配置网络环境,再到一键操作使用,所有的操作步骤我全部都写在这个飞书文档了, 需要的兄弟们说一下,直接拿去来我们看一下我们这个操作文档,从 agent skills 方法论,再到 agent skills 的 配置环境,再到跨平台需要专线上网,再到 吹 skills 免费版,再到扣子 skills, 这个叫傻瓜式一键操作,全部都总结处理好了,现在呢,我们一个一个的来看。 首先这个 a g 的 skills 是 什么?全网都在吹这个 skills, 其实一句话总结,所谓的一个 skills 就是 一个技能, 一个技能呢,其实它就代表了一个智能体,然后呢,我们可以把多个智能体,也就是技能放在一个对话框里来同时调用,而且都是自然语言调用, 就特别方便。以前就比如说我们是润色文案,一个智能体,写爆款标题,一个智能体, 封面文字一个智能体,现在呢,只需要一个对话框,这三个技能呢同时调用,这是它的最牛逼之处。还有一点最强的就是它同时调用 python 脚本, 把外部的事实数据,不管你公司,比如说你如果是官方客服,你做一个 ai agent skills, 有 用户咨询你的货源,那你的仓库事实数据呢,就可以让这个 agent skills 事实调取特别方便。 它呢可以说是集合了以前的 prompt 提示词,再加上 m 四 p, 再加上 api 调用,脚本调用,这样一把它封装成一个一个的技能,让 ai 呢,就是在我们规定的范围内,自然语言一步到位 输出来,我们直接先看效果,你看我们左边这里,这做了三个 技能,第一个技能呢就是 news hotspot, 就是 新闻热点实时抓取的一个技能,然后抓取完之后呢, 再把它新闻热点提炼,提炼完之后,你看下面这个技能呢,根据新闻热点,润色文案,再写爆款标题。这是三个技能,但是呢,我这里是同时一个对话框就可以完成了。以前你的一个智能体,他只能干一件事,现在呢, 直接三件事,一步到位。看这里就一句话,让他帮我总结搜索最近 ai 领域热点新闻,然后提炼总结,生成一篇爆款短视频文案,以及三条爆款标题。 首先先调用了这个热点搜索的这个技能,他实时抓取热点,然后呢,搜索总结完之后呢,再写 润色文案,再写标题,就是三个技能,他会就是一步完成。你看,根据要求,已搜索二零二六年一月 ai 领域的最新热点新闻,并严格按照 这三个技能规范来生成内容。你看 ai 劲的革命爆发,二零二六年被定义为主动智能体元年,下面写的爆款短视频文案 以及爆款标题,要想搞清楚这个 skills 具体怎么来操作,怎么玩转它,我的文档呢,详细总结了 skills 的 一规范和特性, 你看它的方法论。首先呢,它就是比以前的单个智能体呢更省 talk, 也是更省钱了,说白了还有它架构模型,三层原数据 指令,包括它的资源,它包括它生态位对比、 skills 提示词和 m 四 p 工具调用、 ai 交互, 这三者的关系总结的非常清楚,其实最核心的就是它的一个原数据,一个是它的指令,那它这个指令呢?可以理解为就是我们现在的提示词。然后这个资源呢, 可以理解为他的参考文档,他的素材,他的脚本。比如之前我们润色文案的时候,里面要写开头勾子对不对?中间勾子,结尾勾子,那这些东西呢?以前直接写在一个提示词内容里面,他就非常费滔肯,现在呢, 它就把这个提示词给分层了,这一部分分层之后呢, ai 它调用的时候只调用一部分,它不会全部调用。还有一个最重要的更新就是这个脚本,有了这个脚本呢,它就可以打通和外界的数据沟通。就像刚才 我们看到这个例子,他实时抓取 ai 新闻并总结,然后写文案。当然同样道理,如果你是智能客服,问某一个商品库存还有没有剩多少,那他就可以实时抓取到你公司的后台的 erp 系统, 实时调用真实的库存,然后来回答用户的问题,就真正的做到了放手让 ai 去帮你干活。而且你这个技能呢,从指令到参考文档到素材到脚本, 它是一个标准化的封装程序,就像 cos 工作流一样,它是严格按照你这个执行的, 他不会有任何偏差,这就是 ai 进的真真正正的落地的最后一公里,你看适用场景,高频重复,每天每周都要执行的固定流程,多步骤操作是获取信息、处理信息、输出结果和发送通知, 多步骤闭环任务,还有专业的特定的行业标准,如财务分析指标这些等等,包括避坑指南,也给大家总结好了,只要按着操作就行了, 因为当你真正去涉及到一波技能调用的时候呢,它有些可能调用不上去,或者调用了之后呢,它里面规范的技能呢, 它没有完全执行,那这个时候呢,就需要一些约束条件,严格按照你的 skills 的 技能规范来执行。 下面呢,第二部分呢,这个就是 cloud skills 的 需要专线上网,因为这国外的环境配置,具体怎么操作我就不这里就不详细展开了,要有一定代码基础的人才能操作轻松一点呢,一个是扣子,这个是傻瓜式操作,还有一个就是 tree, 这个是安装在本地部署的,本地部署呢,需要一些代码基础才能搞定,要求呢稍微高一点点, 当然也不用担心,我这个文档呢,也详细总结了,操作步骤流程都在这里,包括你如何使用别人的 skills, 比如这个 get 仓库,这代码人员的天堂, 直接从这里面怎么去找官方的 skills, 然后怎么下载,然后怎么部署到你的本地,就这个翠详细的操作文档都在这里 下面呢,我们来说一下这个扣子,你看这里我总结了一个文案润色的技能,你直接一句话跟他说就行了, 根据用户输入的话题,或者对标的文案或者新闻热点进行文案润色,二创成一篇爆款短视频文案扣子,他就会自动给你生成一个 skui 技能,然后这个技能呢,你可以去测试,如果你觉得它测试的不够好呢?你看比如这里开头钩子不够好优化开头钩子爆款短视频文案 最重要的标准就是看开头有没有开好,开好了就成功一半,就是一点点的去 优化你这个技能的输出结果。那具体这个怎么去跟它优化呢?其实我们这里也有一套完整的 sop 流程,都在这个文档里面 写的很详细了,这里我就不展开了。想深入使用的话,扣子平台的 skills 呢,他只能用豆包模型,大家懂的都懂对吧?那想要效果好, 那你必须要懂一点代码技术,可以使用最牛逼的大模型,后边我会出一系列的 skills 具体应用场景的教程。其实 skills 核心就是提示词加脚本, 就是解决了以前的智能体只能处理文案, minus 呢,只能调取数据,这里呢,他直接把这个两方面给结合了,更高效、更规范、更落地。然后需要这个详细操作文档的说一下。

我强烈建议大家快点去学习如何使用这个,它就是 ai 代理,它十分钟可以完成我三个小时的工作量。接下来我就为大家演示如何十分钟为我生成一份 详细的旅行计划,行程安排,附带所有的这种费用清单。这个就是我使用 minnes 的 全流程,首先就选择它的模型,我选择是最普通的这一个,我给他下达的指令呢,就是 对这个四姑娘山的一个旅行计划做一个安排。然后呢我会让他去平台上小红书啊,前网站去寻找一些攻略,然后帮我避了一个制定路线,以及一些未来出行的交通天气等等, 然后我会特别的让他在这里,呃,注意一个点,就是登录其他网站的话,他一般都会需要扫码验证啊,登录个人账户之类的,所以说我就会让他提示我,然后我要进行扫码协助他。 最后就是生成一个表格嘛,然后就包含建议啊,推荐链接,一级总费用等等。好,然后他就会收到我的需求,然后就开始调研了, 这些就是它的一个过程,因为我给你看一下,然后它里面的内置的一个电脑, 然后它是可以在这里面一步一步的去演示它是怎么去搜索记录,去进入某每一个这种网站去搜索搜寻最合适的。 最后呢它就会生成一份这个调研报告, 我感觉他做的其实还是很详细的,然后很多都在点上 他人均费用也标得比较明确,是从成都出发, 他算是人均费用, 最后还会给出他收到最好的一个酒店的一个前台链接。好的,今天的分享就到这里。

在实践中,上下文压缩容易丢失关键信息,该怎么处理? minus 的 联合创始人 peak g 近期分享了他们在这方面的最新实践。这期内容我们将聚焦于他提出的摘药与压缩的高级方法。 首先,我们来谈谈摘药。我们都知道,摘药是一个有损的、不可逆的操作,如果提示词设计不当,就可能永久丢失关键信息。那么如何确保摘药的质量呢? pick 在 这里给出了一个极其宝贵的工程经验。常规的也是错误的做法是 给模型一个开放式的指令,比如,请总结以下内容,这种做法的输出极不稳定,模型可能会自由发挥,遗漏掉。你最关心的做法是 定义一个结构化的表单或模板,也就是 schema, 然后让 ai 去填表。这个提示词的任务不再是让 ai 自由创作,而是让它根据上下文去精确地填充这个表单里的字段。例如, 表单可以包含我修改的哪些文件,用户的目标是什么,当前任务的进度如何等等。通过这种填表的方式,摘要的输出结果变得稳定、可预测,并且确保了你最关心的核心要素永远不会被遗漏。接下来,我们来探讨一个更复杂的场景,当一个工具, 比如网页搜索返回了海量的 token 时,我们该怎么办?我们既希望 agent 能访问所有完整信息以做出最佳决策,又不希望这个庞大的信息块永久地占据宝贵的上下文空间。 pick 的 核心观点是,这取决于具体场景。策略一,对于简单的搜索任务, max 采用的是先完整返回后依赖压缩的策略,它的做法是将工具返回的全部完整的详细结果直接追加到当前上下文中。这样做的好处是,模型能立刻直接的看到并利用这些信息,效率非常高。 然后再相信我们之前讨论过的系统级压缩机制,会在未来的某个时刻自动将这个陈旧的庞大的观察结果 压缩成一个轻量级的指征。但这种做法的风险在于,我们无法预测系统级的压缩何时会发生。因此, minus 增加了一个直观重要的保险措施, 同时指示模型将它从这次搜索中得到的中间动件或关键发现,主动用 right 工具写入到一个文件中。这是为了防止系统级的压缩发生的比模型预期的要早,导致原始信息在模型还未来得及消化和提取关键动件时就丢失了。 策略二,对于复杂的搜索任务,比如需要多次查询并整合信息, menace 则采用使用子 agent 作为工具的策略。它的做法是,主 agent 不 直接调用底层的搜索工具,而是调用一个更高层次的函数, 比如 advanced search, 这个函数实际上会触发一个独立的子 agent, 这个子 agent 拥有自己完整的工作流,它可能会在内部进行多次搜索提炼,最后只返回一个固定的结构化的结果。 对于主 a 证来说,它的上下文就变得极其干净高效,所有的复杂性都被完美的封装起来了。听到这里,很多朋友可能会有一个疑问,既然我们之前在文件系统及上下文那期讲过,信息可以被安全的卸载到文件系统,只在上下文中保留纸真,但为什么在处理简单搜索时 反而要先将完整内容返回上下文呢?我们来对比一下两种流程的成本。立即卸载这个理想模式,它的代价是需要至少两次 l e o m 调用才能让 agent 开始工作。它的流程是,第一次调用 search 框架卸载并返回指向 第二次调用 redfile 框架返回内容, agent 才能看到原文并开始处理。这个过程延迟高,成本也高。而我们刚才讲的先返回原文这个策略,它的好处是只需一次 l l m 调用就能让 agent 开始工作。 它的流程是调用 search 框架直接返回完整内容, agent 立刻就能看到并开始处理。这个过程效率极高。 所以最终的工程决策是对于那些 agents 极有可能需要立即处理的工具。结果,比如一次简单的 google 搜索,选择先返回原文这个模式来换取宝贵的即时效率。正如前文所说,我们无法预测系统级的压缩何时会发生,而 pick 提出的那个 让 agent 主动写入关键动件的保险措施,正是为了对冲这种风险而设计的。好了,今天关于摘药和压缩高级方法的分享就到这里, 望 manus 带来的这些充满权衡的工程智慧,能让你在设计自己的 agent 时有更深的思考。如果你觉得本期内容有帮助,别忘了点赞、收藏加关注,我们下期再见!

大家必须要用 minus 啊,这个做调研报告简直太牛了,就是你只需要输入一个简单的,你要一份什么研究报告的提示词,然后他就跑了半个多小时吧, 把全球的跟这个,我搜的是机器人行业啊相关的这种权威的网站,数据来源,新闻渠道,然后公司的信息, 交易的信息,市场的规模都扒了一遍,跑了半个多小时,然后给我生成了一份我觉得已经非常演非常详细的研究报告了。啊,这个简直太牛了,大家一定要用起来, 然后你在对话框看到有什么问题,还可以跟他实时对话,让他去进行修改,进行验证,太牛了。

这期内容我们将聚焦于 menus langhu 创始人 pick, 即关于上下文工程的最新分享,深入解析其中上下文隔离部分的两种不同模式。首先,我们要认识问题的根源。 许多顶尖团队,比如 cohenchenchen 就 曾警告过多 agents 系统虽然功能强大,但让它们之间高效无物的同步信息很可能会成为噩梦。 不过, piggy 指出,我们不必为此绝望,因为这本质上是经典的多线城通信问题在计算机编程领域早已被深入研究。 为此,他从构语言社区借鉴了一句著名的编程哲学,作为理解上下文离的核心类比,不要通过共享上下文来通信,而要通过通信来共享上下文。 需要注意的是,原文也强调这个比喻并非完全适用于 agent, 甚至可能是错误的,但它能非常清晰地引出两种截然不同的写作模式。接下来,我们深入解析这两种模式。 第一种是通过通信模式,它的核心思想是上下文不共享。在这种模式下,子 agent 就 像一个一次性的黑盒工具人,其工作流程如下,主 agent 在 执行主任务时,会决定委派一个能被清晰分解的子任务,并生成一个工具调用,例如 code searcher。 然后, agent 框架会创建一个全新的、干净的子 agent 的 实力。这个子 agent 的 向善菌帮饱含主 agent 发出的那条指令。子 agent 独立完成工作后,会将最终产出作为一个标准的观察结果,返回给主 agent 的 亲善功能。这种模式的优点是清亮、高效、隔离性好 且成本低。但缺点也很明显, the agent 完全缺乏历史视野,无法处理依赖复杂上下文的任务。第二种是通过共享上下文模式,它的核心思想是上下文只读共享。在这种模式下, the agent 拥有完整的历史视野, 不过会以一个全新的身份和技能包来行动。其工作流程是,主 agent 先发出一个分叉动作,然后框架会为一次全新的大语言模型调用,构建一个新的体式。 这个 spunct 的 结构是子 agent 的 全新系统提示,加上主 agent 到目前为止的完整历史记录。这种模式的优点是能让子 agent 在 拥有完整历史背景的情况下,物理高度依赖上下坟的复杂任务。但缺点正如原文所强调的 极其昂贵。这背后有两个叠加的原因,第一,输入 token 花费更多,因为每个子智能体都有一个更大的输入,需要预填充。第二,也是更致命的,由于子 agent 的 系统提示和行动空间与主 agent 不 同,无法重用 kv 缓存,所以必须支付权价。最后, 我们来看看如何在这两种模式之间做出选择。忠于原文的建议是要根据任务的性质来权衡。通信模式适用于任务指令简短、 清晰,且只关心最终输出的情况,例如在代码库中搜索特定的代码片段。而共享上下文模式适用于更复杂的场景 最终报告依赖大量中间过程和历史笔记,比如进行深度研究并刊写最终报告。这给我们的启示是, 在设计多 agent 系统时,必须清楚认识到两种模式的成本与收益。默认情况下,应优先考虑更轻量的通信模式。只有当任务确实需要完整历史背景,并且我们愿意为其高昂的延迟和成本买单时,才应该谨慎使用共享上下文模式。 好了,今天关于上下文隔离的分享就到这里,希望 minus 带来的这两种架构模式能让你在设计自己的多 agent 系统时做出更明智的权衡。如果你觉得本期内容有帮助,别忘了点赞、收藏加关注,我们下期再见!

万万没想到,一款有突破性的人工智能体竟诞生于国内,并引起全球 ai 圈炸锅!作为纯中国团队的技术成果 manuals, 它只需一句指令,就能适配电脑多款常用软件,优化传统操作流程。它的核心能力超亮眼,能自主调用工具库,写代码、做小游戏,处理复杂办公任务都挺高效, 还能多任务同时跑,一边写代码一边做数据复盘,完全不卡顿。新手用着也超顺手,不用扣复杂指令,说大白话基本都能精准变需求。而且主流的办公开发软件都能兼容, 不用额外折腾,适配上手就能用。更贴心的是,完成任务后, model 才会智能学习,牢牢记住你的使用习惯和偏好。照这趋势发展, ai 说不定真能帮我们扛下不少重复性工作。这样的未来工作方式,你期待吗?

这期我们将开启一个全新的精读系列,我们聚焦的是一篇在 ai 工程界极具影响力的实战复盘文章, ai agent 的 唱下文工程构建 menace 的 经验教训。 它由 menace ai 创始人分享,之前读的关于 anthropotic 和 lion chain 的 文章更侧重于框架,而 menace 的 这篇文章满是从真实产品开发中总结出的宝贵经验和工程智慧。文章开篇,作者复盘了项目初期面临的一个关键决策, 这也是所有 ai 产品团队启动时都会遇到的问题。我们是要花费数周时间微调一个专属模型,还是基于前沿大模型敏捷的开展上下文工程?为了理解这个抉择,我们举个例子,如何把一位知识渊博的通才一生,也就是基础大模型培养成能解决我们业务问题的专科专家呢? 下面有两条截然不同的培养路径。路径一是微调,也就是专科深造之路。它的机制是用海量与我们业务相关的专业并立,让模型进行专项学习,直接改变模型的内部权重。其特点是模型会把这项新技能内化为自己的本能,成为真正的专家。 然而,正如 minus 的 作者指出的,这是一种传统且缓慢的开发模式,它的反馈周期以周围单位,就像固定在海床上的柱子,一旦基础模型更新换代,它的适应性就会很差。路径二则是上下文工程,也就是临床指南之路。这条路径和前者完全不同, 我们不改变通才医生本身,而是在他每次工作时为他提供一套完美的临床指南,也就是我们所说的上下文, 其特点是,模型并非真正成为专家,但在每次任务中都能表现的像专家。这正是 manos 团队最终选择的路径, 或者把它比作一艘能随时更换引擎的快船。它的核心逻辑与底层模型接口迭代快,适应性强,能随时拥抱未来的技术进步。那么,面对这两种路径,我们该如何决策呢?对于绝大多数希望转型 ai 的 团队来说,有一个清晰的行动指南, 默认从上下文工程开始,因为它迭代更快,门槛更低,能让团队迅速构建出产品原型并进行验证。 minus 选择上下文工程路线后也遇到了各种挑战,这篇文章总结的正是他们实践中的工程智慧。下一期,我们将深入探讨第一个经验,即如何利用 k v 缓存降低成本和延迟。

madison 真的 是有点强的,今天我让他帮我做一款模拟艾宾浩斯记曲线来记单词的网页,就这么一句提示词啊,他就按照他的步骤, 从分析到编码,一步一步帮我实现了,很快啊,速度包括规则,他理解的还是挺深入的, 理解的很准确。然后最终他帮我,嗯,部署了一个在线的预览网址,然后还可以 下载这个文件的压缩包,我已经下载下来了,打开之后就是这样的,这个做的还不错,整体来说还不错,因为我我创建了一个排组,然后导入了二十个单词,导入单词就按照他的格式,支持 csv 和文本格式,按照这里面的格式导入就行了, 然后可以学习,这里面是一个翻转的效果点,单词可以查看意思和句子,下面是有四个选项,忘记有点难记住,太简单了,就是一个模拟 ipad 四一万取现的模式, 还有一个统计的效果,他帮我做了一些统计学习的数据看板, 包括一个学习的日历,单词的掌握分布,近七天的学习趋势。整体来说一步到位,做的已经非常不错了啊,用其他的软件,其他的 ai 需要需要反复的调整,这个 max 一 步到位帮我做出来了,大家可以去试一下。

在上一期,我们探讨了 menace 团队在项目启动时做出的关键战略抉择,他们押注于上下文工程,打造了一艘能随技术浪潮更新迭代的快船。不过,这个选择也带来了一个核心挑战,在多轮循环中, a 诊就需要反复提交涌长且大部分重复的上下文, 这会直接导致高延迟和高成本。那么如何衡量并优化运行效率呢? menace 的 作者认为北极星指标 应该是 kv 缓存命中率。文章指出,这是生产级 agent 最重要的单一指标,因为它直接决定了 agent 的 延迟与成本。要理解这个指标,我们得先深入了解其底层的工作机制。 简单来说, l l m 在 处理文本时,为了避免重复计算,会把对前面每个 token 的 理解缓存下来,这就是 k v 缓存。而推理引擎利用这个缓存的核心技术叫做前缀匹配。这个过程分为两步,第一次调用时,当上下文空,我们的 prompt 由一个固定的前缀 a 和新的内容 e 组成。此时推理引擎需要完整计算前缀 a, 并将其计算结果存入缓存。 第二次调用时,我们的 prompt 变成了前缀 a, 加上新的内容二,这时推理引擎会检测到这个 prompt 的 开头部分与缓存中的前缀完全一致,它会直接加载缓存,跳过对前缀 a 的 重复计算, 只对新增的内容二进行增量计算。由此可见,虽然从 api 层面看,每次似乎都发送了完整的 prompt, 但底层的推理引擎通过这种智能的缓存复用,避免了大量的重复计算。 理解了这个机制就能明白 k v 缓存的巨大价值体现在速度和成本两个方面。首先是降低延迟,一次 l o m 调用中最耗时的步骤是处理输入的完整。 prompt 的 预填充阶段,通过复用缓存, 成千上万个前缀 token 的 计算能被瞬间加载,模型几乎可以立即开始生成内容。对于需要多轮交互的 a 阵来说,这种延迟上的优化是决定用户体验的关键。其次是节省成本。 a 阵的输入输出 token 比例通常非常悬殊,可能高达一百比一, 这意味着成本大头都花在了处理输入的上下文上。我们来看一个具体计算,假设输入一万个 token, 其中九千个命中了缓存,如果未缓存的 token 价格是每百万三美元,而以缓存的价格仅为零点三美元,那么通过优化, 这次调用的输入成本可以从三美分降低到大约零点五七美分,成本节省高达百分之八十一。所以, 高缓存命中率意味着更快、更便宜。那么作为开发者,如何在工程实践中最大化 k v 缓存的命中率呢?文章和实践经验总结了五大黄金法则。第一,开启与选型。这是最基础的前提。对于商业 api, 通常假设其后端已经做了优化, 但对于自托管模型,这就成了需要主动考虑的。工程决策必须选用像 v l l l m 上支持高效 k c 缓存机制的现代推理框架,并确保该功能以正确配置和开启。第二,保证绘画保持。这在分布式生产环境中是直观重要但容易被忽略的细节。 ga 缓存存储在单个推理进程的内存或显存中。如果服务有多个副本并通过负债均衡器分发请求,就必须通过 session id 或其他标识符确保同一个用户绘画的所有连续请求都被始终如一地路由到同一个工作进程上,否则,请求在不同进程间跳转, 每次都会遇到一个全新的空的缓存,之前所有的优化都将化为乌有。第三,保持前缀稳定。这是利用 k v 缓存的核心推理引擎的前缀匹配机制非常脆弱。 prompt 前缀中任何一个字母、一个空格, 甚至是 json 对 象中间的序略化顺序的微小改变都会导致缓存从变更点开始全部失效。因此,我们要像对待代码一样严格管理 prompt 模板和唱下文,构建逻辑,确保其输出是确定和稳定的。第四, 上下文只追加。这是实现前缀稳定的最佳战术。在 agent 的 思考循环中,最缓存友好的操作就是在上下坟的末尾追加新信息, 比如用户的最新回复或工具的观察结果。任何对上下文中间部分的修改或删除都会破坏前缀的一致性,是名副其实的缓存杀手,应该极力避免。 第五,明确标记缓存断点。这是针对特定推理框架的一种手动优化策略。原文提到,某些框架可能不支持前面所说的自动前缀匹配,它们需要开发者在 prompt 中手动插入一个特殊标记,显示地告诉引擎 这个标记之前的所有内容都是稳定不变的前缀,请为他建立缓存。使用这类框架时,开发者需要自己规划缓存的力度,并要考虑到缓存可能过期的问题。 这个断点的位置直观重要,至少要确保它包含在系统提示的结尾之后。遵循上述原则,特别是保持前缀稳定,似乎与我们之前讨论过的动态选择上下文等高级策略产生了根本性的矛盾,这正是上下文工程中最核心的架构权衡之一。 一种是性能优先的策略,可称为 f 一 赛车模式,它通过固定 prompt 前缀来最大化 k v 缓存命中率,追求极致的低延迟与低成本, 但缺点是扩展性差,上下文相对臃肿。这适用于核心能力固定、对延迟极度敏感的专才 agent。 另一种是灵活性优先的策略,可称为全地形越野车模式, 它采用动态选择上下文的方式。例如,一个客服 agent 可以 根据用户的意图动态的选择,并加载退货流程或技术支持等不同的纸类模块。它的优点是扩展性强,上下文更精准,但缺点也很明显, 它牺牲了 k 非缓存的附用,导致延迟和成本更高。我们需要理解这个权衡,并根据业务需求做出合理的架构选择。好了,本期内容就到这里,下期我们将讨论 minus 工具选择的工程智慧。

大家好,今天给大家带来一款 pc 版本的 minis, 它通过文本控制鼠标键盘,支持屏幕截图和图像对比。 下一个版本将支持多数据源功能,支持 web 构建流程图,用户不需要熟悉指令,通过拖拽即可实现 pc 的 控制。最后是丰富图像功能,接下来给大家演示,从 cnb 下载图片、修改指令文件、输入人物名称、 检查下载目录和浏览器下载历史, 选择指令文件, 点击执行,等待脚本执行,请注意观察鼠标移动与文本输入,执行过程中可以 i s keep 键终止任务, 执行成功后,程序窗口弹出,查看浏览器下载任务, 查看下载目录周慧敏五张图片下载成功,欢迎大家使用 pc minus。

近期我分享了一些上下文工程的内容,有粉丝反馈,在实践中进行上下文压缩时容易丢失关键信息,该怎么解决呢?正好构建 minus 的 经验教训。一文的作者,也就是 minus 的 联合创始人 peak g, 近期分享了他们在这方面的最新实践,其中蕴涵着满满的工程智慧,非常值得我们学习。 这期内容,我们将聚焦于他提出的上下文缩减新视角。简单的压缩二字背后,实际上隐藏着一套关于可逆与不可逆的精妙平衡艺术。 首先,我们要更新一个认知,不能再笼统的把所有减小上下文的操作都称为压缩。为了实现精细化、风险可控的管理, pick 将其严格划分为两种不同的工程操作。第一种是压缩,它的核心是一种可逆的、无损的外部化操作,其原理并非丢弃信息, 而是去除上下文中任何可以从外部重建的信息,用一个轻量级的纸针来替代。举个例子,当 agent 执行写入文件的操作时,完整结果包含文件路径和全部内容。 经过压缩操作后,我们可以放心地丢弃涌长的内容,只在上下文中保留文件路径,因为文件内容已经存储在文件系统中, agent 未来可以通过这个路径指向百分之一百无损地恢复原始信息。同样,当 agent 浏览网页后,我们可以在上下文中只保留 url, 而非整个网页的 html 原文。这种操作的核心价值在于保证信息的保真度。第二种是摘药,这是一种我们较为熟悉但风险也更高的有损不可逆操作, 只有当压缩带来的收益非常小的时候,才会将其作为最后的手段起用。不过, minus 分享了一个最为重要的新实践,来对冲不可逆的风险, 即先卸载再招标。在执行招标这个有损操作之前,系统会先采取一个保险措施,将即将被总结的一大段完整、未经处理的上下文历史 整体写入一个日制文件。这就相当于为不可密操作买了一份保险,确保即使摘要过程中丢失了关键细节,原始信息也能随时被回溯。理解了这两种操作后,我们该如何自动化地管理它们呢? minnes 给出了一套清晰的策略。首先需要定义一个出发器。 这里我们要回顾一下之前提到的核心概念,上下文腐烂。我们知道,虽然一个模型可能宣称拥有一百万甚至更长的上下文窗口,但这只是理论上的物理上限。 在实践中,当上下文长度超过一定范围后,模型的记忆和推理能力就会明显下降,出现不必要的重复、逻辑混乱等问题。那么,在工程上如何应对上下文腐烂呢?答案是定义一个浅腐烂域值。这个域值不是模型的硬性上限, 而是我们通过大量评估和测试找到的模型性能开始出现拐点,即将腐烂的临界点。正如 peak 所说,这个值通常在一百二十八 k 到两百 k tokens 之间,它将作为触发所有上下文缩减操作的务实 警报线。有了警报线,接下来就是分布执行。当上下文长度首次触及警报线时,系统第一步会优先且反复使用风险最低的压缩操作,上下会暂时减小,然后继续增长,再次出现,再次压缩, 这个循环会重复多次,直到第二步。当上下文历史中大部分内容都已经被压缩过,新的压缩操作带来的空间收益变得非常小时,系统才会起用摘药这个大招,一次性总结一大段历史,释放出大量空间。最后是 今天要深入讲解的两个至关重要的执行细节。第一个细节是保留 few shot 势利。这里有一个关键原则,压缩时永远不要压缩全部的历史记录。正确的做法是只对最旧的百分之五十历史进行操作。 为什么要这样呢?因为上下文历史不仅是记忆,更是模型学习如何行动的范例。我们必须保留最新的几个工具调用的完整格式,这就相当于告诉模型看,这是我最近几次做事的标准流程,包含所有步骤和完整信息。 这些新鲜高质量的 few shot 势例能不断校准模型的行为,教会他如何正确使用工具。如果我们犯了常见的错误,把所有历史都压缩了,模型看到的上下文中就全是像 past a 点 txt 这种缺少 content 字断的残缺范例。模型是强大的模仿者最坏的情况下,他会认为这种残缺格式才是正确的,然后在新的工具调用中,也只输出这种缺少字断的紧凑格式。 第二个细节是确保摘药质量与平滑过度。在执行摘药这个有损操作时,有两个关键原则,必须遵守。原则一, 摘药必须基于完整版本的数据进行提炼,而不是基于已经被压缩过的数据,这就好比附应用复印件再去复印,清晰度会越来越差。如果让模型总结一堆已经被压缩,只剩下纸质的信息,那它总结不出有价值的内容。所以必须找到被压缩前的原始数据, 在完整版本上进行招标,才能保证招标质量。原则二,永远要保留最后几个工具调用的完整细节,而不是全部总结掉。这就像工作交接,不能只给接手的人一份项目总结报告,还必须把最后几封关键邮件、 最后几次代码提交也交给他,他才能明白当前具体进行到哪一步了。对于 agent 来说,这最后几个完整的行动观察队 就是他保持任务连续性的锚点,他能让模型清楚自己是从哪里中断的,当前的直接目标是什么,从而能够平滑的继续任务。如果把所有东西都总结掉,模型就像突然失忆,可能会忘记自己刚才的语气风格,甚至忘记当前的子任务,导致行为和对话出现令人困惑的突然转变。 好了,今天关于上下文缩减新视角的分享就到这里,希望 minus 这套精细化的管理策略,能让你在构建自己的 agent 时,更好地平衡上下文长度与信息保真度。如果你觉得本期内容有帮助,别忘了点赞、收藏加关注,我们下期再见!

一切选择皆有密码。今天我们解码肖红,一个试图将技术 连根拔起的人。他的书架是精神的抛面,在软件工程旁是活着。乔布斯传,他或许只读懂了生存与成功,却错过了爱的任性。二零一一年秋,武汉校门口, 父母的告别是一道冰冷指令,我们的学历没你高了,所有决定你自己做。这不是送别,是一次情感的撤离。爱被简化为装备交付。他的办公室写着,万法归宗,为快不破。 为此,他将公司牵制新加坡,拒绝中资,视为一次系统优化,最终决定卖给美国,完成逻辑的终极迭代。他以为飞得更高需斩断根,却不知无踪则万法皆空。 他切割的是技术赖以生长的文化母体,他失去的是创新无法独活的灵魂。 他的故事是一场关于剥离的精准实验。他完美执行了强大的脚本,却因缺失人性的核心模块,将故土误读为驿站。这警示我们,若只教孩子征服世界的剑甲,而不滋养其理解爱与归属的心, 我们培养的便是下一批不知为谁而战的天才流浪者。物的空间是新的战场决定型的方向。你的书桌上,正上演怎样的内心戏?