粉丝4157获赞1.5万

ai 真的 能改善我的生活吗?第二集,能不能让我在做家务的时候也高效工作?我给现在火到冒烟的 open cloud 定制了一套丝滑的语音操作系统, alexa。 我 在。呃,你看一下我 doc 文文件夹里面有我所有的这个签证历史信息,我需要你分析所有的历史上的这个签证文件,然后直接把我把新的 t r v 的 申请表格填好。那你首先看一下这整个链路是否会能够跑通,你自己操作的话有什么困难? tickle voice, 我 收到了 bobblebee, 我 在。你扫描一下我的 gmail 邮箱。我最近几天我们跟很多律师进行了沟通, 然后有些新的律师又回了邮件说他们的违约金。我需要你看看把他们的回复啊进行一个分类,就是有是第一个电话要收费的,或者是第一个电话不收费的,或者是说,呃,直接没时间的,或者推荐了其他人的。你分成几类,然后我逐一再告诉你哪一类,我们怎么回复。 tickle voice, 我 收到了 jovis, 我 在。你看看我们本地有个名叫 nature trail 的 项目,现在我们昨天应该是连上了这个 s p 两千的数据库。我还没测试过它是不是跟我们现在前端的这个集成呃,能够整合在一起啊,你测试一下 告诉我。杰顿, pick a voice, 我 收到了 alexa, 好 的, aaron 要基于新光签给全家申请。 t r v, 让我先看看文件结构和表格格式,评估整个链路能不能跑通。 now, let me check the t r v form i m m fifty to fifty seven to understand the format now, let me look at the previously filled jesse t r v form to understand what data was filled bumblebee 好 的,上次我们已经处理过一轮律师邮件了,让我扫描最近几天的新回复。 好的, a n 扫完了。以下是二线限时期之后所有律师新回复的分类整理律师邮件分类,二月十八日到二月二十日新回复类别一,已完成咨询加后续总结律师,我讲请 刚出门 a m c 而且限十八。打完电话发了详细的咨询总结邮件。姜伟,好的,艾瑞让我测试 s b 两节数据跟前的集成情况,我先看看像的现状。 好的,之前已经进入了 cd 两千并修了三个版,但对手还没亲自测试前端集成,让实际一起来测试一下。好,代码看完了,现在启动 sim 实际测试一下。测试完毕,如果你也想用,关注看下一期。

昨天我在视频里讲的是在一个 opencloud 里面创建多个飞书的机器人,然后把几个飞书的机器人, 每个飞书的机器人配置一个一个 agent, 然后把他们拉到一个群组里,然后来干活,这是一种方式。评论区和 后台的私信的有朋友在问,有没有试过在一个机器人里面让它自己配置多个 agent 来来配合工作的,不需要创那么多机器人。 我,我今天晚上试了一下,可以我给大家看一下实际情况。奶油是我在腾讯云的,腾讯云服务器上的 opencloud, 它是线上的,跟我线下不冲突, 你知道我这个电脑上有两个 opencloud, 一个是腾讯云服务器里的,还有一个就是本地的。我问了他一句话,我说你可以化身多个 agent, 代理协代理协助,这还错别字儿,打快了, 他说可以,他可以化身多个 agent, 他 有多 agent 协助的能力,他的子 agent 可以 同时使用多个,最多好像是八个吧, 他可以协调他们工作,汇报结果,并行处理任务。完了他下面我把之前在豆包里面生成的我对一个团队的配置的几个角色,他们应他们是干啥的?他们的职责能力是什么?他们的工作流程是啥,什么风格什么之类的。我一股脑的又扔给了他,你看他的回复, 他说他看到已经有了这个完整的团队架构,非常专业。团队配置,他自己的角色是什么?他需要分配出几个人分别干什么? 他的角色是监督,他需要来汇总结果来汇报。他现在问我说让我告诉他品牌产品信息,以及具体需要完成什么任什么任务,这个团队 我告诉他这些任务不着急。我说请将这个团队的配置常态化,每天早晚各一次,定时提醒我同步计划和验收结果就是 一个团队的一个正常的一个工作流程。他说收到,首先他配置了配置了那个工作的文件,设了定时提醒,早上九点提醒,我做了一下验证,最后给我生成一个这个。他已经成功地配置了整个团队的一个工作 团队的架构、标准的工作流、定时提醒以及整个的工作模式。我提需求他来接受分析拆解,拆解之后是多 agent 并行执行,成果交付, 提醒时间是早九晚九,下一步就等我给他布置任务。 ok, 这个是在一个机器人里面,就在这一个机器人里面创建的一个情况。我之前有一个群组,里面是 一堆机器人,我这两种情况都配置了,我不知道这两种有什么区别,就是这两种模式他们的优劣势各是什么?我就去问了一下 ai, 我 问他一个问题是我说在飞书中创建多个机器人,为每个机器人配置对应 ai 阵和创建一个机器人让他分身多个 ai 阵的工作。 两种情况各有哪些优劣势?他分析了一下,总的来说,如果是多机器人,多 agent 这种是相对来说,它隔离做的彻底一点,就是比如它这里提到的身份隔离,用户可以清楚地识别身份权限隔离提高安全性, 消息隔离独立处理,避免混淆。故障隔离一个机器人故障不影响其他机器人的运作灵活性,但它的劣势就是配置复杂,也容易出问题,资源消耗大,这个大家可能比较关心的,因为每个独立的机器人都是独立的 api 调用的, 单机器人多 a 证的这种方式就是配置简单,维护成本低,只需要管理一个就可以了。它的劣势就是它的身份容易混淆,它的权限是共享的,所有的 a 证它共享一个机器人权限,消息路由复杂,这个有点看不懂,故障影响大,它只要有一个故障就是活,什么都不用干了。 它适用场景是对多多机器人多 agent 的, 适合这种对安全性要求比较高,而且需要区分角色的这种场景单机器的资源,单机器人多一种的就是资源有限的,或者对成本敏感的,或者是决策区分没有那么重要的,就可以一股脑的信息全放在一个地方的。 所以他给了这样一个建议,我不知道他给的这个建议大家认不认同,大家也可以讨论一下。

不得不说, ai 的 进化速度真的让人难以想象,现在连垂直领域的专业工作流都能靠 ai 完成了。没错,说的就是 mini max engine。 最近上新 expert 二点零,还发布了 maxclock 新功能, 作为一个爱搞测评的科技博主,我也是第一时间没忍住上手体验,结果真的让我震撼。 它里面的专家社区简直是个保障库,从办公效率类的 pptx 制作、 excel 处理助手,到商业金融领域的股票价值分析、行业研报等等,在这里有上万个专家级 angel 能够帮你干活。比如我身边有在做家电相关生意的朋, 又平时需要行业趋势做参考,而想快速拿到专业又靠谱的行业分析,就可以选择行业研报这个专家 angel, 让他分析家电行业的趋势,很快就能走完。研究转载格式化一整套专业流程,还会自动生成研究文档、数据文件、分析图表,最终输出一份完整的行业研究报告。 内容从家电行业整体市场规模增长、全屋智能崛起,到家电产品的节能、智能、环保等技术升级方面,再到健康智能集成、个性化舒适的消费新需求,甚至行业竞争格局都有清晰拆解。 朋友说,这比他每天花大半天查资料做出来的东西专业全面太多了,直接解放双手。而像我,平时做账号运营,节日节点要赶海报,自己设计又慢又没思路。我想设计一张马年元宵节主题海报, 只需调用海报设计师这个专家 angela, 他 立马就能按照我的需求生成完整海报。不仅配色和构图有节日氛围感, 就连明月、奔马、花灯、祥云这些元素全都完美融合,直接让我解放双手,看看这深层的马年元宵海报是不是高级又好看。 现成专家没有让你满意的,他们的专家功能还支持自定义。像我平时做科技测评,经常要整理产品参数 流程,又杂又费时间。现在只需要点击创建专家,然后把这个流程指令用自然语言告诉他,不用写一行代码,就能帮我定制一个科技测评专属 engine, 包括自动抓取产品参数、净品对比、表格生成和智能交互三大核心功能,支持的产品类型覆盖手机、笔记本、平板、相机和耳机。 这对于日常高频做数码测评需要快速对比多款产品的我来说,简直是效率神器。更贴心的是,右边的一栏,连 angela 的 名称描述和定位都自动生成好了。配置精准匹配我的工作流程,后续在我的专家里就能找到。 不仅方便随时调用可见范围设置全部可见,就可以上传社区赚积分,未来还能自定义价格交易,让个人专业能力变成可变现的工具资产。 咱就是说,这么好用又能赚的 ai 生产线工具,谁用了不直呼真香!如果说 x 的 二点零让你拥有了一个专家库, 大 max curl 就是 能随时随地的为你打工的专属助理。最近爆火的 open curl, 我 们还得下载部署找 a p i, 基本都是即刻才玩得转,门槛非常高。但 max curl 把它直接平民化了,里面提前配好各种专家级 skill, 现在我直接一键就可以部署,不用写代码,点开就能用。更方便的是,它还打通了我们日常用的办公软件,像飞书、钉钉这些主流 i m 平台都能接入。我平时工作基本都在飞书上进行, 又经常要追数码圈热点,现在只需要配置热点追踪这个 engine, 再告诉 maxclock, 我 想连接飞书,然后按照他给出的步骤去操作就行了。接好之后,可以直接在聊天框调用这个功能,比如让他帮我实时追踪最新的数码产品动态, 不管是即将发布的手机参数还是爆料价格,他都能帮我快速检查,精准核实,整理成清晰信息。我直接给他发个消息,自己摸个鱼,上个厕所的功夫,他就全部整理完了, 大大减少了我去网上查找信息的时间,让我能有更多精力提前做测评。大纲内容, max globe 已在迷你 max app 移动端面向全球同步上线,大家可直接在手机端运行 open globe, 实现多端携同。 可以说, mini max engine 的 出现,真正让 ai engine 落地到了每个人的日常工作和创作中。这么智能实用的 mini max engine, 我 不允许还有人不知道,大家快去体验吧!

下班在家无聊搭建了一个医疗智能体 a 诊,效果直接惊艳到我了。很早之前就想搭建一个智能体,碍于一直都没时间,今天早早下班就自己动手搭建了一个医疗智能体,包含了多智能体系统、数据处理技术、算法、功能模块 多方面内容及相关实现流程和要点,还给大家整理了一篇完整版教程,教程内容是针对新手的,小白也可以看懂,想搭建医疗智能体的宝子直接带回家学习吧!

我是大厂研发工程师张飞,欢迎来到张飞 ai 开发实验室这一节我们继续上一次遗留的一些问题,网友们说的一些问题。首先第一个问题就是说 这个扣炮,扣炮怎么使用这个飞书?第二个问题就是怎么这个用这个 i m studio。 第三个问题,有些粉丝说要开发这种并行的多智能体去使用,比如说 像我这样子,我可能有一个需求,有一个产品经理 agent, 还有一个市场营销推广 agent, 两个 agent 都要连接我的飞书,并且我在飞书里加上我们三个去组成一个群组去讨论问题,像这种两个 agent 同时运行在我们泡电脑上,这个该怎么去做? 主要是讲这三方面。好,那我们先讲一下飞书,飞书需要在这个飞书这个开放平台去 创建一个企业的企业资金运用,我创建的是两个,一个是市场营销推广一个 agent, 第二个是产品经理一个 agent, 两个都已经起用,那市场营销推广我们看一下子,那这里就是在创建这个 库炮的时候,库炮里边有让添加这个 app id, 还有一个密钥,把它复制过去就可以去创建了。另外创建的时候添加这个应用能力,需要添加机器能力,把它加进去在这里会显现。另外还要开一些权限管理,我们基本上开通的都是云文档 一些权限,还有事件回调这块,事件回调这块需要添加一个长连接,视角事件配置这块加一个长连接,接受事件 回调这块也可以加长连接,这样的基本上再去创建机器人就可以了。好,最关键的是这两个 app id 和 app secret 都要放到这个 call 里头,我们看一下 call 怎么去设置, call 就是 channel, 在 这里备注,这里会让你添加 这么一个 app id, 还有 app cache 在 使能保存就可以了。好,保存之后呢,我这里打开飞书就可以看到这两个 a 阵,我都给他发了我的一个飞书文档,让他去阅读,但是这里还有一些问题啊,他好像是没法去阅读这个文档, 包括这里也是我可以另外使用了他的一个浏览器的一个方式,他也没有去做,这是一个小问题,但是这里可以给大家说,可以去通过 agent 就 可以和他去交流。我演示一下子,在这里我应该是已经开启了,对, 我看看是否 model 是 否配置了。 ok, model scope 切换一下子保存好,我们再切换到飞书,在飞书这里头我给它设好营销, 你说你好看,他能回复吗?好,回复了一个。这个好,我们就做一个简单的一个演示。另外呢,我们再看一下这个 ims 六六,如果双击 ims 六六,上一次我想去 自己写代码去做,但是有一些粉丝朋友说,其实在这里面可以去创建。我们继续看一下这个 i m s 六六如何去做。 i m s 六六,一个,我们在这个爱的 provider 里边去添加一个这么一个 id 和这么一个名字。 i m s 六六,在这里就要设置一下基本的 base ul, 这边是可能你本地的一个 ip 地址加上一个端口号,再一个斜杠为一,这个 api k 可以 不用去设置,在这里是 models, 需要添加一个你在本地需要加载的一个模型设置上就可以,另外在这里需要做一些激活,在这里比如说可以是 i m s 六六,再选择它就可以去保存了,在这里我就不演示了。 好,最后我们看一下子,这个就是多智能体的一个开发需求,目前多智能体开发这块我还在去研究和尝试啊,看看能不能开发出来两个智能体并行运行在一台电脑上,目前我在和智普模型在去交流,现在有一个方案说可以做这个 智能体,但是智能体可以做两个智能体,但两个智能体它虽然说是有不同的工作区,比如说 space, 但是它同一时间只能有一个智能体去活着不可,而且它要只能支持快速的一个切换和激活第二个智能体, 但这样子就没法满足我的一个需求,说像 opencloud 那 样子,两个智能体可以和我组成一个群组,三个人一起去讨论,所以说我还在和他去交流,看有没有更好的一些并行的一些运行智能体的一些方案。好,就是这样子,谢谢大家。

兄弟们,今天我终于花费巨资两百大洋,为大家深度的体验了一把 agent 集群模式,说实话让我有点失望,为什么呢?因为我要处理的主要是长文本的写作, 结果我花了差不多一个上午的时间,先给他去搜集整理了相关的文献,每个文献的大小不超过一百兆, 所以我呢,精心的选择了五十个文献,基本上覆盖到了论文写作的所有的方面。 我把它上传到这个对话框里面之后,然后我就给出了一段非常具体的指令, 后来就等了十来分钟,他终于给我生成了一篇一万七千多字的文章。但是他生成的文章有一个有趣的地方,就什么呢?他只能提供一个 txt 的 文档,而不能生成一个合格的 word。 当我把它复制粘贴到我的 word 里面去了之后,大家可以看一下,这就是在 kimi 二点五级群模式下所生成的一个文档,长度还是可以的哈,一万七千六百二十一字。 但是他的注视就让我有点抓狂了,他有这么多注视,但是只有注视的符号,却找不到任何一个注视, 后面虽然也附了参考文献,但是和注是完全不对应的,也就是说你还得重新给他注一遍,这不是让人抓狂是什么样?而且看他生成的这个文本呢, 有点像一个文献综述,缺乏论述的逻辑性和针对性。我们再来看它,之前是在 kimi 二点五 agent 普通模式下,这里有 kimi 二点五 agent 集群模式,还有 kimi 二点五 agent 普通模式, 我就是在这个普通模式下生成的。大家看一下这篇论文,它的注是和后面的参考文献是一一对应的,你们看 是吧?非常的具体。当然参考文献的数量呢,不好说,但是他全书有一万八千多字,注是有八十六个,而且每一个注呢都能对应到具体的这个参考文献上面去,这其实就给我们省了非常非常多的时间。 所以我感觉这个集群模式,可能对于我们这些想要用它来进行长文写作的,尤其进行科研写作的这些学者呢, 未必有什么大的价值,但是他最大用处可能在编程或者其他网站平台的搭建方面,在工作流的处理方面,可能在这些方面有令我们意想不到的效果。 当然我后期可能去体验一下,看看他还有一些什么特别宝藏的东西,也就当为大家提前去踩一下坑吧。

太炸裂了,给大家看一下现在这个 cloud ops 四点六最新推出的这个 agent team 功能,就是我在这个 cloud code 里面同时开了三个 agent, 然后左边这个是主要的 agent 啊,右边上面是一个研究员 agent, 下面是一个检查质检的一个 agent, 我是 把我的一个写文案的一个本地的工作流改成了这个 agent team, 然后现在它就是能够全自动工作了,就是我只用最开始输入给它,它就会开始搜素材,找观点,然后写文章,然后再拿到下面的这个 editor, 也就是这个做质检的这个 agent 进行反复的迭代,就是右下面这个 agent 和右上面这个 agent, 它们会相互的对比 迭代,修改三轮文章,然后出来这个文章质量是很高的。我们想一个选题啊,比如说现在中美 ai 竞争谁更强? 然后他他问我,你想从什么角度切入?我就说开放式的吧,然后要客观素材全网去找,然后是公众号长文吧,两千字以上,我现在要去做饭,你帮我推进整个工作,迭代三轮,回来之后我要看到成品, 好,然后他告诉我,好的,你去做饭,我来全程推进。从现在开始我真的已经完全不用碰他了,我已经试验过了,我们可以看一下啊。右上边这个 agent 他 已经接收任务了, 开始进行工作,等他写完初稿之后,会把初稿给到下面这个 agent, 下面这个 agent 就 会根据我设定的一系列规则去给出修改意见,给到上面这个 agent, 然后上面这个 agent 就 继续改,就如此反复迭代三轮。左边这个 agent 就 主要是进行主持工作,给他们分发任务啊,相当于一个项目经理, 我觉得这个功能是非常强的,然后整个工作它应该会进行大概三十分钟左右。当然这个过程它的 token 是 可能是比较贵的,或者你用便宜的 a p i, 或者找到一些比较好的那种 a p i 渠道,可能也就几块钱吧。

我过去我们说 nomi gpt, 这是最早我们说的。对,今年呢我们会正式的整体升级,我们叫 nomi intelligence。 nomi intelligence 对, 它的模型呢叫做 n i m n i m。 对, 今年会是我们的四点零架构,四点零架构也是为了应对大家非常高诉求的,希望说 nomi 能变得更聪明。然后就是我们这里面也会用最新的这样一些强化学习的机制啊, 这个对话体验和智能程度啊,这结合我们前面讲的这个 nomi agent, 嗯,这整个的这个体验应该会有一个非常大的一个迭代,非常多非常多。我们一点点来说,像拟人交互这一块,嗯,今年的 nomi 说话和理解能力呢,会更加有真人感。 那在功能方面的话呢,能帮你代办非常多的事情了。这也是智能体非常重要的一个部分,情感陪伴上面的日常我们会加入非常多温馨的小场景。嗯,另外呢,再像一些高频体验,我们觉得高频体验提升是更重要的。是的,我们不希望通过智能体只是给用户炫技,特别是家电呢,非常重要。导航啊这样一些,是的是的。

春节放假无聊,我给自己搭了个 a 阵,好用到哭。很多同学都知道二零二六年是 a 阵的风口,其实搭建一个属于自己的 ai 智能体是我很久之前的愿望了,但工作太忙,一直没动。春节放假休息直接开干。我知道很多朋友看着觉得难,全是代码怎么搞?别担心,我熬夜把整个过程 写成了一份保姆级教程,包括从环境准备到运行智能体的全部实现过程,哪怕是纯小白跟着步骤一步步来,也能亲手搭建出来。如果你也想搭建智能体,却不知如何下手,这份教程应该能帮上大忙,留下学习,双手奉上。

你用小龙虾的时候,还在把所有的事情都放在一个窗口里指挥吗?比如我同时要写文章、发小红书、监控资讯维护、网站记账,都放一个窗口里,既浪费偷啃,效果还非常的好。改造成多 a 帧的模式, 才是给小龙虾省钱又提效的正确用法,我是这么做的。以飞书对接小龙虾为例,参考官方文档三个步骤。第一步,专事专办, 给每件事情创建单独的机器人来负责。比如我要记账,我就建一个这样的财务主管,把 opencloud 配置文件里的 channel 字段改成这样的多 account 模式,这两个 account id 记住,后面要用。第二步,多 agent 配置, 我们用这条命令给小龙虾增加一个 finance 的 agent, 等同于我们新招进来一个员工,出土化他的 identity 文件,把它捏成我们想要的形状。接着在 openclaw 配置文件里面增加 bindings 段落, 让不同机器人的消息路由到不同的 agent 上,实现分工的效果。第三步,测试验证 重启 open cloud 的 getaway, 在 飞书上分别给两个机器人询问他们的身份,如果能看到不同的回答, 那就是配置好的。后续还可以给不同的 agent 配置合适的模型,或者让他们互相派发任务。这样的工作模式可以大幅节省 token, 显著提升小龙虾的任务效果。实在是太爽了, 都不需要再雇人了。我加上小龙虾的 agent teams, 就是 超级艺人公司。关注我,带你玩转 open cloud!

下班在家无聊搭建了一个智能体 a 枕,效果直接惊艳到我了。很早之前就想搭建一个智能体,碍于一直都没时间,今天早早下班就自己动手搭建了一个智能体,包含了多智能体系统、数据处理技术、算法、功能模块多方面内容及相关实现流程和要点, 还给大家整理了一篇完整版教程,教程内容是针对新手的,小白也可以看懂,想搭建智能体的宝子直接带回家学习吧!

如果你正在做多 agent, 或者还在犹豫要不要做,我建议你可以先停下手里的活儿,花几分钟的时间听听 as ropy 的 经验。它们的实测经验显示,多 agent 的 系统比单 agent 系统性能要高出百分之九十点二。 我们还是用一个例子来看一下 esploic 是 怎么做到的。现在你让 ai 来调研一下二零二五年全球 ai 芯片的市场份额,如果只用一个单 agent, 你 丢给他两百份财报,五十篇行业研报会怎么样呢? 第一个问题是注意力稀释,当他读到第一百五十分的时候,他可能就忘了前面十分的核心数据了,即使是天才也会被淹没在海量的数据里。 第二是串行效率低的问题,他只有一双手,搜一个看一个,读完了再搜下一个,等他看完,二零二六年可能都快结束了。 第三是路径漂移的问题,他又要干活,又要做计划,搜着搜着就可能钻到细节里出不来了,完全忘了你最最开始想让他做什么。 snake 的 发现,其实单纯的堆模型能力是没有用的, 真正的解法是把一个人变成一个团队,这个团队里的老板也是核心的大脑,他来负责战略的决策。 老板是不需要亲自读网页版文档的,他的工作是来制定计划,统筹全区分配任务,而且要把这个计划写在一个本子上,防止他忘了。 员工就是 sub agent, 来负责具体的执行,每个员工只专注做一个具体的任务,有的负责提取财务数据,有的负责做做政策,有的来负责对比产品。 他们是不需要操心大局的,只需要把自己的那块工作做好,做快做准就行。这套架构最精妙的地方在于它运行的不是一个事先写好的固定流程,而是采用一个循环的模式。 首先老板要先观察已经有的数据和员工的反馈,然后再做定位,分析一下现状问题出在哪,判断一下离目标还差什么,再做一个决策决定。我们是继续深挖还是说换个路子。 最后是把指令下发给下属来进行一个具体的执行。一直循环到老板觉得没问题了,资料够了,可以发给客户出报告了,那这个循环就结束了。 我们来看一下一次典型的运行是什么样子的。当用户发送了一个调研的需求给智能体,智能体首先是先创建了一个主 agent, 也就是我们所说的老板。这个老板会生成一个初步化的研究大纲,然后把这个大纲存入到 memory 当中, 然后就根据这个大纲创建了多个子 agent, 进行一个全网的搜索。每个 sub agent 在 返回结果之前,都需要进行一个自我反思,我搜到的东西好不好,对老板有用吗? 最后老板会把所有的 sub agent 的 信息进行一个汇总,交给最后的这个 citation agent。 这个角色非常重要,他不写内容,只负责做检查, 保证报告里的每句话都能在原文里找到证据。那 agent 内部是黑盒的,多 agent 就是 多个黑盒的叠加,我们怎么能保证输出的可控性呢?实验室的版本和工业级的版本往往就差在这最后一公里上。 第一个问题是上下文的阶段导致系统失忆的问题,因为每个 sub agent 的 信息最终都会汇总给这个主 agent, 海量的数据就可能会导致对话历史迅速突破上下文 token 的 限制,一旦发生了阶段,主 agent 就 会失忆。 解法就是我们前面提到的加入一个 memory, 将核心的计划存入到外部存储当中。第二是工具调用失败的问题。 elastic 内部发现工具调用失败往往不是因为模型的问题,而是人为写的说明书是存在歧义,导致 ai 误解了工具的用法。 这个问题的解法是 astropic 内部是通过 ai 来写说明书的,他们开发了一个 tool testing agent, 让他来多次使用这个失败的工具,在失败中摸索工具的坑和逻辑漏洞,重新去写工具的说明书, 就这一项任务的整体耗时就能降低百分之四十。然后就是交错思考的方式,在提示词中强制模型在调用工具的前后进行一个显示的思考,调用前要说明你调用的理由和预期,调用之后要进行一个评估和反馈是否符合预期。 第三是路径的随机性导致评估失灵的问题。多 agent 是 非限性的,同样的查询可能跑两次路径是不一样的。传统的准确率是没有办法衡量系统好坏的。 这个问题的解法第一是模,引入模型的辅助评估,我们可以引入一个高阶的模型,作为一个裁判,针对报告的事实性和引用准确性进行一个逻辑的打分。 第二个方式是小样本快跑,不需要创建一个完整的评估体系再进行评估。我们早期的时候可以选用二十个比较有代表性的真实案例测试,那这几十个案例就可能帮我们揪出系统中存在的百分之八十的问题。第四是任务规模难控制的问题, 多 agent 的 系统有可能会为了一个简单的问题盲目的就开几十个 sub agent, 导致 token 的 消耗指数级增长。这个问题的解法是在提示词中嵌入了规模自适应的规则。 比如说简单的事实,我们可以调用一个 sub agent 三到十次的工具调用,复杂的研究可以起用十个以上的 sub agent。 最后一个是信息的归音和可信度的问题, 信息过于碎片化,可能就会出现结论和原来的信息源无法对应的问题。这里就是我们前面提到的 cetacean agent, 用来专门负责饮用喝茶。 那这整套架构的核心思想其实很简单,不要期待一个超级大脑去做所有的事情,要让专业的人做专业的事。就像一个公司老板不可能一个人把所有的事情都做完,必须要依靠团队的协助。