真的有人把 agent 搭建讲透了。二零二六年, ai agent 不 再是 ppt 里的概念,而是能真正跑起来的实战手册。很多人都知道风口来了,但一动手就卡在环境配置、框架选型上面。不是你不行,而是你没拿到正确的路线图。 我花了七天,从零复现了三个真实商用 agent 的 项目,从 python 环境搭建、 l l m a p i 接入记忆模块设计工具调用到多轮对话调度的完整电路,拆解成了一份零基础也能跟着做的实战文档。学完这份文档,你就能独立搭建一个可以商用的智能体。如果你有一台能上网的电脑,说出需要,我就双手奉上。
粉丝6151获赞3.0万

大家好,欢迎来到字节跳动 agent 实战指南。在数字化和智能化飞速发展的今天, agent 技术已经成为业务创新的关键变量。这门课我们将从理论到底层技术,再到真实的业务落地 带,大家系统掌握 agent 的 构建与应用。万丈高楼平地起,我们要想用好 agent, 首先得搞清楚它到底是什么,以及在字节跳动支撑它的技术底座有哪些。 进入第一单元, agent 概念与技术底座。首先,什么是 agent? 大家不要把它想的太复杂,简单来说,它就是一个有自主能力的软件实体, 它不仅能感知环境,还能自己做决策,采取行动。在字节跳动, agent 已经渗透到了各个业务线,比如在今日头条,它能感知你的阅读喜好,做精准推荐。在飞书,它能帮你自动处理邮件、安排会议。 它的核心价值就两点,提升用户体验,优化业务流程。 agent 能够思考,离不开一个强大的大脑,这就是大语言模型。 在字节跳动,我们主要依赖自研的豆包大模型系列,大家重点关注两个型号,一个是 double c 的 一点六,这是个全能选手,支持多模态,能看图,能理解常文本,适合绝大多数场景。 另一个是 thinking 版本,它专攻逻辑推理、数学和编码,适合处理复杂的深度任务。 选对模型是开发 agent 的 第一步,光有大脑还不够, agent 还得有手有脚,这就需要工具调用和 api 集成。大模型本身只能生成文本,但通过集成 api, 它就能查机票、订酒店、操作数据库。 为了降低大家的开发门槛,字节跳动的扣子,扣子平台内置了六十多款插件,你不需要从头写代码,直接调用现成的插件,就能让你的 agent 具备资讯阅读、旅游、出行甚至图片理解的能力。 这就是从空谈到实干的关键跨越。最后我们来看一下 agent 的 身体结构,也就是它的技术架构。 字节跳动采用的是经典的分层设计,最外面是感知层,像眼睛耳朵一样收集信息,比如用户的语音系统的状态,中间是推理层,这是核心,利用大模型分析意图制定计划。 最后是执行层,根据计划去调用工具完成任务。这三层环环相扣,感知层的数据传给推理层,推理层的指令传给执行层,执行结果再反馈回来,形成一个完整的闭环。 理论基础打好了,接下来我们进入真刀真枪的实战环节。在这个单元,我们将拆解 a 阵的开发的全流程,一直讲到怎么测试。上线 开发 agent 最忌讳的是上来就写代码。第一步必须是挖掘痛点,你要深入业务一线,看看到底哪里效率低,哪里容易出错。比如内容审核,人工看多了容易疲劳,这就是痛点。 痛点找准了,下一步是定义场景,这不能光靠脑补,你得把用户角色、目标、行为和环境这四个要素定义的清清楚楚。 比如做智能客服,你的用户是普通用户还是企业客户,他们的目标是查订单还是修故障。场景定义越清晰,后面的开发才不会走弯路。 场景定好了,接下来选大脑,也就是选模型。字节跳动的豆包系列模型很丰富,怎么选?看业务需求, 如果你做的是法律咨询,代码生成这种需要严密逻辑的任务,首选 thinking 版本,它的逻辑推理能力极强。如果你做的是短视频创意文案写作需要发散思维,那就选 dobo c 的 一点六综合模型。 选好模型还要调参数,比如温度参数,想让回答严谨就调低,想让回答有创意就调高。还有上下文窗口,如果你的任务涉及长文档分析,记得把窗口调大,让模型能记住更多信息。 模型选好了,我们要开始动手搭建了。这里有两条路,适合不同背景的开发者。 第一条路,用扣子扣子平台,它里面内置了六十多款插件,像新闻资讯、旅游出行这些功能,直接拖拽就能用,非常适合快速搭建和验证想法。 第二条路,如果你需要更深度的定制,或者要写复杂的业务逻辑,那就用 tree 平台,它提供了完整的代码开发调试环境,支持 python 进行精细化的控制。 简单说,想快用,靠子想深用锤开发完成了,能不能直接上线?绝对不行, 必须经过全面的测试。首先是功能测试,最基本的问他问题能不能答对,引导流程对不对? 其次是性能测试,特别是像双十一这种大促场景,几万人同时提问,你的 agent 能不能扛得住,这就需要测病发和响应速度。 最后还要做兼容性测试,手机上能用吗?电脑上显示正常吗?只有这几关都过了,你的 agent 才能真正走向用户。 掌握了开发流程, agent 到底能干什么?这节课我们深入字节跳动的四大核心业务场景、办公、电商、内容创作和教育, 看看 agent 是 如何解决实际问题,真正让技术落地的。首先是大家最熟悉的办公场景。以飞书为例,我们每天都要写文档开会,痛点是什么?效率低?流程琐碎。 agent 在 这里主要做两件事,第一,智能文档写作,它不是简单的纠错,而是能感知你在写什么。比如你插入一个数据表,它自动推荐合适的图标,团队意见不和,它能快速对比历史版本定位争一点。 第二,会议自动化。这是真正的大杀器。从会前自动协调大家的时间发邀请,到会中实时转写,再到会后自动生成计要并分配任务。他把开会变成了一个自动闭环,人只需要关注决策本身。 接下来是电商场景,这里的核心诉求是卖得好和管得住。在商品管理上, agent 就 像一个精算师, 他盯着市场动态,竞品一降价,他立马建议你调整策略,还能自动优化商品图片和描述,提高点击率。在库存管理上,他解决了最头疼的断货和积压问题, 他能实时监控库存,结合历史销售数据预测未来的销量。快卖空了,他自动发预警,甚至生成补货单。卖不动了,他帮你分析原因,建议是搞促销还是清库存。 这就叫用数据驱动决策。第三个场景是内容创作。无论是抖音的短视频,还是头条的图文,创作者最缺的是什么?是灵感。 agent 在 这里扮演的是灵感妙思和制作助理。做短视频时,你给个主题,比如夏季穿搭,它能直接生成创意脚本,甚至推荐拍摄地点和音乐,连剪辑节奏都能给你建议。写图文也一样,从选题推荐到生成初稿, 再到润色优化,它覆盖了全流程。注意,它不是替代人去创作,而是帮人省去枯燥的找素材、改错别字的时间,让人专注于创意本身。最后是教育场景 教育的终极理想是因材施教。以前靠人很难做到,但 agent 可以。 它能为每个学生制定个性化的学习计划, 先测你的水平和习惯,然后量身定制,学什么练什么,并且动态调整。你学的快,他就增加难度,学的慢,他就放慢节奏。在答疑环节,他不只是扔给你一个答案。 当你拍题提问时, agent 会像老师一样,一步步推导解析思路,引导你自己想明白,这才是真正的智能辅导。 agent 开发上线并不是终点,恰恰相反,这只是开始。如何通过数据发现问题,如何让他越用越聪明? 这单元,我们来讲讲 agent 的 运营优化与迭代管理。要想优化 agent, 不 能靠拍脑袋,得靠数据说话。 数据从哪来?在字节跳动,我们主要靠两套工具。第一套叫 log agent, 它就像行车记录仪,负责采集系统日记和对话日记,告诉你系统发生了什么。 第二套叫 bite track, 它更像追踪器,通过买点记录用户的点击和行为,告诉你用户到底在怎么用。把这两类数据结合起来,你才能看清 a 阵的真实表现。数据拿到了,如果用户反馈不好,通常就两个原因,要么嫌慢,要么嫌笨。 嫌慢怎么办?做减法,对模型进行量化压缩,或者加 rads 缓存,让常见问题秒回,不用每次都跑大模型。嫌笨怎么办?做加法,清洗数据,提高质量,外挂知识库,补充专业领域信息。还有一个高阶招数叫多模型融合, 简单问题交给小模型,快跑,复杂推理交给大模型,深思兼顾速度和准确率。 除了快和准,我们还要追求爽,也就是用户体验。这里有两个升级方向,第一是交互升级,别只局限于打字,要支持语音、图片甚至视频,这叫多模态交互,让沟通更自然。 第二是服务升级, agent 要有记忆,能识别用户画像,你是新手,他就引导的细致点,你是专家,他就回答的专业点。千人千面的服务才是好服务。最后 怎么判断一个 agent 的 项目做成了?我们要看三把尺子,业务上有没有降本增效,技术上稳不稳定、快不快,合规上有没有数据泄露风险。 验收通过后就进入了长期迭代期,大家要掌握好节奏,用双周小迭代来修补漏洞,优化体验,用季度大迭代来升级能力,拓展新场景,小步快跑,持续进化。 业务跑得再快,如果没有安全这套刹车系统,迟早要出事。这单元,我们来谈谈 agent 落地中最严肃的话题,如何构建安全合规的防线,以及如何应对潜在的风险。 做 agent 数据是燃料,但这个燃料很危险,我们要建立从采集到使用的全链路防护。首先是采集原则,就四个字,最小必要,不该采的绝对不采,别给自己埋雷。其次是存储,必须分级加密, 核心数据要像存金库一样,用最高级别的加密算法。最后是使用,要做好权限隔离和脱敏,客服看订单能看到手机号,中间四位就够了,没必要看全。守住这三道关,数据才安全 搞定。数据安全只是第一步,我们还得在法律的轨道上跑。合规管理讲究内外兼修,对外要死磕法律法规,在国内要看个人信息保护法,出海要看欧盟的 gdp。 二、 这些是红线,碰了就是巨额罚款,甚至下架。对内要建立审核制度,从开发到上线,每个环节都要有合规团队介入,别等产品做完了才发现违规,到时候返工的成本你付不起。 agent 上线后,我们还会面临两类风险,技术的和业务的。技术上,大模型可能会胡说八道,也就是幻觉问题。 应对办法是建立兜底机制,一旦模型不确定,立刻切回规则引擎或人工客服。业务上, agent 可能会和老流程打架, 比如员工不习惯用,或者流程卡死。这时候千万别硬推,要搞试点,先在一两个团队跑通,优化顺畅了再全面铺开。 最后,我们要专门讲讲生成式 ai 特有的风险内容。合规 agent 生成的回复如果包含虚假、低俗或者违规信息,后果很严重。 所以我们必须建立三级审核机制,试前用敏感词库过滤一遍,试中用 ai 模型实时检测,事后 还要有人工抽检。万一真的出了事故,必须要有熔断机制,一键停止服务,先把火灭了再说。课程进行到这里,我们已经掌握了 agent 从开发到运营的全套技能, 但要把 agent 做大做强,光靠单打独斗是不行的。最后一个单元,我们把视野打开,聊聊生态写作、国际化布局以及 agent 的 未来。 agent 到底好不好用?我们直接看字节跳动内部的两个标杆案例,用数据说话。 先看办公场景的飞书。 agent 集群以前安排个跨国会议平均要四十分钟,现在 agent 介入后,五分钟搞定文档写作,效率更是提升了百分之六十。再看商业场景的抖音电商, 在大促期间,智能客服 agent 承担了百分之八十五的咨询量,不仅成本降低了,还帮商家把销售额提升了。这两个案例告诉我们,办公场景看效率,商业场景看转化, 这就是 agent 的 实战价值。很多团队做 agent, 最容易犯的错误就是重复造轮子,飞书做一个大模型,抖音又做一个,资源全浪费了。我们的策略是资源互用,数据打通。 举个最典型的例子,飞书和抖音电商的跨场景协同商家在飞书里制定营销计划,数据直接同步给抖音的销量反馈,又实时回流到飞书生成报表。 要做到这一点,核心就两句话,底层模型共用一套,中间数据接口打通,这样才能形成合力。 字节跳动是一家全聚化公司,我们的 agent 自然也要出海,但这不仅仅是把中文翻译成英文那么简单,必须做深度的本地化适配。首先是文化适配,比如在欧美, agent 说话要直接高效,而在日韩,必须用敬语,表现的礼貌谦逊。其次是基础设施, 为了保证速度,我们采用了区域中心加边缘节点的部署方式,核心推理在区域中心算,简单地响应在边缘节点算,这样无论用户在世界的哪个角落,体验都是流畅的。最后,我们要往远处看一看,未来的 agent 会是什么样? 我认为有三个关键词,全场景、自主进化、生态开放。未来的 agent 不 再是单一的工具,它会打通你所有的应用,一个账号走遍天下,它也不再需要你天天教它,它能通过强化学习自己,从环境里学习进化。 更重要的是,我们会把这些能力开放出来,赋能给各行各业构建一个多模态融合的 agent 生态,这才是我们的星辰大海。 好到这里,我们的字节跳动 agent 实践手册课程就全部结束了,从技术底座到开发实战,从场景落地到生态展望,希望大家不仅学到了方法,更能把这些理念应用到实际工作中。 让我们一起用 agent 的 技术共建字节跳动智能化的未来。谢谢大家!

花三点五小时练完这三十页你的 a 阵,它的搭建就牛了!很早之前就想搭建自己的 a 阵了,一直都没抽出时间,这两天抽空搭了个多 a 阵的协助系统, 还整理了一套图,教程从需求分析、工作流搭建到智能体设计、对接、外部生态,每个步骤都拆解清晰明白。 教程内容也是专为新手打造,就算你是没接触过 agent 的 小白跟着做,也能搭出自己的技能,感兴趣的朋友可以直接抱走练手,希望能帮你少走点弯路。

他真的把 agent 搭建讲得好清晰啊!很多同学都知道 agent 是 一个风口,但到自己动手搭建的时候就不知道从哪下手。所以这两天我抽时间整理了这份 agent 搭建文档, 从基础框架搭建到真实项目落地与实现,手把手带你从零到一,完整跑完 agent 的 搭建全流程,跟着练完你的 agent 的 搭建水平就牛了。需要这份文档练手的宝子可以带走学习,希望对大家有帮助。

花三点五小时练完这三十页,你的 agent 的 搭建就牛了!很早之前就想搭建自己的 agent 了,一直都没抽出时间。这两天抽空搭了个 do agent 习作系统,还整理了一套图文教程, 从需求分析、工作流搭建到智能体设计、对接、外部生态,每个步骤都拆解清晰明白。教程内容也是专为新手打造,就算你是没接触过 agent 的 小白跟着做,也能搭出自己的智能体。对 agent 感兴趣的宝子可以抱回家上手学习。

他真的把 a 站的搭建讲的太清楚了,全网都知道二零二六年是 a 站的风口,但一到动手搭建时就一头雾水。所以我特意花了几天时间整理出这份从零到一手把手搭建 a 站的实战文档,包括从环境准备到运行智能体的全部实现过程,新手小白都能看懂, 绝会这些,不仅可以打造商用智能体,甚至还可以应聘大模型工程师。如果你也想学好智能体,却不知如何下手,来这免费领一套大模型全套学习包,只要来,各期就会发你。

逼自己啃完这次十八页,你的 agent 搭建就很牛了!很早就想搭建自己的 agent 了,一直都没时间,这两天终于抽空就搭了个 do agent 协助系统还整理出了一篇保姆级的图文教程, 从需求分析、工作流搭建到智能体设计,对接、外部生态,每个步骤都拆解清晰。教程内容专为新手打造, 就算是没接触过 agent 的 小白跟着走,也能上手搭出专属智能体。想学习 agent 的 宝子直接拿走教程练手,希望能让你少走弯路。

嘿,各位开发者朋友们大家好,今天咱们来聊点特别酷的,我们不聊单个的 ai 模型了,咱们来玩点大的,学习怎么从零开始组建并且管理一个 ai 智能体团队,让他们像一个真人开发团队一样为我们写代码,做项目。 好的,咱们今天的路线图是这样的啊,首先,我们得弄明白为什么靠一个 ai 单打独到不行,他到底有什么难言之隐。 然后呢,我给大家介绍一只梦幻级的 ai 开发团队,接着,咱们看看他们的项目计划书,再围观一下他们怎么现场写代码。最后,我会送你一本武功秘籍,教你怎么领导好这样一只 ai 大 军。好,在咱们直接看方案之前,咱们得先搞清楚我们到底要解决什么问题, 这可是问题的根。我们现在总觉得那些大语言模型简直就是无所不能的超级大脑,对吧?但真把他扔到复杂的软件开发项目里,他还能那么神吗?你看这张图,一下就说清楚了,这就像啥呢?就像让一个全才去干一个专业施工队才能干的活, 从画设计图到核水泥器砖头,再到最后的质量检查,全让他一个人包了,那结果呢?很明显,他很快就得累趴下。 所以说,问题到底出在哪呢?首先啊,你让他把一个大目标拆成一堆小任务,他就有点蒙。其次,他啥都懂一点, 但真到像系统架构这种需要深度经验的领域,他就有点虚了,而且任务异常,他聊着聊着可能就忘了开头咱们说啥了。最要命的是,他写完代码自己检查一遍,往往发现不了什么问题,缺少一个自我批判的精神。好了,既然单打独斗不行,那咱们就得换个思路了, 别再想着找一个孤胆英雄了,咱们得像一个真正的技术总监一样,开始组建团队。没错,解决办法就是把一个大问题拆开,然后呢,组建一个个私企职的 ai 专家团队。你看,我们有分析师、架构师、程序员,还有评审员,大家各干各的,但是目标一致,都盯着最终的项目。 先来认识一下我们团队的第一位成员,需求分析师,你就把他当成是咱们团队里最靠谱最细心的那个产品经理。他的活就是把用户的那些模糊不清的想法,变成一份清清楚楚、明明白白的技术需求文档。有了需求,接下来就轮到我们团队的总设计师、 架构师出场了。他会拿着需求文档画出整个应用的建筑图纸,用什么技术占模块,怎么划分数据怎么跑,全是他说了算。图纸画好了,就得有施工队了,对吧? 这就是我们的代码生成器,也就是程序员。他的任务特别纯粹,就是把架构师的设计一个字结一个字结的,变成高质量、能维护的代 码,保证设计绝对不走样。代码写完了就万事大吉了吗?当然不是!任何一个靠谱的开发团队都少不了 cold review, 所以 我们安排了双重审核员,他们就像团队里的资深技术大佬,专门负责挑刺儿,看看设计合不合理,代码有没有 bug, 保证最后交出去的东西质量过硬。好了,团队现在齐了, 那接下来是骡子是马德拉出来遛遛,咱们给他们派个活吧。任务也不复杂,就是用 python、 flask 这些大家很熟的工具,搭一个简单的员工管理网站。 你看啊,一个好的项目,他的文件结构肯定得清清楚楚。这里面呢,就定义了每个 ai 智能体是谁, 干什么,能用什么工具,比如说他能不能上网查资料,能不能读写文件,这些都得提前规定好。好了,理论说了这么多,最激动人心的部分来了,咱们一起来看看这个 ai 团队到底是怎么干活的。一步一步来,一切从这开始。 我们的分析师拿到用户那个模糊的想法之后,他不会立马动手,而是先上网搜一下,看看别人是怎么做的,学习一下行业里的最佳实践。 然后一份专业的不能再专业的 p r d, 也就是产品需求文档就出炉了,这份 p r d 呢,就传到了架构师手里。架构师一看,哦,明白了。 刷刷刷,一张清晰的系统蓝图就出来了,你看,前端 web、 数据库三层结构一目了然。程序员拿到了这份蓝图,二话不说直接开干。你看这个结果,他不只是生成了零散的代码文件,而是把整个可以直接跑起来的项目文件夹全都给你生成好了,效率惊人。最后,也是最关键的一步, 代码评选。我们的审核员就像一个经验丰富的技术总监,把代码从头到尾看一遍,嗯,国际没问题,代码也挺干净。不过呢,他还提了点专业建议,说最好再加点单元测试,保证稳定性,配置管理也得搞得更专业点。你看,这就保证了项目的最终质量。 整个流程看下来了,是不是觉得很酷?那么如果我们自己想当这个 ai 团队的领导,有哪些关键点需要注意呢?其实核心就四点,我给他总结了一下,叫专清,准,有角色要专, 就是让每个智能体只干好一件事。流程要清,谁先干谁后干活,怎么交接的门清工具要准,得给他们配上合适的兵器,比如搜索引擎,最后反馈要有,必须得有评选环节来把关质量。所以说啊,这句话总结的是真到位,咱们现在玩的已经不只是简单的自动化工具了, 这是一种全新的编程思想,我们不再只是写代码的程序员,我们是设计协助系统的架构师。好了,今天的蓝图已经给你画好了,现在轮到你来思考了,你的下一个项目准备组建一支什么样的 ai 团队来帮你搞定它呢?

为什么别人的 ai 客服能精准理解用户的需求,生成用户满意的答案?或者有些人只需要一句话就能让 ai 自动写代码,自动运行,我们的 ai 却像一个玩具一样只能和用户聊天呢? 是因为我们的模型不够强大吗?实际上是因为其他人了解了上下文工程 red 和 agent 智能体相关的 ai 系统工程的设计概念。今天我们将通过十分钟带你搞懂这些概念,有了这些你也能构建出企业级的 ai 智能框架。 首先我们会分成四个部分,先来为大家介绍上下文工程我们如何来管理我们用户和模型的交互。 第二部分,我们将会为大家介绍最火的企业知识库应该怎么去构建,解决我们用户业务的幻觉问题。第三部分,我们会通过 agent 和 mcp 来带大家讲解一下 如何解决我们的 ai 只能动口不能动手的问题。最后我们会讲解 agent to agent 这一个非常火的概念,也就是多智能体写作。我们先来解决最简单的问题,就是我们的上下文工程应该怎么来管理呢? 之前相信大家都已经听说过我们的提示词工程,也就是我们的 prompt, 那 么 prompt 它和我们今天说到的上下文工程有什么区别呢?实际上你发现你的提示词呢,就是一个一次性的指令。 那么我们上下文工程它要解决的其实是用户在和模型一直在进行互动的过程中, 它的一个实时的,一个持续的对对话的一个环境的管理。那么听起来似乎有点抽象,但是这里呢,我们邀请大家看一下右侧的图片,这里我们大模型呢它有一个上下文窗口,这里呢上下文窗口它储存了几个部分的内容,首先呢就是我们的指令, 然后呢是我们的一些知识,最后呢是大模型可以使用的一些工具。那么现在呢,我们就邀请大家看一下这个比喻,我们认为呢它是一块面积有限的黑板, 所以说我们需要去进行管理,如果不管理的话,随着我们对话轮数的增多,那么关键的信息呢就会被擦除,大模型就无法完成我们的任务。最核心的呢,我们需要关注的就是我们的 system prompt 是我们的系统提示词,这里呢就决定了大模型是一个什么样的职责,他要做什么事情,显然我们就需要让这一段提示词一直处于我们这一块这个上下文窗口这块黑板的一个顶端,让大模型一直记得他的人设。之后呢 随着用户跟大模型对话的深入,他就会有很多的历史记录,我们就需要使用到我们这里的记忆减脂, 将我们的记忆进行一个管理,把之前无用的内容呢进行剔除。最后呢保留出我们的关键信息,让大模型呢可以有效地记忆住我们之前的内容,可以看一下我们现在呢解决了我们的指令的部分,然后呢也能让我们大模型 了解我们和用户的历史记录了,那么知识的部分应该怎么来解决呢?我们之前传统的解决方案都是 rig, 我 们就来看一下 rig 如何解决。 red 技术的全称呢,叫解锁增强生成,可以看一下解锁,那么如何解锁呢?实际上我们就需要解决一个痛点问题,就是我们很多企业私有的数据大模型是没有办法知道的, 那么如果我们问他说我们企业中比如说财报是什么样的,那他就会为我们胡乱回答,所以呢我们就需要为他提供一个文档,可以看一下我们右侧的图片, 这里呢我们就需要把企业中的一些文档提供给他,通过我们的文档切片呢,我们就可以得到我们的文本块,文本块之后呢,我们就需要对每个文本块做向量化的过程,那这里呢就用到了我们的一个嵌入模型, 他的任务呢就是把我们所有的文本块中的文本转化成一个向量,转化成向量之后,我们就可以使用我们的向量数据库,把这些向量和文本块一起存储进我们的向量数据库中。这个时候呢 我们现在就需要用户进行提问,可以看一下如果用户提问我们,我们应该怎么办呢?首先还记得我们的嵌入模型吗? 我们也需要通过嵌入模型把用户的提问呢也转化成向量,这样呢才能到我们的向量数据库中进行搜索,搜索出来的结果呢,我们根据他的相关联信,我们找出一些最合适的一些文本块,这样呢我们就接下来进行一个拼接, 将我们的文本块和用户的提示词进行一个拼接,可以看到啊,我们先把找出来的文本资料, 然后呢和用户的提示词进行一个拼接,拼接完成之后呢,这时候我们交给大模型,大模型呢就根据他的一个上下文学习的能力,他本身就有这个能力, 根据我们给他提供的真实有效的内容,他就可以为我们生成出精准的答案。有了我们解锁增强生成,我们现在解决了知识的问题,那么我们大模型如何使用工具呢?我们就得为他接入工具。最近呢就很火的概念,就是我们的 ai agent, 也就是我们的智能体。 我们先来看一下智能体到底和普通的模型有什么区别,可以先看普通的 ai 呢,他就只会 进行输入和输出,我们给他内容呢,他为我们输出处理完成的内容。这里我们的智能体,我们常说智能体他是有一个叫什么自主性的,也就是说我们用户只需要给他一句话,他就可以完成整个任务, 那它到底是怎么做的呢?实际上离不开我们的 react 循环,这个 react 它是什么意思呢?它就是 reasoning and acting, 就是 思考和行动,可以看一下这个步骤。首先呢我们模型会对用户提出的问题呢进行一个思考, 思考完成之后呢,它就会规划出一系列的行动,来,决定是不是还需要再进行思考,重新规划行动, 还是说我们已经完成任务了,可以直接给用户提供最终的输出了,那如果能让模型进行行动,他就可以完成任务,那么怎么让他进行行动呢? 可以看一下我们右侧的这个表格,我们为大家呢做了一个小小的动画演示,比如说这里用户说帮我找一个潜水的地方,预算呢在两千以内,这个时候模型呢就开始思考,那么如果说用户想去潜水,我们就需要呢 去查一查这个记忆,刚刚我们讲到的是 reg 技术解锁增强生成,刚好呢其实也可以用来存储我们历史和大模型的一些交互,一些长期的记忆。这里呢我们就使用 reg 技术,让呢大模型去 reg 里面去查找我们的记忆。 通过呢我们这个 m c p 协议就引出了我们很关键的技术,就是 m c p 协议, m c p 协议呢可以看到右侧呢就是我们的 m c p 服务器, m c p 服务器呢可以看到其中呢包含很多的 m c p 工具,比如说我们刚刚的这个 ray, 然后呢第二个就是一个查找目的地,第三个呢是一个获取天气。那么大模型怎么才能使用这些工具呢?就是通过我们的 m c p 协议可以看到我们大模型呢把它需要使用工具这样一个请求包装成我们 m c p 协议支持的格式啊,可以看到 他说现在呢我要调用工具了,我现在要使用我们的知识库进行一个查询,也就是使用我们的 reg 进行一个查询,他要查询的是什么呢?要查询用户的一些偏好, 可以看到接下来呢我们 m c p 服务器就使用了 reg 的 这个工具,然后呢通过我们 m c p 协议把结果呢进行一个返回,说用户喜欢安静的地方,然后对海鲜过敏,这个时候大模型就进入了一个观察, 观察说,哎,用户对海鲜过敏,我们需要呢不喜欢人多地方,我们需要重新进行思考,规划下一步的行动。可以看到他现在思考呢,潜水两千预算,对海鲜过敏,喜欢安静,他就开始呢进入行动过程, 然后使用我们 m c p 协议到我们的 m c p 服务器上去执行相关的工具。最后呢获取到这个信息是什么呢?有一个海鲜岛,它呢不太适合,因为人很多, 大模型说显然我没有完成任务,我还需要再进行思考,进行下一轮的一个行动的规划。好,可以看到呢,他进行思考,他说这个结果不行,用户呢不喜欢海鲜,好, 他再进行行动。可以看到呢,这次他又使用了工具,这时候呢他搜索到了一个合适的结果,说这个珊瑚静蜜湾他符合预算,而且呢是符合用户需求的,这个时候他就认为说我现在呢就需要再进行思考,做下一轮的具体部署了。可以看到呢, 他这个时候一思考,发现呢,我们进根据观察结果,我们已经可以直接输出答案了,已经满足用户的需求了,那就不需要再思考了,可以直接为用户输出最终的一个回答了。 这也可以看到我们整个大模型使用工具的一个核心就使用到了我们的 m c p 协议,有了 m c p 协议呢,我们只需要开发者在我们的 m c p 服务器上做一次开发就可以呢,让兼容 m c p 协议的模型 去连接到我们的 m c p 服务器,去使用服务器中提供的工具。可以看到,我们可以说 m c p, 它就是一个 ai 时代的 usb 接口,能为我们解决非常多的痛点,可以让我们的一次开发呢,就可以把我们的工具给 所有支持这个协议的模型使用,有了 m c p 协议呢,模型就可以调用工具就可以完成一些和现实世界的互动了。那现在我们又有了智能体, 它能自动地帮我们规划,而且能完成任务,这样就足够了吗?显然还有一些问题,这里呢,我们就要引入我们最新的概念,叫 agent to agent, 就是 我们的多智能体协助我们发现一个问题啊,之前呢, 我们使用传统 ai 的 时候就会发现问题,如果呢让它编辑代码的同时再为我们做规划呢?它就显然是无法同时应付多个复杂的任务。 我们智能体也是一样,如果我们让他编辑代码的体量过于庞大的时候,我们智能体就发现他没有办法搞定所有的事情,没有办法把所有的事情都做的效果特别好。 这个时候就像我们人类社会一样,我们也需要写作,我们就在想能不能让我们的 ai 智能体也进行写作呢?可以看到,比如说我们现在呢,需要啊,需要完成一个非常复杂的业务,这个时候我们就让智能体 a 它做产品经理, 它只负责任务的拆解和分发,它理解用户的意图,然后进行任务的拆解。然后呢让我们的智能体 b 做一个工程师,它主要呢就是负责代码的编辑, 它呢会自动地思考如何编辑,然后检查我们代码生成的结果符不符合预期。最后呢它需要提交交付的呢就是它的代码。最后呢,我们的智能体 c 让它专门做一个测试, 它主要呢来发现 bug 和漏洞,然后呢它可以驳回这个代码的提交请求,这样呢确保我们的整个的质量, 代码质量是非常优秀的,这个时候就需要我们刚刚提到的 agent to agent portal, 也就是我们的多智能体之间通信用的协议,这样一个协议呢就可以让我们的多个智能体,比如说现在呢用户的这样一个智能体客户端, 它就可以通过这个 agent to agent portal 啊,通过这个协议去调用呢,比如说专门用来这个搜索的,我们谷歌的这样一个智能体,或者呢也可以使用,比如说我们想要这个去进行一个餐饮数据的一个搜索,我们也可以使用美团提供的智能体, 可显然呢有了这样一个分工,就可以让智能体各司其职,为我们提供专业的可靠的一个数据和 经过我们这个十分钟的讲解呢,我们可以为大家总结下我们总共解决了哪几个问题。这几个核心概念首先就是我们的上下文工程,它就解决了我们 ai 能够一直记忆住自己的角色,而且呢能处理好和用户对话的一些短期的记忆,可以不忘记一直为我们 提供持续稳定的服务。第二部分我们讲解的 reg 呢,就解决了我们大模型的幻觉问题,就可以呢,根据我们的知识库中提供的一些确实的文本,让大模型呢可以生成可靠的回答,而且呢还可以用 reg 技术来为我们维持一个长期的记忆。 第三部分我们讲了 m c p 和 agent, 有 了 agent 呢模型就可以自主地决策,自主地通过我们 m c p 协议去调用一些工具 去连接我们的外界,使用工具为我们执行确切的一个业务。最后我们讲解了多智能体的写作,它主要还是通过我们的 agent to agent 的 这样一个协议,有了我们这样的一个多智能体写作呢,它就可以 让我们的智能体各司其职,生成高质量的回复。那么如果你希望呢?为你的企业的 ai 提供一个非常强大的一个架构,那么这些架构就是你必须要了解的。

下班回家无聊搭建了一个 agent, 智能体好用到哭。很早之前就想搭建一个 agent, 不 过一直没抽出时间,今天早早下班就自己动手搭建了一个智能体,顺便也给大家写了一个文字版教程,教程内容是针对新手的,小白也可以看懂,想自己搭建智能体的宝子评论区扣一就可以抱回家上手练习了。

大家好,欢迎来到本期教程,在今天的视频中,我将带大家从零开始构建一个真正工程级的 ai 数据分析系统。 这个系统基于 deep seek v 三点二 spectrum 模型,你只需要上传一个 c s v 文件,然后像和人对话一样提出问题,比如去年哪个地区销售额最高,不同产品的平均价格是多少,系统就会自动帮你一个答案。还会先思考分析步骤, 把自然语言问题转化成结构化的分析计划,再由程序安全执行真实的数据计算,最后输出图表和业务及洞察总结。这意味着他不是一个简单的问答机器人,而是一个真正会规划、会调用工具、会解释结果的 ai agent。 在实际工作中,很多人都会遇到这样的问题,数据在那,但不会写 s q l, 会写 s q l, 但不会做可视化,做完图表又不知道如何总结给老板。而我们今天要做的这个系统,正是为了解决这些真实痛点。 他把分析思路交给大模型,把数据执行交给程序,把结果展示交给前端,让每个人都可以像分析师一样 使用数据。如果你正在学习 ai agent 工具,增强推理,或者想把大模型真正落地到业务场景中,那么这个项目会对你非常有价值。接下来我会带你完整走一遍代码结构和设计思路,让你不仅会用,还能真正理解它背后的工程逻辑。 现在我们进入控制台, 在开发机任务当中,这里有我之前创建的一个任务,我们直接进入主界面环境来看一下代码, 这是我的代码文件。在正式看代码之前,我们先快速理解一下整体的架构。 首先整个系统分为三个核心阶段,第一步是规划阶段,由大模型负责把用户的问题转化成为结构化的分析计划。 第二步是执行阶段,由拍丧程序按照计划对真实数据进行计算和格式化。第三步是解释阶段,模型会再次介入,把冰冷的结果转化为业务洞察。 所以你可以把这个系统理解成模型,负责想,程序负责算,而前端负责展示。这是目前最主流、最安全也最可控的 agent 架构,也叫 too augmented agent。 后面所有代码其实都是围绕这个核心思想展开的。 那在开始写代码之前,我们先准备运行环境,我们需要在终端中执行这几行命令。 首先是创建一个独立的拍丧虚拟环境,可以避免不同项目之间的依赖冲突。随后我们要激活这个环境, 让后续所有的操作都在这个隔离的空间中完成。最后我们需要安装这个项目所需要的核心依赖,包括前端展示用的 streamlight, 数据处理用的 pandas 等等,以及用于加载环境变量和调用模型的库。 需要注意的是,这些命令都应该在终端中去执行,而不是在这个 notebook 的 python 单元里。那这些准备完成后,我们就拥有了一套干净可控的工程运行环境,可以正式进入代码的实线部分。我们首先需要获取 deepsea 的 api 秘钥,我们进入 deepsea 的 官网, 我们需要创建一个 api 的 秘钥,点击创建成功之后, 系统会生成一个以 sk 为开头的密钥字符串,需要注意的是,这个密钥只会在创建时显示一次,我们需要将这个密钥复制并保存到安全的地方。那我们获得密钥之后就可以回到我们刚刚创建的虚拟环境当中, 按照这个步骤去把你的密钥进行配置。 可以看到我已经把我的密钥写入到了这个文件当中。 接下来我们正式的进入到我们的代码部分。 首先做的是基础的配置,包括设置图标的风格,解决中文的乱码问题,以及出示化模型的客户端等。在这里 我统一设置了 c 本和 mate plotly 的 样式,让生成的图标更美观,同时指定中文字体,防止在标题坐标轴当中出现乱码,这是中文数据场景中非常重要的一步。 然后通过 python dot 提取 and 文件中的 apikey, 这样可以避免把密钥写死在代码里,更安全,也更符合工程的规范。 最后我们促使化 deep seek 的 客户端,后面所有模型调用都会通过这个 class 来完成。到这里我们已经具备了调用大模型的基础能力。 那接下来就是整个项目的核心部分,规划代理,这个代理只负责一件事,那就是决定对数据做什么分析。这里我们采用了一个非常重要的设计原则,我们决不让模型直接进行数据的处理,而是强制他输出结构化的算计划。 原因很简单,如果让模型直接写代码,不仅不可控,还会存在一个安全的风险。而用 stem 去描述分析意图,我们就可以用程序严格执行,保证结果的可复现性。在代码中, 我们给模型设计了一个非常严格的系统提示词,明确规定它必须输出固定结构的 stem, 比如包含分组字段、 目标列、统计方式、是否生成图表等信息。当用户提问时,规划器会同时看到数据级的结构描述,以及用户的自然语言问题。模型不会直接给答案,而是先思考怎么分析,然后返回一个完整的分析计划。 这本质上是在做一件事,就是把人类的语言翻译成机器可以执行的分析指令。 当我们拿到孙计划后,模型的工作就暂时结束了。真正的计算会由 python 的 文件来完成。这里我们实现了一套通用的数据执行引擎,它会先自动识别日期字段, 然后转换成时间类型,并派生出年份和月份字段,方便后续按时间分析。接着根据整数中的过滤条件对数据进行筛选,然后根据计划中的分组字段和统计方式,动态执行 group 比聚合计算,并对结果进行排序输出。 这一层完全由程序控制,没有任何模型参与,保证了计算过程的安全性和可复现性。这正是 agent 架构中模型想程序算的核心思想。如果算计划中指定需要图表,系统会自动进入可适化的模块。这里根据 chart type 参数 动态选择柱状图、折线图或者丙图,并自动限制展示调目地数量,防止类别过多导致图标不可读。生成的图标不会保存成文件,而是写入内存缓冲区,直接交给 streamlight 进行展示, 这样性能更好,也更适合 web 应用的部署。当表格和图标都生成之后,我们进入到最后一个智能环节,也就是解释代理。 此时模型不再负责规划,而是扮演一位资深的数据分析师。我们把用户问题、执行计划以及真实计算结果一并传给模型,并要求他用业务语言进行解读。他会先直接回答问题,然后总结关键的趋势,给出具体的数值,最后给出一个可以执行的行动建议。 所以最终的输出不再是技术报告,而是老板听得懂的结论。这一步让整个系统从算得对升级为说得清。最后是 streamlight 的 前端界面,我们把所有的代码打包成一个可以执行的 python 文件, 然后进入到刚刚激活的环境去执行这个文件。 最后我们需要回到控制台复制完整的地址,并且到浏览器中打开。 在这个前端界面当中,我们可以上传一个 csv 文件,比如在这里我上传一个大型超市的销售数据集,我们可以在这里进行数据的结构预览, 然后输入一个自然语言问题,随后点击开始分析。系统会自动串联完整的流程,从规划执行到可视化,以及最后的洞察总结, 这里可以看到它的分析结果。 同时我们还额外展示模型的推理过程,让整个系统变得可解释可教学,也非常方便调试。 这是最后的深度洞察部分,以及它的洞察生成逻辑。到这里,我们就完整构建了一个基于 deep c v 三点二 special 的 ai 数据分析代理系统, 你已经看到它不仅能回答问题,更重要的是它会先规划再执行,最后解释,这才是真正的智能系统形态。 如果你想进一步深入 ai agent 体系化建设,可以持续关注比特哈平台,这里会不断更新前沿模型、实战教程和真实工程案例,帮助你更高效地落地 ai 项目。

今天我们来聊一个特别有意思的话题,就是咱们在构建 ai 的 时候,特别容易掉进的一个坑。 我们会看到一个 ai 智能体,它到底是怎么从一个非常简单的小问题开始,一步一步可以说是被逼着长大,最终变得又复杂又强大的。这句话我估计很多开发者听了都会心透已紧吧。 我们总想着一步到位,搞一个完美的系统出来,但结果呢,往往就是这样,花了更多的钱,效果反而变差了,调试起来更是头疼。这就是我们今天要打破的第一个迷思。 你看啊,传统的软件开发,它就像盖一栋摩天大楼,你得先有非常详细的蓝图,对吧?但是构建 ai 智能体呢?它完全是另一回事,它更像是养一颗植物, 你不可能提前设计好每一片叶子长什么样,你只能给他合适的土壤和阳光,然后引导他,让他自己去生长,这是一种思维上根本的转变。 那么准备好了吗?咱们就跟着一个 ai 智能体走一遍他的进化之旅,看看到底是哪些问题,逼得他不得不升级自己的架构,一步步成长起来的。 好旅程开始。第一站,咱们回到最开始的地方,第一级,单次 api 调用。这可以说是 ai 智能体最简单最原始的生命形态了。 比如说,你想让 ai 根据一段稿子,给你想十个视频标题,像这种特别简单,自己就能搞定的任务,一次 api 调用就足够了。 如果你非要搞得更复杂,那就有点像是,嗯,给自行车装上一个火箭出推器,看起来是挺厉害,但实际上完全没必要,纯属浪费。所以啊,这第一条黄金法则真的要刻在脑子里。如果一个 api 调用就能解决问题,那就到此为止。 千万千万不要为了用智能体而硬去用一个智能体。但是吗,现实世界很快就会给你出难题了。当一个步骤不够用的时候,我们的智能体就迎来了它的第一次进化压力,进入了第二级工作流。 你想想看,如果你想让 ai 自动减掉视频里的那些啊啊这类的口头禅,这怎么办?很明显,这事啊,一次 api 调用肯定是搞不定的。 你看,这就是第一次进化压力出现了,单一的功能已经满足不了更复杂的需求了。这个剪辑过程你看,可以分成四步,先转录成文字,然后识别出废话,接着生成剪辑计划,最后执行。 你可能马上会想,哎,这么多步骤,这肯定得用智能题了。等等,先别急,你仔细看,这个流程有一个很关键的特点,它是一个完全确定的现象的过程, 就是说,一旦开始,它就不需要人再去干域了,会一条道走到黑。这个东西,我们叫它工作流,它还不是一个真正的智能体,它非常适合用来做自动化,但它没有真正的智能 分清这一点特别重要,因为它能帮你避免一个常见的错误,就是把所有多步骤的任务都当成是需要智能体才能解决的难题。那到底什么时候才轮到一个真正的智能体上场呢? 好,现在我们到了第三集,对话式智能体,这下子,事情就开始变得好玩了。这个压力来自哪呢?主观性, 比如说,任务不再是减掉废话,而是给视频加掉合适的特效。什么是合适?这就没标准答案了。可能第一个版本太话少了, 第二个版本又太朴素了。问题不再是简单的对或错,而是品味、偏好和来回调整的创作过程。到了这个时候,你面前就两条路,一条路是给用户做一个像飞机驾驶舱一样复杂的界面,上面全是各种按钮和选项。 另一条路呢,就是提供一个对话框,让用户直接用大白话说,哎,把这个特效调得再柔和一点儿。 当你需要这种持续的人机之间的互动和反馈时,恭喜你,你才真正需要一个对话式智能体。 行,现在你有了一个能对话的智能体了,但别高兴太早,新的麻烦马上就来了,我们进入第四级智能体规模化。在这个阶段,你要面对一场关于复杂性的生存危机。 很多人啊,一上来就想整个完美的超级提示词,把所有规则都写进去,想一下子就控制住智能体, 结果呢,钱花的更多,效果反而更差。其实,正确的方法正好反过来,从一个最简单的提示词开始,看看他会干什么,然后像迅速一样,一步一步的给他增加约束和指令。 然后啊,你会碰到一个让你抓狂的现象,你给智能体加的工具越来越多,比如能上网搜索了,能执行代码了,按理说,他应该越来越强才对,但奇怪的是,他的整体表现反而下降了,这是为什么呢?怎么他越强大,反而变得越笨了? 其实啊,他不是变笨了,而是他的注意力被分散了,这就叫上下文注意力牺牲。 这就像你让一个人同时听十个人说话,结果他谁的话都听不清。智能题也一样,太多的工具介绍、聊天记录、用户指令,全都塞在他的脑子里,让他搞不清楚到底哪个才是重点。他的上下文被污染了,是时候再一次进化了。 那怎么办呢?解决方案就是上下文工程,说白了就是组建一个团队。你有一个规划者,也就是顶层的智能体,他负责总揽全局,然后他把任务分派给不同的专家。子智能体,比如说一个专门搞设计的,一个专门写代码的, 最关键的一步是,规划者只给每个专家看他完成任务所必须的信息,把其他无关的干扰全都屏蔽掉。 这个团队架构听起来很棒,对吧?但它马上又带来一个新问题,那个规划者怎么把一大段代码或者一个大文件安全又省钱地交给子智能体呢?总不能每次都把全部内容复制一遍吧?那样 token 费用太高了,而且还可能被改动。 这就逼着系统做出最后一次,也是最重要的一次进化。引入记忆系统,就是说,与其把整个文件的内容传来传去,不如把它存到一个地方,然后只传递一个像文件名称一样的指真。 这就好比我给你发个网址,而不是把整个网站的内容复制粘贴发给你一样。这样一来,既省钱又安全,记忆系统也就从一个可有无可的东西变成了必需品。 好走完了这一整段旅程。我们现在回过头来,看看到底学到了什么。现在你再去看那些网上大佬们画的看起来特别复杂的智能体架构图,是不是一下就豁然开朗了? 哦,原来那不是凭空设计出来的,而是进化的最终蓝图里面的每一个部分,那个规划者,那些专家,还有记忆系统,他们的存在都是为了解决我们刚才在旅程中遇到的某一个具体的问题。 所以你看,关键点来了,那些架构本身没毛病,他们很优雅,但问题是你不应该从优雅开始,直接去复制那个最终的蓝图。就像一个连砖头都还没学会砌的人,却一心想着要去盖摩天大楼,千万别让对优雅的追求成了你前进路上的绊脚石。 所以今天最重要的启示是什么呢?就是拥抱这种被迫成长的旅程,先去解决眼前的问题,让问题本身,而不是什么完美的蓝图来引导你的设计,这才是构建一个稳固而且真正智能的系统的正确方式。 那么你也可以想一想,在你自己的项目里,是不是也有什么功能被过度设计了呢?好,这次的分享就到这里。

周末在家用 lanchain 搭建了一个 ai agent, 效果强得离谱。 ai agent 这个词今年可谓是火出圈,但是很多小伙伴仅仅是听过却不会动手搭建。 今天我就来带大家从零开始用 lanchain 构建一个生产级的 agent 智能体,从环境配置到 agent 开发,从工具调用到企业级部署优化。图文版教程已经打包好了,感兴趣的小伙伴可以带回家动手学习。

哈喽,大家好啊,最近我在构建一个视频 ai agent, 看了很多相关的文章。当我看到 anthropic 最新两篇关于 ai agent 的 文章的时候,我觉得真的是写的太好了,我当时就一个想法,抄, 抄完我这个 ai agent 就 可以做到完美。于是呢,我就开始了新一轮的架构升级,系统提示词的升级,上下文的隔离让它有了更多的 memory, 做了一系列看起来很复杂,但是自认为很优雅的系统架构设计。 做完之后发现整个系统变得更烂了啊,原来同样的任务,现在不仅 token 的 花费变得更高更贵,效果并没有变得更好,失败的情况比原来变得更多,而且有些失败的例子呀,根本没有办法 bug。 当时我就想,啊,不应该呀啊,我真的这么弱吗? 后来我就放弃了这样一个设计啊。不过随着 ai ai 阵开发的逐渐深入,我慢慢意识到,其实 ai ai 的 设计和传统软件的设计还是有着根本的区别的。 今天我们在网上看到的文章,大家都是把一个好的 ai ai 的 最终架构展现出来,但是却很少有人去提它到底是怎么样成长到这样一个系统的,它到底经过了哪些坑。 那今天我们就结合自己的亲身经历,跟大家去聊一聊 ai ai 的 设计到底是怎么样从一个小小的 api call 成长到一个复杂的工业系统。欢迎大家收看我们今天新一期的视频。 我写代码的时候经常会想,啊,这个不是在做系统设计吗?那我一开始把架构设计的更好更晚辈,嗯,不应该更稳吗?说实话,这样的想法在传统的软件设计里面一点问题都没有是吧?你做后端,你先把 docker 这个部署模块全部都规划分好,最多就是前期慢一点,不会出什么大事,但是 ai 这个东西就不是这个样子。 呃,我后来才发现一个非常反直觉的点啊, ai agent 本身就是一个非确定性的系统,你在它上面再搭一层精致的架构,等于是在不确定性上再叠加了一层不确定性。 给我自己干过的蠢事啊。呃,我一开始只是想把一段话总结成一句话是吧?结果我直接给他上了这个 plan and execute 这样的一个模式,那原本一个 api call 就 能完成的事情,被拆成了先计划再执行 任务,没有变复杂,但是链路先变复杂了。不是 ai 不 行啊,只是说你一开始就把路走复杂了。所以我们整期内容就只讲一件事情, ai agent 是 怎么样从一个小的不能再小的问题一步一步被逼着长大的? 而在这条路上,到底是什么节点,什么样的因素导致了我们需要给他加上这样的一个架构? 就拿我们最近在做的视频 ai agent 来举例啊,我说个很现实的事情,我们这个频道其实很早就开始用 ai 了,是吧?而且用的非常的朴素。比如说这个标题,我就是一般把稿子丢进去,让他给我生成十个标题,我会挑一个。再比如说这个封面啊,我让他生成一个视觉主体,然后我自己把文字填上去说这类任务说白了就是 一次 api 靠就能搞定。如果要是为了这点事说我专门打一个 a 针加工具做记忆,搞偏派,那就真的是 给蚊子装火箭助推器啊。看起来很酷,但是完全没有必要是吧?第一条原则非常简单,非常残酷,如果你的问题一个 api 靠能解决,不要用 a 针,不要为了用 a 针而用 a 针。 后来我开始有了新的 a 需求。剪视频的时候,我发现一件很琐碎的事情,就是我有很多的语气词,有些地方说的不好,那剪视频其实就是在花时间帮自己擦屁股是吧? 自然就会想有没有办法能够让 ai 帮我把这种重复的啰嗦的地方给剪掉。这一步问题就开始升级了,你会发现这已经不是一个 api call 能解决的问题。你需要做的其实是一整条链路,先把视频转成待时间戳的字幕,然后再根据字幕判断哪些地方要剪,然后生成一个剪辑方案,回头就控制音频和视频。 这是一个多步骤问题。但注意啊,多步骤不等于 agent, 这里就会出现第二个非常容易犯的错误。很多人一看到多步骤第一反应,那我就上 agent 啊。不一定,因为这条链路有一个非常重要的特征,就是中间过程不需要用户的介入。 你可以想象,他有一个很自然的使用方式,就是我上传视频,点一下,一键剪辑,拿到剪好的结果,输入是确定的,中间步骤是固定的,输出也是一次性给到你的, 所以这种情况下, agent 反而是多余的。这种任务本质上是一个确定性的任务,哪怕它很长,步骤很多,中间有很多 ai, 它也依然是一个流程。所以在这种阶段,应该用 workflow 那 种链式结构啊,比如说 n 八 n, 比如说 def 啊,就已经完全够了,不需要对话,不需要多轮交互,也不需要让用户中途插嘴。 一个非常重要的判断指标,如果用户不需要在中间反复参与,那你大概率不需要对话 agent? 那 到底什么时候需要 agent? 我 用我自己踩过的一个坑来回答你,我当时做了一个功能啊,叫做一键生成特效啊,就像这个一键剪辑一样,我天真的以为我可以点一下按钮,然后他就给我一套我喜欢的动画效果, 但现实给了我一巴掌啊,他大概率不会一次就生成到我满意啊。有的时候风格不对,有时候节奏不对,有的时候我只想改动一个小细节,是吧?这种任务他不是对错题,他有的时候甚至是一个审美题,或者说有的时候呢,模型他的能力达不到啊,人需要去指导他,教他怎么做,他可能会需要反复的试,反复的改。 那如果这个时候你还坚持用按钮,可能会发生什么样的情况?你可能需要加很多的按钮来控制它,比如说一键重做,一键改风格,一键改颜色,一键换模板,一键生成图片,是吧?那每出现一种这种需求,你可能就会要新增加一个按键,最后这个产品就会变成一个飞机驾驶舱,是吧?很多很多的按键, 这个时候我们才天然的需要一种通用的入口,所以你真正需要狭义上的这种对话式的 agent, 通常只有两个型号。第一是你这个流程必须让人参与啊,不管是被动的模型能力达不到,还是说是主动的需要人的偏好 啊?第二就是功能选项多到前端会指数型的增长。你不能,或者说你不想为每一种功能都添加一个单独的前端的时候,你就需要用 agent 这种通用的入口。 我确定使用 agent 之后呢,我又马上犯了一个特别典型的错误,我一开始就想选一个最强、最完整,能 cover 一 切情况的 agent 框架,那种简单的技术啊,我都不想用,因为我脑子里有个幻觉啊,就是我这个问题很复杂,所以我需要一个很长很长的链,那我就必须上最硬核的后端框架。 后来我才发现啊,这其实是一个概念错误,链长并不等于你必须用复杂的调度流程很复杂,不等于后端很重。 我当时搞混的其实是两种长链的概念,当你做的是 walk flow 的 时候,你点一下按钮,他就从头跑到尾,十步、二十步,全部的连续执行。这个时候你当然会考虑这个任务的分发,重试,队列调度,还有并发恢复,因为他会真的在后端横着跑到底。 但是对话是 a 阵,不是这么跑的是吧?对话是 a 阵,长链是一种可以被人切开的那种长链,他可以每跑完一步停一下,或者说跑几步停一下,和用户进行一个交互和确认 它整体还是一条长的流程,但每一次真正执行的片段其实可以很短。这就意味着你很多时候根本不需要一上来就搭一个能连续跑二十步,还要扛住各种异常的重型调度系统。 所以我最后选了一个看起来平平无奇的方案,用的 a i s d k, 它的集成度高,上手快啊。有人觉得它没有那么无敌和万能,但是它有一个巨大的优点,就是先能把东西跑起来。 只要他能完成最基础的对话,最基础的工具调用,我们就能在真实的任务迭代里面去进行验证和修正。所以大家不要被后端迷了双眼,先跑起来比一步到位做到完美更重要。记住选型。再补充一句啊,复杂架构可能还有一个坑的地方是他会诱导你瞎设计。 当你选了一个很厉害的后端架构,比如说 long graph 啊,他会天然的诱导你做一件事情,你还没有跑任何东西就开始设计节点, 你会忍不住去想,这件事情应该拆成哪些 step, 哪些节点应该负责什么事情,数据应该怎么样在节点之间进行一个流转。听起来很专业,但是问题是你连最简单的那个问题能不能解决你都不知道。 这就像闭门造车说你车轮花的再远,路多宽你都不知道。这个地方其实是有两重不确定性的,第一个是这个问题到底能不能被模型解决,第二个就是你这个架构会不会干扰他。 所以我的建议其实很简单,就即使你选择用了复杂架构,它不是错的,但是你至少要用它最简单的用法去跑一遍。先把你这个问题的 bassline 给跑出来,知道任务的底线在哪之后,再决定我要不要加节点,要不要加更复杂的编排。 那在我把 aisdk 跑起来之后,下一关自然就是怎么样设计系统歧视词了,我马上踩了一个超级典型的坑,我想把 prompt 也写到最厉害。 我当时找了各种各样成熟项目的 prompt, 那 种被传来传去号称效果炸裂的还不够,我还专门去翻那种某知名项目泄露出来的系统提示词,我当时心想啊,别人写的这么好,我照着抄总不会差,结果两秒钟就翻车了,第一效果没有更好,第二 token 消耗直接爆炸。 举个例子,我只是想让他帮我做一个视觉设计是吧?我不给复杂的 prompt, 我 就说一句,你是一个视觉设计师,给我一个方案,他能给我一个快能用的结果。那当我把那些专业的提示词一股脑的丢进去,他开始拆步骤,规划流程,一步步执行,最后就是更慢,但是不一定更好。 我自己的经验来说啊, prompt 的 第一版不要写成那种很复杂的说明书,你可以先写的没有什么限制条件,然后看他会怎么去做啊,然后再不断的去添加你的限制条件,比如说你想让这个输出更加的格式化,你想让哪一部分进行多一点的思考啊?你给他提供一些例子,让他根据你这个例子往外进行输出, 那只要这个 agent 能够 follow 你 的指令,让他一步一步往上加东西,他能照着做。说实话啊,系统提示词这一关就已经过了,接下来你会遇到一个非常现实的问题,就是很多时候他做不好,不是这个系统提示词写的不够好,而是这个任务本身需要的能力,他根本就没有。 举个例子啊,就我让 ai 帮我做动效设计的时候,其实我期待的是他能参考网上流行的一些设计,但问题是他根本拿不到这些数据,是吧?这个时候你再怎么改提示词都没有用,不是写法的问题,是能力的缺失。所以这一步正确的动作就不是再去改系统提示词了,而是加工具。 如果我希望他能参考网上的信息,那他就必须要会搜索,我希望他写的代码是可用的,他就必须能验证。那这个时候我们才需要真正的引入工具。 当你把三四个工具加上去之后啊,你会有一个很明确的感觉,就是他开始像一个 agent 了啊, 他开始自己想清楚该用哪个工具,甚至开始把工具串起来用,这就是所谓的涌现啊,就是工具之间出现了一加一大于二这样的一个效果。 而且你要注意,在这个阶段,其实我们没有做什么复杂的架构,我们还没有去引入这样的一个规划,我们的这个系统其实也还是最基础的版本。 说实话,在刚开始加工具的那段时间啊,做 agent 的 体验就爽爆了,你每加一个工具,他就明显的变得聪明一点,之前做不了的事就能做了,之前做的很勉强的事情,现在居然能跑通了,你会忍不住继续加,继续加,继续加啊,这个时候你会非常的开心,但很快你会进入到一个非常诡异的阶段, 不是偶尔的失败,而是这个 agent 的 性能持续性的变差,成功率开始下降,准确率忽高忽低啊,有的时候他开始听不懂人说话, 而且你能明显的感觉到啊,他不是不会做,而是越做越乱。这个地方其实不是模型不行了啊,而是你的上下文开始失控了。 工具一多,每一个工具背后呢,都会有一大段说明,任务复杂,输入本身也会变得更复杂,再加上历史对话呀,代码呀,图片这种各种各样的信息,所有的信息一股脑的塞进模型里面,导致太多太散啊,模型的注意力被平均的分散掉了。 这其实是一个非常典型的现象,上下文的注意力牺牲啊,这个时候我们才真正的需要我们视频一开始提到的 anthropic 的 第一篇文章 context engineering。 context engineering 本质上只干一件事,就是在做某一类任务的时候,让模型只看到它需要看到的东西。还是拿我们这个视频 a 阵来举例啊,当我们想要设计某种视频效果的时候啊,它其实是两种不同的任务 啊。第一种是设计他关心用户的意图、视觉的风格、版式、元素、氛围,他需要大量的开放的可发散的信息啊,然后对这些信息进行分析和总结。 第二类是写代码啊,把设计好的信息进行一个实现,他关心的是明确的口令、接口的结构、输出的格式以及正确性。他需要尽量少尽量精确的信息。 如果把这两件事情混在一起会发生什么?就是任务小的时候可能还能跑一跑,但是任务一旦复杂,设计的那些信息会开始扰乱代码生成的准确性, 代码的信息可能会拖慢设计的判断是吧?两个任务相互开始污染上下文,系统需要花大量的时间去把它理清楚,但不同的任务明显需要不一样的上下文的时候, 上下文的隔离才会有益。这个时候我们才会开始考虑,我是不是需要有一个顶层的规划者啊?他知道所有权局的信息,然后去调度下面的这些执行者, 那这些执行者可能只负责一些专项任务,比如说设计的这个 sub agent 就 只负责设计相关的内容,代码的这个 sub agent 就 只负责代码的内容,并且这两个执行者通过规划者的控制,只看到自己需要的那一小撮必要信息。所以其实如果我们看到一些设计啊,他虽然设计了一个 sub agent, 但是他的这个 sub agency 和他这个顶层的这个规划者,他们看到的上下文是一样的话,那这样的一个 sub agency 就 完全没有意义。那当我们开始真正使用 sub agency 这种结构,或者说开始使用规划者执行者这种结构的时候呢,会立刻遇到一个绕不开的问题啊,我们假设用户现在给了一段代码,希望我们帮他改, 那这个时候呢?顶层的规划者会看到这个代码,但是顶层的规划者呢,不负责写这个代码,他需要把这个任务交给下面写代码的这个执行者。那问题来了, 规划者怎么把这段代码百分之百原封不动的交给执行者?最直接的解决方案,你把这个输入进来的东西就就再输出一遍呗,输出一遍,然后给到这个执行者。这一步其实非常不合理啊,因为这里发生了两件很糟糕的事情,第一个你其实是在为这个复制粘贴付费的。 输入了一段代码,输出了一段代码,其实我们只是在做 copy paste, 但是却消耗了大量的 outlook token, 我 们知道 outlook token 是 很贵的,是吧?第二件事情,你根本没有办法保证一字不差,模型并不擅长机械复制,哪怕你明说是吧,一行都不要改,他也很可能会把一个明显的 bug 给改了, 是吧?或者说你输入的这个代码里面有一个标点符号是错的,我把这个标点符号给它改正确了,我本来就是要去修 bug, 结果你还没有传到执行者,这,是吧? bug 就 被解决了。这样的情况在很多场景下可能是灾难性的,所以在这一刻我们意识到了一件事,有些信息我只想存着,而不是让模型反复读写。 那到这个时候啊,我们必须得引入 memory 记性,也很简单啊,它不是在传递这个内容,而是在传递内容的指征。 也就是说顶层的规划者看到这串代码之后呢,他就把这段代码写到一个文件系统里面啊,然后这个文件系统对应的这个文件名是什么?那他告诉下面这个写代码的执行者的时候,他就说啊,你需要改这段代码,这个代码存在了哪,然后执行者需要做的一件事就是他根据这个文件名把这个内容给读出来,然后去改代码就可以了。 在这个过程里面呢,规划者不输出完整的代码啊,执行者不依赖于这规划者的输出,从而让输出的投坑成本直接下降,让错误率明显的降低。所以这一整段其实都是在讲一个判断,就是当你开始做上下文隔离的时候, 当你需要开始传递不能改动的长内容的时候,记忆系统就不再是优化项,而是一个必需品。 那我们把这个记忆系统的概念引入之后呢,我们又会听到一个很常用的说法,就是,哎,有内存,有外存啊。那这两个词其实没有那么玄乎啊,他的区别也很简单,就是如果在这轮对话结束之后就消失了,就是内存。 如果说多轮对话他都能拿到的东西呢?就叫外存,这不是两种神秘的能力啊,本质上就是说我需要做一个决定,这个东西存在哪,存多久? 为什么有这样的差别?因为有些信息它就只对这一轮有用,如果你把它写到外面去,是吧?继续带着它,很有可能会变成噪音或者污染下一轮的这个行为啊,所以它就应该留在内存里。但有些信息呢,就必须跨轮次地保存,最典型的就是像 cloud code, 像 cursor 里面的那个 to do list。 呃,任务的步骤比较多,中间需要用户的确认,那你引入了一个外部的状态系统来去告诉 ai, 我 们现在走到第几步了,用户给了什么样的输入,我下一步该执行什么了?所以不要一上来看到哦,记忆体内存,外存我都要用是吧? 顺序永远都是你走到这个阶段啊,发现不用不行了你才用。那最后当你有了这种 sabotage 的 系统,有了上下文隔离,有了这个记忆体系统之后啊,整个系统会变得非常的复杂,也很难的去进行调试,或者说去进行一个 debug, 这个问题就变成了,我到底怎么样评价他?哪里做的好,哪里做的差啊?答案只有一个,我们把每一次的运行全过程全部都存下来啊,对方要存的不是结果,要存的是过程,存他到底用的哪些工具? 工具调用的顺序是什么?每部消耗了多少?偷看啊,有哪一些上下文根本没有被用到?有哪些信息不应该给到这个执行者?是当你回头去读这样一整个流程的时候,你才会知道怎么样能够把任务规划到更快,偷看用的更少,成功率更高。 那到这一步啊,你会突然发现了,哦,原来我们之前读的两篇文章和这样的一个系统才终于是对上了 啊。 long run task 为什么一定要 memory 是 吧? context engineering 到底是在做什么?我最开始失败的原因其实不是这两篇文章不对,而是我当时所处的那个阶段还不需要用到这些东西啊。 他们这种比较成型的文章更像是一个毕业设计的完整图纸。当你已经做过中间所有的实验,踩过坑回头看的时候,你会发现他其实设计的很完美,设计的很精巧。但是如果你第一天开始学画这个图是吧,就直接照着这个毕业设计去进行一些施工,你大概率连第一根这个梁你都立不起来。 问题不是这些架构不够优雅,也不是你不能选择优雅的架构,而是你不需要一上来就优雅,千万不要让优雅变成你 ai 系统设计路上的绊脚石。

我们正站在一个技术革新的临界点, ai agent 不 再是科幻概念,而是正在重塑我们与机器交互的方式。它们不再是被动的工具,而是主动的参与者,拥有自主性目标导向和持续学习的能力。这不仅仅是技术的进步,更是我们工作方式、生活方式乃至思维方式的深刻改革。 到底什么是 ai agent? 简单来说,它就是一个具备自主性的智能实体。想想看,一个真正聪明的助手,他能理解你的需求,独立完成任务,甚至还能从经验中学习,变得越来越懂你。 这就像一个微型的人类代理人。或者更形象点,像一辆自动驾驶汽车,它有自己的目标,比如安全到达目的地,并且会根据路况不断调整驾驶策略。关键在于它不是简单的执行命令,而是有意识地去达成某个目标。 一个强大的 ai agent 背后是四大核心能力在支撑。首先是感知,就像我们的感官一样,它需要通过各种渠道获取信息,比如传感器、数据、网络爬取的信息等等。 然后是认知,这是大脑的功能,处理感知到的信息,理解环境,进行分析判断,形成决策。接着是行动,有了决策就要付诸实践,与环境互动,推动目标实现。 最后也是最关键的是学习能力,他能从每一次成功或失败中总结经验,不断优化自己的模型和策略。就像 alpha go, 他 能感知棋盘,认知局势,落子行动,还能从对弈中学习,最终超越了人类顶尖棋手。 这些听起来很酷炫的 ai agent, 到底能用在哪些地方呢?应用场景非常广泛,最直接的就是自动化流程,比如 rpa 机器人可以自动处理大量重复性工作,智能客服可以二十四小时在线解答用户问题,甚至 ai 还能辅助内容创作。 再比如个性化服务,像我们每天都在用的推荐系统,背后就是 ai agent 在 分析我们的喜好,提供定制化内容,还有智能决策支持。在金融、风控、医疗诊断、供应链管理等领域, ai agent 可以 提供更精准、更高效的决策建议。 更前沿的像原宇宙、数字、孪身、自动驾驶,这些都离不开 ai agent 的 深度参与。未来趋势很明显, ai agent 将从处理简单任务逐步走向处理复杂任务,从辅助决策走向自主决策。 了解了 ai agent 的 概念和应用,接下来我们来看看如何构建它们。市面上已经涌现出各种各样的开发框架,就像给开发者提供了不同的工具箱。 这里猎取了十五个值得关注的框架,包括大家可能已经听说过的 auto gpt、 land chain、 crew、 ai 等等。 每个框架都有自己的特点和适用场景,选择哪个框架取决于你的具体需求、团队的技术占以及可用资源。 没有绝对最好的,只有最适合的。先来看 auto gpt, 它的核心卖点就是自动化和零代码。 如果你没有编程背景,但又想快速构建一个基于 gpt 的 智能体, auto gpt 绝对是个不错的选择。它能自动规划任务步骤,调用各种工具,甚至帮你执行操作, 非常适合用来快速验证想法。或者搭建一些简单的个人助理,比如自动帮你整理社交媒体内容、回复邮件等。当然,它的局限也很明显,对于复杂任务的可控性和处理能力相对较弱,更像是一个傻瓜式的工具。 如果说 auto gpt 是 傻瓜相机,那么 landchain 就是 专业的单反相机。它提供了极其丰富的模块化组建,你可以像搭积木一样灵活组合 prompt 模板、各种 l l m 模型、记忆机制、外部工具以及不同的 agent 类型。 lanchen 的 生态非常强大,社区支持也非常好,文档齐全,插件丰富。无论是构建复杂的智能问答系统,还是开发面向特定行业的垂直领域,智能助手, lanchen 都能提供强大的支持。 它的灵活性和可定制性是其最大的优势,但也意味着上手门槛相对较高。可路由 ai 则带来了一种全新的思路,团队协助。 他不再是一个人单打独斗,而是模拟人类团队的工作模式,将一个复杂任务分解成多个子任务,分配给不同的角色智能体,比如研究员、分析师、报告转写员等等。这些角色智能体可以相互协助、信息共享,共同完成整个任务。 这种模式特别适合处理那些需要多方面知识、多角色配合的复杂任务。比如,你可以构建一个智能客服团队,每个角色负责不同的客户问题类型,或者开发一个多角色协调的智能分析系统,分别负责数据收集、分析、可量化和报告生成。 q ai 的 优势在于提升效率和解决复杂问题的能力,让 ai 写作更接近人类团队。除了前面提到的三个明星框架,还有很多其他值得关注的 ai agent 框架,比如 baby agi, 它非常简洁,适合初学者入门学习,快速搭建一个简单的任务管理智能体 character 点 ai 则专注于打造极致的对话体验,擅长创建个性鲜明的拟人化角色,非常适合聊天机器人、虚拟偶像等场景。 auto gen 则强调多智能体之间的动态协助,能够处理更复杂的任务流程。当然,还有更多其他的框架,比如 react agent、 scope 等等。选择哪个框架没有标准答案,关键是要结合你的具体项目需求、现有的技术战以及团队成员的能力来综合考虑。 有了框架,还需要给智能体配备合适的工具,才能真正让它发挥作用。这些工具就像是智能体的外挂,能极大地扩展它的能力边界,让它能够连接和操作外部世界常见的工具类型有很多,比如 api 工具,可以调用 google 搜索、天气预报、地图导航等服务。 数据库工具用于查询和管理结构化数据。代码解释器,允许智能体运行代码片段进行计算或数据处理。 浏览器工具可以访问网页、抓取信息等等。选择合适的工具链是构建强大 ai agent 的 关键一步,需要根据具体任务需求、工具的可用性和安全性等因素综合考量。 理论讲了不少,现在我们来点实际的,如何构建你的第一个 ai agent。 首先,明确你的目标,你希望这个智能题做什么? 解决什么问题?应用场景是什么?其次,选择合适的框架,根据你的需求和技术栈,从前面介绍的框架中挑选一个。第三步,设计工具链,为你的智能体配备必要的外部工具,让它能够获取信息,执行操作。 第四步,也是最重要的一步,迭代优化,不断的测试评估智能体的表现,发现问题,改进模型、调整参数,这是一个持续循环的过程。 最后,别忘了理论考量、数据隐私、算法安全、结果公平性,这些都是我们必须严肃对待的问题。 ai agent 的 未来充满想象空间,它们将变得更加智能,更加自主,最终会渗透到我们生活的方方面面。 多模态融合、人机合作,甚至通用人工智能都是未来的发展方向。当然,机遇与挑战并存,技术突破的同时,我们也需要建立相应的逻理规范,思考其对社会带来的声援影响。我的建议是,积极拥抱这项技术,去探索、去实践、去创造, ai agent 的 无限可能等待着我们去开启。

下班回家无聊搭建了一个 agent 智能体,好用到哭。很早之前就想搭建一个 agent 智能体,不过一直没时间,今天早早下班就自己动手搭了个智能体, 还把搭建过程整理出来了,教程内容就算是新手小白也能看懂。想自己搭智能体的宝子留下学习暴走教程上手练。

周末在家用 lan chain 搭建了一个 ai agent, 效果强得离谱。 ai agent 这个词今年可谓是火出圈,但是很多小伙伴仅仅是听过却不会动手搭建。 今天我就来带大家从零开始,用 lan chain 构建一个企业级的 agent 的 智能体。从技术架构设计到生产环境部署设计的核心概念、工具调用与安装方法、性能优化以及成本分析等方面, 每个环节都凝聚了我在实际项目中的经验积累。我们内部整编了四百集 ai 从零到进阶实战教程,现在开放共享已经打包好了,感兴趣的小伙伴可以带回家动手学习。

很多同学想转行 ai 相关的职业,或者是转行智能体相关的这种工作,今天发现了一个项目,是一个在 github 上面一个外国人开源的呃 agent 的 这种就智能体的学习的教程, 通过六周的时间来详细地去学习智能体相关的一些开发工作,它可以在科室里面就是 那个代码编辑器里面直接来学习,这里面给出了每一周学习哪些内容,然后需要做哪些操作,里面都有一些比较完整的操作的步骤,然后这里面需要调用一些比较前沿的模型, 在这个里面的话需要自己大家去购买和配置一下,大家想学这一部分的话可以来看一看。