大家好,欢迎来到本次 ai 的 教程,在今天的分享中,我们将一起探索 ai 的 世界,从基础概念到高级应用,全面了解这项革命性的技术。 无论你是初学者,还是希望深化理解的开发者,都能在这里找到有价值的内容,让我们开始吧! 本次教程将分为五个部分,首先我们将深入探讨 ai agent 的 基础概念和工作原理,接着我们会介绍构建 agent 所需的各种工具和平台。 然后我们将学习如何使用 cool、 ai、 land chain 等框架构建 ai 工作流。之后我们会探索前沿的 web coding 概念。最后,我们将通过 python 代码手把手教大家如何实现一个完整的 ai agent。 现在我们正式进入第一部分 ai agent 的 基础与原理。在这一章,我们将一起揭开 ai agent 的 神秘面纱,理解它的核心构成、工作机制以及背后支撑它的底层技术,这是我们后续学习和实践的基础。 那么究竟什么是 ai agent? 简单来说,它是一个能感知、思考并行动的智能程序,它的核心公式包含了大脑 l l m、 规划、工具使用和记忆这四个部分。 这意味着我们需要转变思维,从过去简单的问答模式转向让 ai 主动为我们完成任务。就像一个私人助理,你只需要告诉他目标,他就能帮你搞定一切。 一个 e i agent 主要由四个核心组建构成,首先是 l l m, 也就是他的大脑负责思考。其次是规划模块,像项目经理一样分解任务。然后是工具使用模块,让 agent 能与外部世界互动。 最后是记忆系统,帮助 agent 记住上下文和经验这四个部分协同工作构成了 agent 的 强大能力。 ai agent 的 工作原理可以用一个简单的循环来概括,感知、思考、行动。首先他感知到用户的输入,然后他的大脑开始工作,理解意图、规划步骤并参考记忆。接着他调用工具执行行动,最后根据反馈进行调整。 这个循环不断进行,直到任务完成。与传统聊天机器人最大的不同在于, agent 是 真正去做事的。 要理解 e i agent, 我 们还需要了解它背后的技术架构。这个架构从下至上分为五层,提供算力的基础设施层、存储数据的数据层,包含大模型的模型层、提供开发框架的框架层以及最终面向用户的应用层。 每一层都为 agent 的 智能行为提供了必要的支撑。 llm 是 agent 的 大脑。现代 llm 大 多基于 transformer 架构,它通过自主意力机制来理解语言。 llm 具备文本生成、逻辑推理等多种能力,在 agent 中扮演着识别意图、规划任务等关键角色。当然,它也有局限性,比如可能产生幻觉知识也不是实时的。 与 ai 大 脑对话是一门艺术,这就是提示词工程。一个好的 prompt 需要清晰、具体并提供足够的上下文。我们可以使用零样本、少样本甚至思维链等技巧来引导模型。 精心设计的 prompt 是 agent 能否正确理解任务的关键。在 ai 世界里, token 是 语言的基本单位。 理解 token 非常重要,因为它关系到模型的输入限制、 api 的 计费以及模型的性能。一个 token 大 约相当于四分之三个英文单词或一到两个汉字。在开发 a 证时,我们需要管理好 token 的 消耗,以优化成本和性能。 推理和规划是 ai agent 区别于简单聊天机器人的智慧所在。推理让 agent 能够从已知信息中得出结论,而规划则让它能将一个大目标分解成具体的步骤。 通过思维链、自我反思等技术, agent 能够解决复杂的、需要多步操作的任务。 向量数据库是连接 ai 与外部知识的桥梁,它通过将文本转换为向量并进行相似度搜索,解决了 l l m 知识陈旧和无法访问私有数据的问题。 使用向量数据库, agent 可以 突破自身的知识限制,获取实时信息,并大大减少幻觉的产生。 reg 即解锁增强生成是让 ai agent 拥有无限知识库的关键技术。它的工作流程分为离线和在线两个阶段。离线时,我们准备好知识库并将其存入向量数据库。 在线时, agent 在 回答问题前会先从知识库中解锁相关信息,然后再生成答案。这使得 agent 的 知识既新又专,而且答案更加可靠。 上下文工程简单来说就是管理 agent 的 记忆。 agent 需要记住短期的对话历史、长期的用户偏好以及外部的知识。 由于模型的上下文窗口有限,我们需要通过总结、过滤、动态路由等策略来管理这些信息,确保 agent 在 多轮对话中能够保持连贯和智能。 a 阵的架构是构建智能体的蓝图,常见的有反应式、渗丝式和混合式架构。反应式架构简单,快速向膝跳反射。渗丝式架构能深思熟虑,但速度慢。混合式架构则兼顾了两者的优点。 经典的 bdi 架构将 agent 的 心理状态划分为信念、愿望和意图。现代的 agent 的 架构大多是混合式的,以 llm 为核心,让智能体具备了更强的理解和规划能力。 harness engineering 及限速工程关注的是如何将 ai agent 从一个实验原型转变为可靠的生产级应用。它包含了鲁棒性、可观察性、可扩展性、安全性和可维护性等多个核心维度。 通过配置管理 c i、 c d 等成熟的工程实践,我们可以确保 agent 在 复杂的真实世界环境中稳定、可靠的平滑过渡。 harmys agent 以希腊神话中的信史神命名,通常在多智能体系统中扮演协调者的角色。他负责接收顶层任务,将其分解并分发给不同的专业 agent 去执行,最后再将结果汇总。 harmys agent 是 实现复杂多智能体协助的关键,大大提升了系统处理复杂任务的能力。 接下来我们进入第二部分,智能体工具与平台。在这一章,我们将了解为 ai agent 配备的各种工具,以及能够加速 agent 开发的各类平台。这些工具和平台是 agent 能力的延伸和实现的基础。 ai agent 的 能力边界取决于它所拥有的工具。这些工具种类繁多,包括信息解锁工具、计算工具、文件操作工具和自动化工具等。 agent 通过标准化的函数调用机制来使用这些工具,从而与外部世界进行交互,完成实际任务。 理论说完了,我们来动手实践一下。这里是一个简单的开放伪代码示意,展示了一个天气穿衣助手 agent, 它包含了记忆工具和核心的执行逻辑。通过这个例子,我们可以直观地看到 agent 是 如何感知用户,输入调用工具并最终生成结果的。 桌面级智能体将 ai 能力直接带入我们的个人电脑,它们可以直接与操作系统和本地应用交互,比如自动处理 excel 表格,或者在 ide 中帮你写代码。 由于数据在本地处理,它们通常具有更好的隐私性和更低的延迟。 windows 的 copilot 就是 一个典型的例子。 为了加速 ai agent 的 开发,市面上出现了许多开发平台。它们大致可以分为三类,面向非程序员的低代码平台,如米欧达。面向开发者的全站开发框架,如 lionchain 以及大型云厂商提供的平台,如 m s on bedrock。 这些平台提供了从模型管理到部署的全套解决方案,帮助开发者高效构建智能应用。接下来我们看一下 opencloud, 根据其名称推断,这可能是一个开源的 ai agent 框架或机器人项目。 它可能专注于多模态交互、机器人控制或自动化工作流。我们可以预测它具有模块化设计,支持多种 l, l m 等特性。学习路径可能包括环境搭建、技能开发等步骤。这是一个通用的开源 a 镇框架。快速上手指南, 首先准备好环境,克隆仓库并安装依赖,然后创建一个简单的 python 脚本,定义一个技能并将其赋予 agent。 最后,运行脚本,你就可以在终端与你的第一个 agent 对 话了。 cad work 从名字上看可能是一个专注于 ai 辅助软件开发的平台,它可能是一个 ai 驱动的 ide 或者一个自动化工作流平台。其核心功能可能包括自然语言编程、代码优化、 bug 修复等。 学习路径可能会包含从基础编程到高级工作流创建的全过程。 cad work 可能是 cad work 生态中的一个组建,负责监控、管理或触发 agent。 它可能提供一个仪表盘来监控 agent 的 状态,管理日制和触发器,并在出现异常时发送告警。学习,它将帮助我们更好地管理和运为我们的 ai agent。 现在,我们进入第三部分, ai 工作流。在这一章,我们将学习如何使用 cool ai, lan chain 和 lan graph 等强大的框架来构建复杂的、多步骤的 ai 工作流,让多个 agent 协同工作,解决更复杂的问题。 q, ai 是 一个强大的框架,它让我们可以构建由多个 agent 组成的协助团队。我们可以定义不同角色的 agent, 比如研究员、分析师,然后将复杂任务分解分配给他们。 q, ai 会管理他们之间的协助流程,让他们像一个团队一样工作,从而高效地完成复杂任务。 lanchin 被誉为构建 ai agent 的 瑞士军刀,它提供了一套完整的工具和组建,包括模型、提示、练代理、记忆和工具。 通过 lanchin, 开发者可以轻松地将这些组建组合起来,快速构建出功能强大的 ai agent, 而无需关心底层的复杂实现。 lan graph 是 lan chen 家族的一员,他使用图的概念来定义 agent 的 工作流。通过定义节点和条件边,我们可以构建出具有分支、循环等复杂逻辑的 ai 工作流。 相比传统的炼制结构, lan graph 提供了更大的灵活性和控制力,特别适合构建需要多轮对话或反复尝试的复杂任务。 第四部分,我们来探讨一个前沿概念, web coding。 这不仅仅是 ai 辅助编程,而是追求一种沉浸式的 ai 作为伙伴的编程体验。我们将了解 cloud code、 open code 等工具是如何实现这一理念的。 web coding 或者说分为编码代表了 ai 编程工具的未来,它追求的不再仅仅是代码生成,而是一种沉浸式的编程体验。 在这种模式下, ai 能够感知你的工作情境,主动提供帮助。你可以用自然语言与它交流。它更像一个智能伙伴,而不是一个被动的工具。 cloud code 是 andropic 推出的 ai 编程伙伴,它深度集成,在 vs code 等 ide 中提供对话式的交互体验。它不仅能生成代码,还能理解整个代码库的上下文,帮助你调试、重构甚至生成文档,是一个功能全面的编程助手。 opencode 顾名思义是一个面向未来的开源 ai 编程平台,它只在打破传统闭源工具的限制,提供一个透明、可定制的解决方案。 通过开源 ai 灵活的编程框架和低成本的模型训练能力, opencode 让开发者可以自由选择技术站,深度定制开发流程,并由全球社区共同驱动其技术的不断进化。 这代表了 ai 辅助编程领域从封闭走向开放,从标准化走向个性化的重要趋势。 opencode coding plan 可能是一个 ai 驱动的开发规划功能,你只需要输入一个高层次的需求,比如创建一个用户认证系统,它就能自动帮你分解任务、推荐技术栈、规划代码结构甚至预估进度。 这能极大地提高开发效率,并保证项目结构的合理。 c c switch 可能是一个方便开发者在不同 ai 模型之间无缝切换的工具,它集成了多种 ai 服务,让你可以一键切换,择优使用,避免被单一厂商锁定。 你可以根据不同的任务选择最合适的模型,或者根据定价策略选择最划算的方案。 skill, 也就是技能,是赋予 agent 能力的基本单元。一个 skill 就是 agent 能执行的一项具体任务,比如发送邮件。我们可以使用 land, chain 等框架来定义和注册这些技能。一个清晰的描述是 l l m 能否正确调用它的关键。 open code skills 可能是一个技能扩展系统,你可以从技能商店安装各种由社区开发的技能,比如代码优化、依赖性分析等,也可以自己编辑自定义技能,这使得你的 ai 编程助手具有高度的可扩展性和个性化。 keyder 可能是一个专注于 ai 代码生成和重构的工具,它的核心功能可能包括将自然语言描述转换为代码,将代码解释为文档以及自动优化代码。 这对于快速原型开发和提升开发效率非常有帮助。 coldquest 模式可能是一个游戏化的学习模式,它将编程任务包装成一系列任务,你需要在 ai 的 帮助下完成这些任务来获得奖励。 这种方式让学习编程变得更加有趣和引人入胜,非常适合初学者入门。 color c l i 可能是一个命令型工具,让你可以在终端里直接使用 color 的 ai 能力。你可以通过命令来生成代码,解释代码、调试代码,非常适合习惯使用终端的开发者,也方便集成到自动化脚本中。 最后,我们进入第五部分,也是最实践的部分,用拍散实现智能体。在这一章,我们将深入代码层面,学习如何实现工具调用、记忆系统、多智能体协助等高级功能,并探讨 agent 的 评估、安全和部署。 用 python 实现 ai agent 非常直观,我们可以借助 line chain 这样的框架,基本步骤包括,安装依赖、导入库、出场、 l l m 加载工具创建 agent, 最后运行它。 这个过程非常模块化,让我们可以轻松地组合不同的组建强大的 agent。 工具调用是让 agent 与外部世界交互的关键。 lan chain 内置了许多常用工具,比如搜索引擎、代码执行器等。 更重要的是,我们可以使用 at two 装饰器轻松地创建自己的工具,将任何功能封装成 agent 可以 调用的能力。 为了让 agent 能够进行波轮对话,我们需要为它添加记忆。 lan chain 提供了多种记忆实现,比如简单的缓冲区记忆、窗口记忆、摘药记忆等。我们可以根据需求选择合适的记忆类型,并将其传入 agent 的 出场函数中。 在开始用 python 开发 agent 的 之前,我们需要配置好环境,首先安装 python, 然后推荐创建一个虚拟环境来隔离依赖,接着安装 lan chain、 open a 等核心库。最后创建一个 emv 文件来安全地管理你的 api 秘钥。 这里是一个完整的问答实力。我们创建了一个带有记忆和搜索工具的 agent。 在 多轮对话中,当我们先问谁是现任法国总统,然后问他多大年纪了,使 agent 能够利用记忆理解他指代的是法国总统,并进行相应的搜索。 在代码层面,我们可以通过 prompt 来引导 agent 进行推理和规划,例如使用让我们一步步思考这样的指令来触发思维链。对于更复杂的任务,比如规划一次旅行,我们可以直接将目标交给 agent, 它会自动进行任务分解和规划, 用代码实现。 red 也非常直接,我们可以使用 line chain 加载并分块文档,然后利用 curl 这样的向量数据库来存储文档的向量。最后创建一个解锁问答链,就可以让 agent 给予我们提供的文档来回答问题了。 构建多智能体系统是解决复杂任务的关键。以 q a i 为例,我们可以定义不同角色的 agent, 比如研究员和报告转写者,然后为他们分配具体的任务,最后将他们组成一个团队并启动,他们就会自动协助完成任务。 agent 的 强大之处在于它可以与外部世界集成,我们可以让它调用天气 api、 支付 api、 连接数据库,甚至使用 selena 进行网页自动化。 这里展示了一个调用天气 api 的 自定义工具势力。通过这种方式, agent 的 能力可以无限扩展。多模态 agent 是 未来的发展方向,它们能够处理文本、图像、音频等多种数据。 我们可以使用 gpt、 四 v 这样的多模态模型或者组合使用不同的单模态模型来实现,这使得 agent 可以 进行图像理解、语音交互等更丰富的任务。 在将 agent 投入实际使用之前,我们必须考虑评估、安全和对齐这三个重要问题。 评估确保 agent 的 输出是准确和有用的。安全措施可以防止恶意攻击和数据泄露,而对其则确保 agent 的 行为符合我们的期望和价值观。生产部署需要将 agent 从一个脚本变成一个稳定的服务。 我们可以使用 fast api 将其封装为 api, 用 docker 进行容器化,然后部署到云平台,同时建立 cicd 流程监控系统和日制系统,确保服务的稳定和可扩展。 ai agent 的 应用场景非常广泛,几乎包含了所有行业。在金融领域,它可以做智能投顾,在医疗领域可以辅助诊断,在教育领域可以做智能辅导。随着技术的发展, agent 将在更多垂直领域发挥重要作用。 huggingface transformers 库是 nlp 领域的宝库,它提供了大量预训练模型。我们可以使用它来加载各种模型,进行文本分类、情感分析等任务。它也可以很方便地与 land chain 集成,作为我们 agent 的 大脑,特别是在使用开源模型时。 在代码层面,我们可以使用 line chain 提供的多种记忆类来管理上下文。例如,使用 conversation summary memory 来自动总结对话历史以节省 token。 或者使用 vector story trevor memory 将对话历史存入向量数据库,实现真正的长期记忆。 非常感谢大家的聆听,我们已经从 e i agent 的 基础概念到各种工具框架,再到具体的拍散实现进行了全面的介绍。现在是问答环节,大家有任何问题都可以提出来,我们一起交流探讨,谢谢。
粉丝1965获赞6426

带零基础小白入门 web coding 这期视频我将会手把手教你如何从实战中真正学习 web coding, 了解整个流程,从零开始做一个网页,贪吃蛇怎么讲清楚需求,遇到 bug 怎么描述问题,最后还会把普通贪吃蛇升级 一个 ai 原声小游戏。哎,大家千万别担心,这样可人称曹吕重师傅包教包会的,我也把所有用到的资料包都整理好了,想要的朋友直接去评论区打贪吃蛇,那么点好收藏关注再直接开始吧。 为什么选贪吃蛇作为入门项目,主要是因为它简单,适合零基础,而且足够经典。大家对贪吃蛇的规则都很清楚,简单来说就是操纵一条会动的蛇去吃 屏幕中间随机出现的食物,吃到了舌就会变长,同时得分增加,撞墙或者咬到自己则会 game over。 那 这几个规则哪怕是小朋友也可以轻松的理解。 考虑到小白对一些工具不太熟悉,本节内容主要就以安装最方便的吹 ide 来进行操作, 后续进阶本地特定工具会单独做一些安装使用教程,安装 tree 只需要打开这个网址,找到 tree ide, 点击对应的版本下载即可。安装好后,打开 tree, 登录自己的账号,然后我们需要创建一个文件夹,作为这个项目的项目文件夹, 在 tree 中打开这个文件夹就可以了。那左侧这里是文件目录区域,中间是文件内容编辑区域,右侧是 ai 对 话区域。 简单熟一下这个编辑器之后,咱们就可以正式进入开发了。我们需要把刚才说到的贪吃蛇规则转换成给 ai 的 清晰的表达,哎,这时候就有人说了,写这么详细,这么复杂,要是换另外一个项目,我就不知道该怎么描述了,哎,别担心,咱们可以将自己想象成一个正在使用这个项目的用户,从打开这个游戏会看到什么, 一点一点写下来就可以。比如刚打开游戏,我们需要有一个开始游戏的按钮,对应第一条,游戏开始了,用户需要操作什么,会有什么样的规则和响应。对应二到四条,如果你对视觉审美有自己的要求,还可以继续加上其他要求,对应第五条,那我们写好了直接发送就可以。 注意,整个白 cody 不是 简单的单次问答,而是多轮次的调整优化。他的第一轮生成已经结束了,直接在文件夹中双击这个文件就可以打开,试着玩一下看怎么样。哎,他的所有的基础操作和功能都没有出错,完成的非常棒。 我们最终要做的是让蛇吃掉文字字符,当吃到五个词的时候,就深沉一首诗,再画一幅画。不过这个实践案例让你了解整个产品开发如何构思,如何让 ai 进入你的产品中,并实现一些功能, 以及整个 web coding 的 详细流程。刚开始开发,我们不知道具体怎么实现,就先让 ai 出方案。注意,不要让他一上来就修改文件,而是只给方案。这里你需要大致告诉他你想要的最终效果,并询问他这个方案中你需要提供什么,这样他就会根据原来的代码和你的需求来制作这个方案。 你不用看他的具体细节,只要看他给出的方案是不是符合你的预期,这里有点需要注意, ai 给出的方案并不是万能的, 他推荐的方向也不一定是你需要的方向,具体实现路径还是需要人来主导, ai 只是辅助实现。这里我觉得他给我的方案不符合我的需求,我就直接说明我想通过什么实现,最好能附上相关的开发文档, 这里我直接附上 deepsix 的 文档和纹身图接口的文档, ai 和人一样,只有知道信息的全貌才能更好的执行生成。然后他又根据这些东西新出了一个方案,并且还主动询问其中的细节问题,我们根据情况回答就可以了,他现在开始进行下一步开发了。 开发完成,咱们打开文件,注意这里,我们直接右键点击检查就可以看到页面控制台,方便后续报错检查,然后填写 api k 开始游戏,这里发生错误了,同时右侧的控制台有红色报错,我们直接右击复制控制台网址,让他帮我们看看是出了什么问题, 他这里说看到是跨域错误,然后他自己打开了一个本地服务器来规避这个问题。然后咱们再次测试一下,这里他可以正常生成诗词了,但是图片还是报错了 依旧,我们直接将错误日期丢给 ai, 让 ai 自己判断,但是这里他修了几次还是一样的错误修不好,这个时候就需要人工介入排查问题了, 哎。这个大家不用担心,本期视频主要让大家了解 webkit 的 这个流程,大家知道就可以,在其中的每一个步骤后续我都会详细拆解如何做,我们需要在浏览器打开他新给的本地服务器的网址,同样打开检查控制台,这里有一个网络。然后跑一次测试, 发现这里的一个请求和刚才第三方文档里描述不一致,文档中说明了图片已被四六十四格式返回,但这里是使用 url 来展示的, 所以我们把这个信息同步给 ai, 它也是恍然大悟了,然后重新修改。最后我们再跑一次测试,发现图片终于是可以正常生成了。这就是整个 web coding 的 全细节流程了,从让 ai 出方案,到自己决策用什么方案, 到清晰完整的提供所需文档信息,让 ai 进行实现,然后根据测试效果进行替换,反馈给 ai, ai 执行修复。整个视频的相关资料和概念我都治理到文档里了,有问题也可以直接抛在评论区。那本期视频就到这里,记得点赞、关注、收藏。我是 jack, 咱们下期再见!

大家好,如果你从五月二十九日开始学习 ai agent, 零基础小白多久能学会?我用三十天跑通了 ai agent 的 学习路线,今天给大家讲一讲。 在开始前,我们必须先破除两个常见的误区,第一, ai agent 并非高不可攀,它的门槛正在快速降低。第二,不存在七天精通的捷径,任何有价值的技能都需要时间和实践。 我们今天分享的是一份经过验证的、循序渐进的 ai agent 的 学习路径, 分四个阶段,分别是认知入门期、技能攻坚期、能力进阶期和实战落地期。这四个阶段构成了从零基础认知到商业级落地的完整成长闭环。 第一个阶段是认知入门期,核心目标非常简单,我们搞懂概念,建立基本的框架。 在这个阶段需要学习四个核心内容,第一, a i a 政策的核心三要素,感知、思考、行动,这个是所有 a i a 政策的底层逻辑。 第二,主流框架对比,以及知道它们分别适合做什么。第三,大模型 api 调用基础,学会申请和调用 open ai deepsea 豆包的 api。 第四,简单的 python 基础,能够看懂和修改代码就行,不需要精通。 在这个阶段结束后,我们能有三个比较明确的产出,第一,能够独立调用大模型 api, 完成文本生成、翻译、总结等简单任务。第二,写出你的第一个 ai agent。 第三,能够看懂绝大多数相关技术文章和教程。 这里有一个提醒,这个阶段千万不要急于写复杂代码,先把概念搞清楚,很多人学不会 agent 都是因为基础概念模糊就直接上手框架。 接下来是第二个阶段,技能攻坚期。这个阶段的目标呢,是能够开发一个完整的可用的 agent。 完成这个阶段就标志着我们真正入门了 ai agent 的 开发。 这个阶段需要攻克四个核心技术,第一,提示工程进阶、思维链反思提示这些高级技巧。第二,记忆系统设计,短期记忆、长期记忆以及向量数据库的使用。 第三,工具调入能力,让 agent 连接搜索引擎、文件系统、第三方 api。 第四,规划与执行任务分解、错误处理和重试机制。 在这个阶段结束时,我们将能够开发一个实用的 agent, 比如个人知识库、自动化、办公助手或行业研究员。只要我们能够独立完成任何一个,就说明已经真正入门了 ai agent 的 开发,这是一个非常重要的里程碑。 在第三个阶段是能力进阶期,我们将从开发单个 agent 升级到构建多 agent 写作系统。这个阶段的目标是学会如何让多个 agent 像一个团队一样分工写作来解决更复杂的问题。 这一个阶段学习将帮助大家实现从单点智能到群体智慧的一个跨越。在这个阶段,我们会学习多 agent 架构设计,包括角色怎么分工、任务怎么分配、它们之间怎么通信。 第二,主流多 agent 的 框架实战。第三,系统性能优化的策略,比如说怎么降低幻觉,怎么提高准确率,怎么减少 token 的 消耗。 这个阶段的产出呢,将是一个多 a 政策的系统,比如说包含策划、转稿、编辑、校对四个角色的多角色写作团队。比如能够处理常见问题、识别意图,并在必要时转人工的自动化客服, 比如整合了日常管理、代办提醒、信息解锁的个人全能助力。这一步的核心价值是让我们从开发单点工具跨越到开发系统化的一个解决方案。 在最后一个阶段是实战落地期,我们的核心目标呢,是完成一个商用级别的 ai 整的项目,并将其打造为你的个人作品级。这个阶段主要是把前面学到的知识整合起来,做一个完整的项目。 最终我们会有比较三个有价值的产出。第一,一个可以展示给客户或面试官的完整 ai agent 作品。第二,一份包含三到五个不同类型项目的 ai agent 的 开发作品集。 第三,清晰的职业发展方向或个人变线路径。这一步是让我们完成从会用技术到创造价值的一个蜕变。 最后我想说三点,第一,不要等准备好再开始,行动本身就是最好的准备,今天是最好的开始时间。第二,先完成再完美,先把一个能跑通的版本做出来,再慢慢优化。第三,动手实践,代码是敲出来的,不是看出来的。 希望大家从今天开始,给自己三十天时间,开启你的 ai agent 之旅。好,谢谢大家!

为什么你用不好 agent? 核心的问题藏在底层的架构里,今天我们用最简单的大白话去拆解什么是 agent。 大家好,欢迎收听四十岁老头学 ai 的 播课,是你们的 ai 私教,我会用大白话和生活话的类比帮你理解。今天咱们把 agent 架构的九个核心考点讲透,每个考点都结合配图里的类比来讲解,帮你轻松记忆。 先给大家梳理一下整体的知识框架,这九个考点按照从基础到高级的逻辑排列,首先是 agent 的 定义,然后是三个决策与通信机制, react 模式、 function、 calling m c p 协议。接下来是三个能力支撑体系、记忆类型、工作流节点、工具描述。 最后是两个架构对比与优化、两类 agent 对 比和 reflection 反思机制。这九个考点构成了理解现代 ai 系统的完整知识图谱。好,我们先从第一个考点开始 agent 的 定义。 这个考点用了一个非常形象的游戏类米,普通大元模型就像一个游戏攻略指南,你问他怎么找钻石,他会给你列出步骤,但他只告诉你方法,你得自己动手操作。而 agent 就 像一个自动化的游戏脚本,它能自己控制角色移动、采集资源、合成工具、连续完成找钻石、挖矿、打造装备。这一系列动作不需要你一次次手动操作, 这就是最核心的区别,一个只动嘴,一个真动手。普通大语言模型是一问一答的单次响应,对话结束就忘了刚才在干嘛。而 agent 具备反馈循环,知道自己做到哪一步了。它有工具调用能力,能真实和外部系统交互。它是目标导向的,有持续的决策系统,知道最终要达成什么目标。简单说, agent 不 只是生成文字,而是能自主行动。 好理解了什么是 agent。 接下来第二个考点, react 模式。这个考点用了一个新手,做菜的新手站在厨房里,面前放着菜谱和食材, 你首先看菜谱,想想要先切菜再炒,这就是思考 salt, 然后你拿起刀开始切菜,这就是行动。 action 切完了,你看看土豆丝粗细,发现切得太粗了,这就是观察 observation。 于是你调整刀法,把土豆丝切细一点再炒, 想做看,然后再想,再做再看,这就是完整的 react 循环。 react 是 reasoning 推理加 acting 行动,把推理和行动交织成不断迭代的循环。 react 的 优势很明显,第一,思考过程透明,可追溯,能看到 agent 每一步怎么想的。第二,每步行动基于实际观察,而非猜测,不会凭空产生幻觉。第三,出错时可以从错误步骤重新开始,不用推倒重来。 这里有几个考试常见的概念,判断陷阱一定要记清楚。第一个 react 是 thought 到 action 到 observation 的 串行循环,这个是对的。第二个,同时并行调用多个工具,就是 react, 这个不对。 react 必须有外部工具返回的 observation。 四个 react 中的 observation 来自 agent 自身的推断,这个也不对, observation 必须来自真实的工具调用结果把做菜的类比记住,就不会搞混了。好,接下来第三个考点, function calling 函数调用。 这个考点用了一个全智能餐厅的类比,想象你去一家未来的全智能餐厅,你作为管理者,提前告诉服务员有点餐、上菜、结账、打包这些功能,这一步就叫声明函数,把能做的事情列出来,说明每个功能需要什么参数。 然后来了一个顾客,顾客说我要结账。这时候服务员不是在复述你要结账,也不是问确定要结账吗?而是直接执行结账操作,问你现金还是扫码,然后打印账单。你看,整个过程中,服务员听懂了顾客的自然语言需求,然后自己判断该调用哪个功能,自己把参数填好, 这就是方声拎的核心价值。他把大语言模型的自然语言理解能力和程序端的任意接口结合起来,让 ai 从只会生成文字的聊天机器人升级成行动导向的服务集成者。他不再只是说答案,而是真的帮你做事情。 具体来说,开发者调用大语言模型时,预先声明可供调用的函数列表,包括每个函数的名字,做什么用,参数有哪些。然后用户输入自然语言模型,自动判断需不需要调用函数,如果需要调用哪个函数,传入什么参数。开发者拿到函数调用信息,去执行真实的接口调用,再把结果返回给模型,模型整理成自然语言,回答用户。 好。接下来第四个考点, m c p 协议。这个考点用了一个统一充电口的类比,想象几年前的手机充电线,苹果用 lightning, 安卓用 type c, 还有的用 micro usb, 换个不同品牌的手机,之前的充电器就用不了了,家里每个人用不同手机,就有一大堆不同的充电线,非常麻烦。后来 usb c 慢慢统一了,现在大部分新手机都是 type c, 一个充电器全家用。 m c p 就是 ai 界的统一充电口,全称是 model context protocol, 也就是模型上下文协议。这是 antropica 在 二零二四年提出的开放协议标准。在 m c p 出现之前,每家 ai 公司的 function calling 实现方式都不一样,同一个工具要支持多个平台,需要为每个平台单独开发适配层,维护成本非常高。 有了 m c p 这个统一标准之后,开发者按照 m c p 的 ai 模型上使用,比如在 cloud 上开发的数据格式化工具,也能直接给 g p t 用,不用重复造轮子。 这个考点还打了另一个比方,就像酒店门卡方盛 call 令时代,就像每家酒店有自己的门卡系统,万豪的卡刷不开,希尔顿每次住新酒店都要重新登记拿新卡。 m c p 就 像统一的门卡协议,只要在联盟里登记一次,拿到一张统一的门卡,全程所有加入协议的酒店房门都能开,省时省力。 这里有个对比表,大家要记住 function coing 和 m c p 的 关键区别。从定义方来说, function coing 是 各 ai 平台各自定义的, m c p 是 开放标准。从兼容性来说, function coing 是 平台专属,不可附用。 m c p 是 任何支持的模型都可以调用。从开发方式来说, function coing 需要为每个平台单独适配, m c p 是 开发一次多平台通用。从使用场景来说, 方身拎适合单一平台的工具集成, m c p 适合跨平台工具生态建设好。接下来第五个考点,记忆类型。这个考点用了一个备考的类比,非常贴切我们现在 c i e 备考的场景,想象你正在准备考试,有三种不同的记忆方式在同时工作。 第一种是短期记忆,就是你考试的时候临时记住的公式,或者刚看到的题目条件,这些信息考完就忘,下一场可能就记不清了。对应到 agent 短期记忆,就是存储在大语言模型上下文窗口里的信息,特点是临时的,有容量上限,对话结束就消失。典型用途是当轮对话历史工具调用的返回结果。 第二种是长期记忆,就是你之前学过的知识点,比如数学里的勾股定律,可能几年前学的,但现在还能记得,存在大脑深处,随时可以调取。对应到 agent 长期记忆,就是存储在外部数据库里的信息,比如向量数据库或者关系型数据库,特点是持久化的,跨对话的,可以解锁。典型用途是用户的偏好设置积累的知识库。 第三种是结构化记忆,就像是你整理的错题本,你把每次考试错的题都抄下来,每一道都有编号分类,错误原因、正确解法,方便考前快速复习。对应到 agent 结构化记忆,就是存储在程序变量或者状态机里的信息,特点是精确的,可以程序化读写。典型用途是任务状态跟踪,比如任务完成了多少,当前做到哪一步了。 这三种记忆各司其职,互相配合, agent 才能持续跟踪。复杂的任务,不会做着做着就忘了自己在干嘛,不会重复做已经做过的事情,也不会丢失之前积累的知识。好,接下来第六个考点,工作流节点类型, 这个考点用了一个乐高机器人的类比,想象你在玩乐高机器人套装,盒子里有各种各样的积木块,每个积木有不同的功能。传感器积木是输入节点,用来感知外界环境。控制器积木是 l l m 节点,也就是大脑用来处理信息,做决策。 你想要组装一个遇到障碍就后退的机器人,你就把传感器检测距离,判断距离是不是小于预值,如果是墙就后退。这几个积木按照逻辑顺序拼起来,拼好之后机器人就能自主运行了,遇到墙就自动后退,不用你手动控制。 基于格式化工作流平台构建 a 阵的时候,整个工作流就是由这样一个个标准节点组成的。主要有这么几种节点类型,开始节点,也就是工作流入口定义触发条件和输入参数。 l m 节点调用大语言模型,配置系统提示词,连接知识库工具节点调用外部接口,比如搜索代码、执行数据库查询 fels 节点条件分支,根据变量值或者模型输出,走不同路径循环节点迭代处理,对列表中的每项重复执行同一流程。 问询节点也叫 human in the loop 人机协助节点,高风险步骤前中断,等待人工确认后再继续结束节点工作流出口定义最终输出格式和返回内容。 这里特别要讲一下 human in the loop 人机协助节点的重要性,这个也是考试常考的。在企业级自动化工作流中,对于一些场景必须设置人机协助节点,不能让 ai 完全自主运行。比如向客户发送大额报价或者合同前必须有人审核执行。数据删除或者不可逆操作前,必须有人确认。 ai 生成的内容涉及法律或者合规风险时,必须有人把关。这不是技术做不到,而是确保 ai 自动化,在真实商业场景中可信可控的工程保障机制。好,接下来第七个考点,工具描述的重要性。 这个考点用了一个医院给药的类比,想象,你在医院药房工作,要把药发给护士给病人用,错误的做法是什么呢?你只告诉护士一句,一般情况下不要给错药。然后你把药装在空白盒子里给护士,药盒上什么都不写,这样风险多大?护士根本不知道这个药治什么,有什么禁忌,一次吃多少很容易出医疗事故。 正确的做法是什么呢?每个药盒上都清清楚楚写着详细的服药说明和禁忌。比如这个药治高血压,饭后服用禁止与酒精同服,一天三次一片,肾功能不全者慎用。护士拿到药一看说明就知道该怎么用了,出错概率大大降低。 工具描述也是一样的道理。这里有一个核心认知,对于 agent 来说,工具描述本身就是高优先级的提示词模型,在规划应该调用哪个工具,什么时候调用的时候,工具描述的文本是最直接的参考依据。 在生产级工程中,有一个重要的原则,对于高风险工具,比如退款、操作、数据删除这些有不可逆后果的行为约束条件必须写在工具描述中,不能只依赖系统提示词。举个例子,错误的做法是把约束写在系统提示词里,比如只有查询退款政策后确认符合条件才能退款。而工具描述就简单写,向用户退款 有风险。模型可能在特定对话轨迹下,忽视系统提示词的要求,直接调用退款工具,造成损失。正确的做法是把约束直接写在工具描述里。工具描述要写清楚,向用户退款重要提示 仅在以调用退款政策查询接口确认符合退款条件后方可调用。本工具未经政策确认直接调用,视为操作为规,因为工具描述会随着工具选择时刻一起被模型提取,和工具本身绑定在一起,约束效果比写在系统提示词里可靠得多。这就是我们常说的约束。跟着工具走好。接下来第八个考点, workflow based 和 prompt based agent 的 对比。 这个考点用了一个组装家具的类比,想象你买了一套需要组装的书架, workflow based 的 方式就是严格按照说明书,一步步来,说明书写得清清楚楚。第一步,找 a 螺丝和 b 板子拧紧。第二步,装侧板,第三步,装层板,最后固定背板。每一步都有图示,你不需要动脑子,也不需要懂家具设计,按顺序做就能成功。这种方式的好处是可控,不会出大错, 坏处是不够灵活。如果说明书没写的情况,你就不知道怎么处理了。而 prompt base 的 方式是什么呢?就像你不看说明书,把所有零件摊在地上,让一个经验丰富的老木匠自己看图纸,自己决定先装什么后装什么。老木匠经验丰富,能理解整体结构, 可能会用更高效的方式组装,最后效果可能更好,但风险是,如果木匠状态不好,或者理解错了图纸,也可能装错,甚至装不起来。 这就是两类 agent 构建方式的核心区别。这个区别不是有没有工具调用,而是决策路径如何确定。我们来看对比表。从决策路径来说, workflow based 是 预定义的固定工作流,每一步怎么走都划好了。 prompt based 的 决策路径由大语言模型自主规划,走一步看一步,模型自己决定下一步做什么。 从可控性来说, workflow based 高,可以审计每个节点的输入输出,每一步发生了什么都清清楚楚。 prompt based 低,路径不确定,可能不知道模型为什么选了这条路。从灵活性来说, workflow based 低,有新需求就要改流程图。 prompt based 高,可以适应从来没见过的任务。从适用场景来说, workflow based 适合金融操作、合规流程这些对准确性要求高、不能出错的场景。 camp based 适合多跳解锁、开放式研究这些需要探索和创造力的场景。所以工程选型有一个原则,后果越不可逆的,比如涉及资金流、数据删除,越应该优先选择 workflow based 按固定流程来稳字当头,任务越开放,探索性的越适合用 prompt based 给模型更大的自由度,发挥创造力。 打个比方, workflow based 如同航班标准操作手册,每一步按程序来安全第一。 prompt based 如同让优秀飞行员自主判断,更灵活,但需要高致信度的能力保障。好,终于到了第九个考点,也是最后一个 reflection 反思机制, 这个考点用了一个改数学作业的类比想象你是一个学生,数学作业发下来,你发现错了三道题,错误的做法是什么呢?你把答案随便改改就交上去了,老师再改可能还是错的,因为你根本没搞懂为什么错,只是碰运气。还有的同学说我多做几次,三次取最高分,这也没用,问题的根源没解决, 正确的做法是什么呢?第一步,看老师的批注,哦,原来第三步计算的时候符号错了。第二步,回顾自己当时的思路,我当时怎么想的,为什么会犯这个错误?是粗心了还是概念没搞懂?第三步,制定修改计划。下次遇到这类题,做完第三步之后,专门检查一下符号对不对。你看,这整个过程就是反思,不是简单重复,而是分析问题,找根音,制定改进方案,然后执行的闭环。 reflection 反思机制就是这样用来解决 agent 死循环问题的。我们先讲一下问题场景,在工作流行 agent 中通常会设有质量检查节点,评分不足就重写的循环。如果模型没有从失败中获取到差异化的信息,就会反复生成相同质量的内容,形成无效死循环,转来转去出不来。 很多人有一个错误认知,以为调高 temperature 温度参数就能解决死循环,其实不对,调高 temperature 只是增加了随机性,让模型输出更多样,但不保证方向正确,可能还是在错误范围内瞎转。 正确的方案是使用 reflection 机制,加上失败记忆。 reflection 机制有三步工程实现,大家要记住,第一步,收集上轮失败信息,包括上一轮的输出内容是什么,质检节点的具体反馈,哪里扣分了,为什么扣分?还有历次失败记录,防止已经改过的错误重复犯。 第二步,强制输出修改计划。根据失败记录先输出一个明确的修改方案,列清楚上次哪里错了,这次具体改什么,不允许直接输出内容,必须先输出计划。第三步,按修改计划执行重写,基于前面制定的计划生成新版本,再次送入质检节点。 这里的关键原理是 reflection, 让模型在本轮经验的基础上迭代,而不是每次都从同一起点出发,每一次循环都比上一次有进步,这才是真正从错误中学习的工程基础。 我们再对比一下三种方案,仅调高 temperature 不 能解决死循环,因为只是增加随机性,不保证方向正确,设置最大循环次数上限只是治标,只是强制停止,不解决问题根源,只有 reflection 加上修改计划才能根治,让模型在差异化信息的基础上迭代,每一次循环都有明确的改进方向。 好,以上就是智能体 agent 架构九个核心考点的全部内容,我们今天从定义结构讲到决策机制,从记忆管理讲到工作流设计,从工具工程讲到架构选型,再到反思优化,整个知识体系就完整了。大家把这些生活化的类比记住,考试的时候概念就不会搞混了,我们下期再见!

给大家介绍一下新手如何快速搭建及使用自己的 a g 的 智能体来提高你的办公效率。该教程主要针对未使用过智能体的新手啊, 这个智能体的就是字节跳动推出的翠 solo, 这个翠 solo 先简单说一下啥叫智能体啊,就是你丢给他一个目标,你给他一个,他会自己去拆解任务,做规划,开始干,在干的过程中, 该查资料的查资料,该写代码写代码,该调用工具调用工具遇到需要授权或拿不准的时候,会停下来向你确认,你这边确认补充说明后,他会去接着去推进,直到把你给他的任务完成。 这个智能体呢,它目前支持 pc 端,还有移动端以及云端,云端是网页上可以直接去操作。还有两种模式啊,点击左上角,你能切换 control 模式是针对开发人员的,大多是用户场景还是基于这个 mtc 的 这个场景。 首先你装完之后呢,要给它最好是配一下自己的一个模型,我这边用的是 gm l 五,因为到晚上的话可能也会出现排队 被收入他自己自带的模型,到工作高峰期也会排队,排的时间有时候会比较长啊,会影响你的工作效率,所以建议大家去配一下这个模型。模型的配置呢,其实就是点击左下角这个头像,然后再弹出到这个框里,点模型模型,这里点添加 添加,你根据你自己的需要吧,可以使用 kimi, dp 还有海螺啊,以及这个字谱的啊,这里以 deepsea 为例吧,你就选择把两个模型都选上啊,两个,一个是 一个是推理模型,一个是快速的模型 api 的 话,到 deepsea 的 官网去去注册登录,完成实名认证,在 api key 这啊新建一个 key, 把这个 key 复制过来, 复制过来之后点击点击这个提交,先点击这里的提交,再点击下面的提交。模型添加完之后,在这里就选择自己配置的模型去用就行了啊,模型配置大概就就这么多。另外一个就是啊,这个技能是智能体的一个 比较核心的一个功能啊,去 solo 它官方自带的有一些智能体,这些智能,这些 q 啊这些技能, 这技能你可以根据需要去去安装就行了。点击这个加号就安装啊,它上面有介绍,根据你的工作场景啊,需要哪些去装哪些,你自己也可以去啊,多尝试多去试,自己摸索一下啊,我这边也安装了一些技能啊,有这个, 这也是我在日常使用过程中去装的一些技能。这个还可以自己去安装,有两种,一种是官方直接安装的,另外一种就是可以去上传自己的技能啊,这里我可以上传一个演示一下把,这个我之前上传的,我可以给它卸载,装完之后不想要可以卸载, 点击这个上传技能,这个是技能的一个压缩包,它必须是 vip 的, 或者是直接一个六点 m d 也行啊,这里面按照它的格式去上传就行了啊,这个技能的话你可以从多渠道去获取吧,这个根据自己的需要去上传就行了。 技能上传完之后,他在这会出现,在这出现这个技能是应该是一个文章的,检查文章是否有 v i 感的一个技能啊,创建完这个技能一种是直接安装,一种是自己上传啊,这是两种方式啊,下面给大家说一下这个 如何去使用啊,在如何去使用智能体啊?智能体的话,那你其实针对这个智能体主要的还是针对你技能的一个使用啊,如果仅限于跟他聊天的话,那你用豆包用 deepsea 网页版的那个也可以用啊,效果也没差多少,那个还还免费。 所以说既然用这个,那肯定你要么用他的这个技能,要么用他的自动化啊。技能的话,因为是针对他,可以针对你的办公场景啊,针对你的实际的工作情况,去打造一些 qq 的 工作流程啊,这个才是重头戏啊。 目前这是两种模式嘛,一种云端,云端的话你可以在本地操作云端,也可以在网页上直接用啊,其实这个看个人需求啊,最我这边主要用的最多的还是基于本地模式。 本地模式呢,给大家演示一下这个技能如何用,有两种方式,一种是自动触发,一种你啊手动。比方说你可以指定一下这个是通过浏览器,他能去打开浏览器去登录账户了,去操作各种网页啊,这边可以去尝试一下啊,比方说我们让他搜索一下, 打开百度搜索今日热点吧,热点汇总汇总成文档,这个你说完以后他就开干了。他这边因为他工作的是智能米,智能体不同于网页啊,他这边如果去调用技能的话, 他右边会展示调用了哪些技能。这边他还有一个 ppt 啊,这边我也试过,他做的 ppt 也还行, 它这个智能体你看不到,它是内置的,你给比方说咱把这个新闻的文章它做成文档之后,搜集完之后,你可以接着让它去做啊,帮我做成 ppt 啊,它会已经寄予一个文档,它会帮你做成一个 ppt 啊,这个可以自行去尝试。 你看这个,这边他调用智能体之后,他右边会有一个代办任务,他他需要规划几步去做啊?这边他规划了三步,下面他这个技能就是 skill, 他 调用了哪些技能,他会列出来啊?这是产物,这最后的结果会放在这, 调用他内置的技能,咱让他去,让他去干。咱们这边还有再再建一个任务,可以有多个任务再给大家演示一下。基于本地工作的话,其实如果咱真是要用这种智能体的话,肯定要解决咱们自己 一个办公场景的一个重复性,重复性的工作可以教给他打造成 skill 啊,让他去帮你去做啊, 其实这个才刚才说了,这个就是自定义技能啊,这的话基于本地工作,这个才是 真正能帮助企业 ai 落地的一个核心的一个功能啊,因为你可以基于 skill skill 的是啥?它就是一个工作的一个指导啊,你这个建完之后,你指定你只要说你当前要干啥,它会判断出你当前要使用哪个技能去做哪件事啊, 针对你企业的,因为每个企业的场景都不一样啊,可能每个企业使用的这个落地的 skill 可能也都不一样,这里没有一个什么共性的一个东西啊, 这个当然你打造这个,打造这个 skill 的 话,可能需要你对 ai 有 一定的认知啊,你可能说我,我知道 skill 怎么建啊?我知道,但是你要是对这个 ai 认知达不到的情况下,那你可能 就是做出来的技能,包括日常使用中,它可能也不会那么理想啊,你可能说啊, ai 也就这样, 其实你要想把它用好,可能需要你提升,去持续地去对 ai 的 一个学习吧。嗯,我这边反正是已经有两年的一个 ai 的 企,就是落地经验了,在我们企业也是一直在做这个 ai 落地的应用啊,如果 如果有这方面需要沟通的话,可以就是找我单独去沟通啊,我这边可以给你简单指导一下,让你少走弯路吧,少花,少花一些冤枉钱啊,能快速的帮你企业去落地啊。 然后这个这个工作目录啊,就是就是这个可以就是这样的一个目录啊, 它它其实你要是真正去落地的话,你肯定需要去打造一些 skill, 其实你可以把它理解成是一个工作流程啊,就是一个目录可以可以把它作为一个员工啊,这个员工他能干哪些事儿? 那你就这是对它的一个整,它首先这个是 agent 的 这个 md 呢?它是一个整体的一个工作指导啊,就是我这个员工能干哪些事儿啊?大概给 ai 说一下, ai 每次, 每次比方说他基于这个目录去工作的时候,他首先会先读这个这个文件的规则啊,这个这个文件的规则说明之后,那然后他才会去去下面才会去 去根据你的工作需求啊,根据你的任务去调用不同的技能去进行一个工作啊。我这里有一个比较长的一个流程,就是一个写作流程吧, 他是每一步干啥,每一步干啥,就是这样的一个工作,其实你每个人,其实每个人的工作啊,都可以去给他增流成这个技能啊,他让 ai 来 来辅助你去工作,其实 ai 并不会替代每个人的工作,他只能说让你去做更重要的事。一些重复性的工作啊,完全可以让 ai 去做啊,你把你释放出来,可以去做一些更重要的事。当然 ai 呢,它也不是完全自动的啊,它还需要你去确认, 你还要去对你这个 skill 的 工作结果去负责啊,最终的结果肯定不是 ai 来承担这个结果,谁用啊?谁来承担?对这个结果进行确认来你承担这个最后的一个工作的一个检查,去审核啊,它是否合适,不合适的话你就接着让他去做啊, 这个应该已经完成了啊,调用 d o c 啊,它是它把它它做成,做成一个 word 了,做成一个 word 文档了,这边任务它应该已经拿到内容了,它需要下一步去 去创建一个 word 文档。下面我再建一个任务,给大家演示一下,我这个基于我这个工作目录,我我打造的这个 个人的一个,相当于我办公,我日常办公的一个 skill, 他 是如何工作的啊?首先我这边里面有个 skill 呢,就是有个技能,他就是能帮我收集一些素材,帮我打造持续更新和完善我的知识库, 那就是比方说我,我给他两个链接啊,帮我把这些链接内容加入知识库, 这里它可以多个任务并行处理啊,可以同时处理多个任务,然后移动端的话也可以去看到我手机可以录一下屏。操作移动端的前提是你要在设置里头把这个给打开,把这个 solo 移动端,然后点允许操控你的电脑啊,保持电脑唤醒状态, 可以去查看这个当前任务的一个完成情况,也可以远程,远程的话去操作自己的一个 办公电脑,办公就是你的办公电脑,他可以帮你去操作。这边看打开这个翠 app 啊,这边能看到,打开之后他能看到我这两个任务,哎,一个是把内容加到知识库,一个是百度热点的一个汇总啊,这边可以看到他的工作当前完成情况。 这边比方说你中午去吃饭了,你这个 ai 还在工作,你可以看他工作的,检查他工作的完成情况啊,可以给他下达新的指令,让他继续去工作啊。比方说你去 见客户干啥了,这边 ai 该让他去工作,去工作。这边就是在打开手机也能看到你的这个 ai 工作完成的一个情况啊,这边可以输入下达新的指令,这里大家可以去尝试,我这里不过多演示了。 看这边它也是有规划的,它有几步规划?这是调用了两个 skill 啊,这个是知识库的一个打造的一个 skill, 这个是获取素材的一个 skill, 它调用了两,它自己去,它自己会去调用啊,就是它很智能,就是它该调用哪个 skill, 它自己去去调用。 其实他这个 skill 他的怎么去调用呢?其实这个的话是像这个知识库,这里面有脚本啊,有这个参考的知识,然后主要还是靠他啊,这个 skill 的 话 名称是必须要有的啊,这个简介他是根据这个简介来判断的,就是你这个 skill 能干啥,你只要这个概描述描述清楚啊,他就会自动的能判断到。如果, 如果你的任务模糊不清,或者是这个 sql 描述的不清,那这个 sql 可能调用不到啊。如果调用不到的话,你也可以在这手动去去斜杠啊,可以用斜杠命令 或者是点这个点这啊,然后去去去触发某个 sql 啊,因为你自己做的 sql 你 肯定清楚,然后这边手动触发,这边也不用 ai 去判断了,它效率可能会更高一些。这边它已经收集到了啊, 这个是一个 word 啊,他已经把这个资讯去收集到了,收集到他会放在这啊,做的还不错。这里你可以接着让他做,比方说接着让他去帮你做 ppt 啊, 这里都不再演示了,做 ppt 的 话比较慢,可能需要一二十分钟。然后另外这有一个自动化啊,自动化的话也是比方说你每天都要去做的某些事,比方说我这边会每天定,每天会去, 就是定期的去收集一些 ai 的 一些资讯,因为我要学习 ai 嘛,所以,所以它是一个持续的学习,我每天都要去看,所以说我会让他每天帮我去, 去定时的去收集一些我想要的资讯啊,这个资讯也不是啥都啥都收集的,我就是有学习有分享价值的,然后他帮我保存到文件,然后 他每天都会去执行。这个其实创建的话有两种创建方式,一种手动创建,你直接输入任务名称,然后你这里希望他去干啥?跟爱沟通一样,就是自然语言描述就行了 啊,这个云端的话一般用云端,云端的话因为因为你电脑关机他也能去执行,除非那你用本地的话,那你每天保持你的到这个点,你的电脑在开机,你这个软件在打开他才能执行, 或者他执行不了。绘画中创建也是一样的啊,通过绘画创建都是一样,其实跟恩爱沟通都是通过自然语言描述啊,他会帮你去创建核心功能,基本就这两个,另外一个就是这个, 还有一个 m c p m c p。 现在如果有需要的话可以用,比方说你公司有系统啊,你公司有一个系统,它提供一些接口啊,你可以把这加上去啊,把公司的系统可以出一些报表数据啥的啊,你可以加到这,如果你公司有这个 m c p 接口的话,你把它加上, 加上的话,那你就在这能直接用了。你做方案了。做啥了啊?能直接能直接调用那个数据啊,更方便一些。其实 skill 都是一些标准化的,不是那个 mcp 都是调用一些标准化的接口啊,现在大多数场景的话,那可能用的更多的是这个技能啊,就是这个 skill 这个任务让他去执行吧,大概整整体呢,这个 aint 的 功能大概就这么多啊,大家可以去尝试啊,下载下来先去摸索, 如果有什么问题的话可以给我留言,或者给我私信或者评论区留言都可以啊。这个是这个已经完成了,收集好了,已经交付了啊,行,那就这事就说这么多。

我做了一个 skier, 就 可以自动的去生成产品手册,我们我们来看下效果吧。准备好我们的素材,然后使用我们的技能,然后点击发送这里呢它会生成一个方案, 然后我们检查一下这个方案,如果没问题的话就可以只点击执行, 可以看到这边已经好了。然后我们现在打开它的输出的 pdf 看一下, 很好,非常没有什么问题。然后后面如果需要修改的话,也可以直接和 ai 去描述你要想要改的东西。 后面我会继续分享我做的 ai 落地相关的项目,想看的话可以关注我。

想学 agent 编程,却被一堆术语吓到,别慌,今天我用你身边的五样东西,把编程最核心的概念讲明白。听完你会发现,这些东西你本来就会 先从变量说起,想向你冰箱上贴了张便利贴,上面写着,今晚吃番茄炒蛋。 这张便利贴就是变量,今晚吃番茄炒蛋就是它的内容。在代码里,变量就是一个名字,背后存着一个值。程序运行时需要记住各种信息,用户叫什么名字,搜索到了什么结果,全靠变量来存。 第二个函数,它就像一份食谱,你把食材放进去,按照步骤做,最后得到一道菜。写代码时,函数就是把一段常用操作打包起来,取个名字以后随时调用。 比如你要让程序搜索资料、整理要点、输出报告,把这三步写成一个函数,每次需要时直接调用,不用重复写代码,省时省力。第三个循环, 想像工厂流水线、机械臂,重复做同一个动作,直到零件全部处理完才停。代码里的循环就是这个逻辑,让计算机重复做一件事,不用你手动写一百遍。 比如让 agent 读取一堆文件,处理一堆消息,一个循环就搞定。第四个酷, 就像你家的工具箱,里面有螺丝刀、锤子、扳手,都是别人造好的,你拿来就用,不用自己从头做。 编程也一样,很多常用功能,比如发送网络请求、处理表格数据,早就有现成的库了,你只需要几行代码就能调用。 会用酷,你就已经比大多数新手强了。第五个数据格式,就像快递单,有固定格式,收件人地址、电话、快递员一看就懂, 程序之间交换数据也需要这种标准格式。最常用的是这样算啊,它长得像这样大,括号里写着名字是小名,年龄是十八, 结构清晰,人和程序都能看懂。 agent 和大模型对话、存取数据全靠它。便利贴、食谱、流水线、工具箱、快递单, 这五样东西你早就懂,只是不知道它们在代码里叫什么。搞懂这五个概念,学 agent 编程的第一道砍你就迈过去了。关注我,带你从零开始!

假如你从二零二六年五月二十七号开始学习 ai, a 阵多久才能学会?只要你年龄在四十五岁以下,不是三分钟热度,请疯狂按照这条学习路线走,三个月,足够让你从小白变成企业抢着要的 ai 人才。第一阶段,把基础打牢,搞懂大模型的底层工作逻辑, 同时掌握提示词工程与 api 调用。第二阶段,专攻 agent 核心范式,从 react 到 call, 理解 agent 的 思考、行动、观察、循环,并熟练使用主流框架。第三阶段,读懂记忆机制,让 agent 拥有短期记忆、长期记忆和使用真实世界工具的能力,试着做一个带记忆的客服。第四阶段,深入了解多智能体,协助 学习并掌握凹凸帧或 curie 框架,理解管理者、执行者、辩论等常见的写作模式,完成两到三个小项目,比如 a 阵、智能客服等,跟着走下来,足以让你胜任百分之九十的 ai 岗位。我已经把完整的 a 阵及大模型学习路线、配套教程、实战项目整理好了,留下学习直接抱走。

你是不是发现身边的朋友突然都开始聊什么 a p i、 m c p, agent 的 张口闭口全是技术配套,而你连插句话都插不进去?别慌,今天一期视频,把这堆词一次性给你捋明白。 第一个叫 a p i, 你 可以把它想象成一根万能电源线,模型公司给你接上它,你的系统就能直接调用 ai 模型干活了。比如做电商主图详情页短视频脚本,只要接上 a p i, 生产效率立马翻倍。第二个是 agent 的 框架,相当于装这根电源线的盒子, 最常用的是 cloud code, 这类平台背后能对接不同大冒险。关键是你不用自己写代码,点几下就能配置好。第三个叫 skill, 是 框架上的功能插件,你给 agent 一个文档,它就能按你设定的流程自动跑任务,还能塞进自定义脚本。我自己日常用的最多的就是这类插件,灵活又省事。第四个 是 mcp, 也是插件,但更偏向工具型,比如让他去搜网页,查代码仓库,调外部数据库,配一个就行。你 根本不用懂技术细节,直接跟 agent 说给我配个 m c p, 去搜最新行业报告,他就去干了。第五个是 c l i, 也就是命令行工具,听起来吓人,其实就是一个语音开关,你不用打开任何软件,一句话就能让 agent 建文档,改飞书表格、跑审批流程。 整套逻辑就一句话, a p i 是 线,框架是盒子, skill 和 m c p 是 插件, c l i 就是 那个喊他开工的按钮。那模型怎么选?我自己的体验是智普编程能力强,但价格偏高。 deepsea 入门成本最低,适合先跑通流程试试水,这套术语最适合哪类人?就是那种一听技术词就头大 但又不甘心一直被别人封装好的软件绑死的小艾。你不需要成为工程师,只要搞懂这五个词,分别管什么,剩下的就可以直接跟 agent 对 话,让他替你干活。所以先别急着动手,第一步就是把这五个词记牢。 a p i agent 框架 skill m c p c l i 我 可以手把手带你搭第一条自动化流程点我主页最新内容已经更新。

大家好,我是可可梦,我们今天来主要讲一讲 agent 是 什么,然后顺带的话也讲一讲 workflow 和 skill 它们三者的区别。首先呢我们从 workflow 入手, workflow 是 什么?它其实翻译成中文就是工作流,也就是你需要把这个工作过程当中的每一个流程告诉他,然后他去执行这一个每一个流程。 我们拿你来订机票的这一个事情为例,我们来看一看,首先你需要告诉他时间,然后你要去的机场以及这一趟 这一趟是否是出差,然后把这些电量告诉他过后。第二步他就会开始去查航班,然后看买哪一班。这个过程当中呢,你需要给他的就是你查航班的软件接口, 以及你相关的支付信息,也就是你的支付密码呀,或者是你的身份证呢,这些通通的信息需要告诉他,他才能帮你完成这一个买机票的这个过程。然后第三步他就是需要去判断他这这一趟到底是不是要出差的 这个地方怎么判断呢?他会从你开始告诉他的这个信息来获取这个变量,然后来判断如果是出差的话,你是不是就是要去申请发票,申请发票的话也是需要告诉他该怎么样去软件里面申请。 然后下一步可能你会给他一些邮件信息,比如说你的或者财务的邮件邮箱,然后他会把这个发票的信息发送到这两份邮箱里面。最后呢他会去帮你在日历里定下你的这个机票的日程,这个地方呢,你可能需要给他的就是日历的接口,因为他需要去帮你把这个日程放到日历上面, 最后的话就是最后一步的输出,输出呢就是告诉你他完成哪些步骤,然后日程怎么定的,然后发票这些是否有申请完成,告诉你这个结果。 但是如果这一趟他不是出差的话,可能就直接到了定日程和输出的这一步,到这里呢他就完成了他所有执行的流程,这个呢可以说就是一个整个的工作流。 他的特点是什么?他的特点就是他能够完全按照你的计划去执行,但是他的每个流程都是写死了的,然后不太灵活,只适合一些很固定的任务。比如说, 比如说我们要处理一些数据文件这部分的任务呢,它是每次都是按照这个流程来去的,所以我们就可以把这个流程去封装成一个 workflow, 然后让每一次在做的时候它就可以直接执行,不用我们再手手动去操作了。 接下来我们就来讲一讲 agent, agent 它翻译成中文就是智能体或者是代理,顾名思义它是一个智能的过程,而不是像 workflow 这样写死的过程。我们来看看它的作用机制是什么?它的作用机制也就是在开始的时候,我也是需要对它输入一定的指令,这个部分呢一般都是以 prompt 的 形式, 然后告诉他我要定哪一天的飞机,我要去哪个机场,以及我这趟是否是出差,然后 然后就会进入到一个黑盒的过程,这个黑盒里面呢就是以大模行为一个大脑去进行规划,执行调度工具以及调用上下文记,也来做出这一次任务的判断,最后的话就会得到一个输出,这个输出也就是这里的输出, 而在这里的过程呢,他会首先去规划自己的行为,首先第一步可能是需要去查航班,然后买机票,接着的话是需要判断是否需要发票,接着就是去你的日历上为你定下日程等等等等,然后最终得到你一个最终的结果。 其实为了完成他这一个大脑的运作,以及他的自主判断能力的话,有一个非常关键的动作就是 agent loop, 这个就是它去规划执行,然后检查的一个循环,它在每一个做这个步骤的过程当中,它就它都会去检查自己这一步是否做的是正确的,如果是做的正确的,那就进行到下一步,但是如果不对的话,那就需要再重新进行规划以及执行。这个的过程呢,也可以叫 react, 但它指的是一个组合词, re 的 话就是 reason, 也就是推理思考的过程。 act 呢就是执行的过程,也就是这。 接下来我们可以看到 agent, 它是一个比较庞大的系统,那我们是不是可以把 agent 分 成很多个呢?每一个 agent 可以 调用不同的工具,当然是可以的, 其实我们平常用的很多呢,都是由一个主 agent 来管理好很多个子 agent, 这个 agent 呢,就比如说你想去处理某个表格,最终输出一份 ppt, 对吧?那你这个主 agent 就是 你告诉他了这个任务过后,他会首先把处理数据这一步放到 agent 的 一来做,然后第二步的话,可能是把这个数据做成一份报告放到 agent 的 二,最后 最后再把这个报告输入到子 agent 三,子 agent 三呢就会根据这个报告去做出一份 ppt, 它其实这个的过程和 workflow 很 像,只不过它每一个 agent 它都是自主规划的,它和 workflow 的 最大的区别就是它所有的步骤都是自己去规划的,而 workflow 是 人为规定的。 最后我们来讲一讲 skill, 其实 skill 通俗来讲的话它就是一个 markdown 文件,它就是把这些所有的执行 sop 或者像这样的 sop 去写成了一个文档。 在你在使用大模型的时候,你可以告诉他调用这个 skill markdown 文件,然后他就可以根据 markdown 文件里面的 s o p 一 步一步的去执行。并且你在这个文件里面需要把调用的接口以及一些身份信息告诉他,他就能够完整的帮你做成这一个事情。以上就是我们今天要讲的内容。

我们经常听到一个词, a r agent, 它听起来很高大上,但到底什么是 agent? 它和我们平时用的 chat, gpt 啊, group 这些大模型又有什么本质上的区别? 用一个比喻来开场想象,你招了一个清北毕业的高材生,那你问他什么,他都能对答如流。但是如果你让他去帮你订一张出差的机票,他只能告诉你订票的步骤,他自己动不了手。那这就是普通的大模型。 那 ai agent 呢?相当于你给这个高德山装上了手脚,它不光能告诉你方法,还能自己打开网页下单就搞,一条龙全部搞定。 那么我们现在认识传统大模型 llm, 就是 large language model, gpt 啊, cloud, kimi 这些模型,本章都都做一件事情, 就是由之前的输入和输出预测下一个输出的 token 啊,这就是由它的损失函数决定其工作原理,就像构成做那个英语的玩性填空。 所以问题也很明显,第一,它没有真正记忆,光来对话框就失忆。第二,没有工具,它只能输出文字,没办法操作软件。第三,它没有主动性,你问一句,它才能答一句, 那么 agent 它就不一样了。 agent 虽然不是一个新的模型,但是它是一套以大模型为大脑的系统架构,它把大模型从一个顾问升级成了一个行动者。 agent 的 公式很简单, agent 等于大模型大脑感知利益规划和工具,它能自主感知环境的变化,记住历史的交互,规划复杂任务的执行步骤,并且能真正调用工具去手动执行,那你的角色也从操纵员变成了管理者。 那么第一有两个差异呢?第一个差异就是交互模式,那传统大模型是被动应答,你问一句,他回答一句, ai agent 是 主动规划,你给他一个目标,那比方说帮我写一份竞品分析报告,他会自己规划步骤,先去搜索竞品信息,再去官网抓数据,然后对比, 然后分析,最后生成报告。那其实就是一个生成的一个工作流啊,那这个工作流可以是他自己生成,自己思考的效果不一样吧。 那第二个核心差异就是能力边界,那传统大模型能输出文本,而且它知识截止于训练数据的那一天,那模型训练完了,它知识就截止了,所以你问他今天的杭州天气怎么样,或者说我们 公司的数据库有多少订单,它其实是不清楚的,所以它只能胡说八道或者礼貌道歉。那 a r agent 就 不一样,它可以调用搜索 api 来获取最新信息,可以读写数据库,可以操作 excel, 可以 发送邮件,能能力边界从训练数据拓展到了整个互联网的生态。 那么了解了差异之后,我们看看 agent 有 哪些模块?四个模块,大脑大圆模型,负责理解、推理和决策。感知 agent 的 眼睛和耳朵,负责接收和理解各种输入 记忆 agent 的 海马体,让他不会转身就忘。然后最后是工具 agent 的 手和脚, 那么首先是感知模块,呃,传统的模型,你只能它只能理解你的这个直接输入的文字,但是 agent 它就不一样,它可以读网页,看图,听语音,解析 json, 提取文件内容, 那它感知维度就不止文本了,那这是为什么呢?啊?首先有两种方法,第一种呢,就是把图片转换成文字啊,再给这个大模型输入。 然后第二呢,就是它是一个 v o m, 它是个多模态的 vision language model, 它是个多模态的模型,它就不光呃能理解你的输入的文字,它也能输入图片啊什么的,它比较牛逼。 那么第二个就是记忆模块,它分两种,短期记忆其实就是记住当前的上下文和任务状态呢。 agent 呢,知道自己在做什么,做到哪一步了,那就是 cloud code 里面的 context, 那 么长期记忆就是存用户的偏好,历史项目 就是互等持有信息,那这一般就是 skill 啊,或者其他的东西。每次用这种豆包或者 check 的 gpt 这种都得重新自我介绍一遍,但是 agent 就 会记住你是谁,你上次做到哪了,你喜欢什么样的啊,代码风格,或者输出什么样的报告格式,那么记忆让 agent 越用越聪明,那豆包这种东西越用越觉得它蠢,其实不是模型出了问题,模型本身是没有问题的,而是记忆出了问题。 那么第三个就是规划, agent 最智能核心的体系,你给他一个大目标啊,他就帮你拆解成一个一个的小任务,那如果其中一步失败了,那比方说啊,有个网站四零四了,他会自动替你寻找呃代替的方案,而不是查查他卡在那里。 那么最后一个就是工具的使用,那么这个就是区别于纯语言模型的最终机特征。那么 agent 呢,可以像人一样操作软件,打开浏览器搜索,写代码,分析数据,调用 api, 发送邮件, 读解数据库,操作文件系统,那每一步都在拓展 agents 的 能力边界,那这个是怎么做到的呢?一般来说是 m c p 协议或者是 c l i 语句,就是直接调用终端,或者说你跟你所需要的工具签一个协议。 那么说了这么多,看看三个真正落地的三大场景啊,一个是全自动竞品调研之前也说过了,然后像是智能旅差助手这个通一千问之前有过,就可以自动帮你买奶茶,然后送到我们家 代码开发开发的 agent, 这就不用太多了,什么 vs code 呀, cloud code 呀, codex 浏览器之类的啊,都非常的已经非常的完善了啊,谢谢大家。

ai 到底是什么?他怎么工作的?很多人想搞清楚这件事,但找来找去全是术语,全是缩写,越看越晕。 这个系列想做的就是用正常人说话的方式,把 ai 这件事讲清楚,不需要任何背景,不需要提前准备什么,直接进来跟着看就行了。 你今天用过导航吗?问过手机的语音助手吗?或者有没有刷到一个你刚好感兴趣的视频?那你已经用了好几次 ai 了。 智能对话,图像生成,语音助手,信息解锁,这些背后都是 ai 在 跑,只是通常没人注意到他在那,那他到底是怎么工作的?来看看 你身边有没有这种人,动不动就说 prompt token r a g agent, 说的头头是道,但你听完感觉每个字都认识,连在一起就不知道在说什么。 其实这些词没那么神秘,说清楚是可以的,咱们来试试这些词。 prompt token r a g agent 听着是挺遥远的,但真的没那么复杂。 复杂的术语先放到一边,我们只讲真正需要懂的那些每个概念,生活里都有对应的东西,找到那个对应基本上就通了。 这个系列分三个层级,第一层, layman level, 把基础的东西搞懂。第二层, builder level, 了解 ai 系统是怎么搭起来的。第三层, deep dive level, 更深入地看模型和数据。 你现在在第一层,先把这里走稳了再往上。这一期是雷门 level, 如果你对 ai 了解不多,没关系,这层就是专门给这种情况做的。 思路是这样,从简单的例子入手,用生活里的话来解释,然后慢慢往下走,不用急,跟着这个节奏来就好了。 先给你看一张全景图,这是整个 ai 系统的地图,用户模型、输入输出、训练工具、记忆解锁全都在这里面。 现在看不懂没关系,先知道这张图的存在就好,就好像去一个新地方,先看一眼地图,心里有个大概,然后再走。 这张图里有很多块儿,今天我们不是要全搞懂,只看这几个用户, prompt 输入大语言模型输出、知识解锁, r a g, 还有记忆、 memory, 其他灰掉的以后再聊。今天就这几块儿,一个一个过。 接下来进入第一个概念, prompt 提示词, prompt 就是 你给 ai 的 那句话,那个指令听着简单,但写得好不好差距很大。什么是 prompt? 为什么它这么重要?怎么才算把任务交代清楚?来看看。 你想想,如果你刚招了一个实习生,第一天你怎么跟他交代任务? 你说帮我搞点饮食建议,他只能猛,不知道从哪下手。你给他多一点信息,说设计一周健康食谱,稍微有方向了,但还是太模糊,结果通常是千篇一律。 但你说我是上班族,帮我设计一周健康食谱,不含肤质,每天预算三十块,用表格每天加一句建议,这一下他能做出东西来了。 prompt 就是 把任务交代清楚,这件事少一点模糊, ai 就 多一点方向。 一个好的 prompt, 通常有这五个部分角色,你希望 ai 扮演谁,任务具体要做什么,背景给谁看,在什么场景限制风格,长度,边界在哪, 格式,最后要什么形式的结果。五个部分是情况来写,交代的越清楚,拿到的结果越稳。少一点模糊,多一点交代,结果通常就会好很多。 接下来是这个系列里最核心的概念, l l m 大 语言模型。 你跟 ai 说话, ai 处理你的问题,得出回答。这件事是 l l m 在 做。他读过海量文字,也很会组织语言,但他是怎么工作的?有什么边界?来看看。 ai 的 大脑叫大语言模型,英文是 l l m。 可以 这样想, 有个孩子,七岁,但他读过海量的书,无数的网页、文章,对话,他学会了语言的规律,会说话,会写东西,但他不等于什么都真的懂。 他给你的是听起来像答案的东西,不一定是真正对的。读得多,说得好,但不总是可靠。这就是 l l m。 l l n 不是 在背答案,他在做的事是根据你给的内容,判断下一个最可能出现的词是什么,然后这样一个词接着一个词生成出回答。 训练的时候,他读了大量文字,学了词和词之间的规律,你问他问题,他就根据这些规律把回答拼出来。说白了,他是个很强的续写机器,在预测,不是在真正思考。 大语言模型擅长什么?总结、改写、翻译、解释,模仿文风,整理信息,这些他很擅长, 不擅长的保证每句话都是真的,知道最新发生了什么,真正像人一样理解世界,还有识别那些隐藏的陷阱。 他最强的是处理语言,不是找到真理,用的时候记着这一点。接下来说一个你可能没想到的东西, token 词源。 ai 读文字的方式跟我们不一样,他不是整句的看,而是先把文字切成块,逐块处理来看看。为什么 我今天很开心?在 ai 眼里可能是六块,我今天很开心, i'm happy today。 可能是四块, i am happy today。 你 看到的是一句话, ai 看到的是一盒积木。 为什么要切成 toon? 因为模型没办法直接理解文字,他要先把文字变成数字才能计算。文字,到切成 toon, 到变成数字,到模型计算关系到生成。回答,这是整个流程。 toon 是 ai 的 工作单位,对话能有多长,用下来要花多少钱,都跟 toon 挂钩。 token 这件事跟你有什么关系?三件事, ai 一 次能看多少内容,它能输出多长的。回答,还有你用这个服务要花多少钱? 很多 ai 服务就是按输入和输出的 token 数量计费的,把 token 理解成 ai 系统里的流量单位就差不多了。 接下来聊 context window 上下文窗口,简单说就是 ai 一 次能同时看到多少内容。 有个挺好用的画面, ai 面前有张工作台,台面上能放多少东西,它就能同时处理多少。放不下的,这次看不到。 ai 有 记忆极限,这个极限叫 context window, 台面上放得下多少东西,他就能同时看到多少。超出台面的,这次看不到。去考试带了十本参考书,桌上只放得下两本,放不下的,这一刻用不上。 context window, 就是 那张桌子的大小。 跟 ai 聊久了,有时候他忽然不记得你之前说过什么了。不是真的失忆,是更早的内容被新进来的内容挤出了当前的窗口。 ai 一 次只能处理有限的内容,新的进来,旧的就可能被推走。先消失的通常是最早说过的那些,不是最新的,这是当前对话窗口的限制,跟长期记忆是两回事。 接下来聊 memory 记忆。 ai 的 记忆不只是这次聊了什么,有些产品能让 ai 慢慢认识你这个人,你叫什么,你的习惯,你的偏好,来看看这是怎么做到的? ai 有 没有办法记住你这个人?有,这叫 memory, 没有 memory, 每次对话都是从头开始, 你告诉他你叫小明,不吃辣,喜欢爬山,下次聊全忘了。有了 memory, 他 能记住你说过的偏好,认识你这个人,慢慢的跟你说话的感觉就不一样了。 memory 不 止一种,至少有两层,绘画记忆只对这次对话有效,聊完就没了。长期记忆能跨对话,记住你的偏好,名字、风格、饮食习惯,但需要产品支持,或者你主动授权, 临时变迁和长期档案就是两回事。还有一点,不是所有 ai 都会默认记住你,这个要留意。 接下来聊 r a g 解锁增强生成名字。听着很技术,但背后的思路很简单,回答之前先去查一下资料,就好像考试允许带参考书来看看他是怎么工作的。 普通的 l l m 只能靠训练时学到的东西。回答知识有截止日期,也不知道你公司内部的规定。有了 r a g a i。 在 回答前,先去外部资料库查相关信息,再结合那些资料给你答案。 给 ai 接一个资料库,让他在答话前先去翻翻参考书。就是这么个意思, r a g 在 哪些地方最有用?需要最新信息,你问今天发生了什么? ai 先找最新的网页再回答。需要专业资料,员工问制度流程。 ai, 先查内部文档, 需要私有内容,上传你自己的笔记,让 ai 基于这些来回答 r a g 的 重点记的多,没用,查的准才是关键。 那问题来了,同一个问题,用了 r a g 和没用 r a g, 差在哪?有人问,我们公司请年假要提前几天申请, 没有 r a g, ai 只能靠通用知识猜,很多公司通常要提前几天到一两周,具体看你们公司的制度。 对,但没用。用了 r a g a i, 先查了你们的员工手册,然后打,根据手册第四点二条,年假需至少提前三个工作日,连续五天以上,需提前十天由直属主管审批。 左边像是猜,右边是查过以后再说,这就是差别。 接下来最后一个概念, agent, 智能体。普通 ai, 你 问他,他打你。 agent 不 一样,他不只会回答,还会自己拆任务,调用工具,然后去执行,来看看区别在哪。 普通 ai, 你 问他,他打你。 agent 不 一样,你给他一个目标,他自己拆步骤,自己调工具,自己把事做完。 你说帮我安排一次去上海的出差,他理解目标,拆步骤,调用搜索,订票,日历这些工具,最后把结果交给你, 你给目标,他按流程往前推,像一个能独立干活的助手。 ai 能接收什么? 最开始只能处理文字,现在能处理的多了,文字、图像、语音、视频文件都可以作为输入,这就是多模态。 拍一张菜单, ai 告诉你热量,上传一段录音, ai 帮你整理重点,丢进去一份 pdf, ai 帮你找结论,能听能看能读。 ai 在 变得越来越像我们了,我们把今天的东西串一下, 中心式 l l m ai 的 大脑,你用 prompt 告诉他做什么,他用 token 处理文字, context window 决定他一次能看多少 memory 让他记住你 r a g 让他回答前先查资料, agent 让他能拆任务,调工具,自己执行多模态让他能处理文字以外的东西,最后生成你看到的输出 layman level 到这里下一层是 builder level ai 系统是怎么搭起来的?为什么不同模型会不一样?下次继续。

全网都在吹智能体,到底普通人怎么才能真正学会真正用上?答案就在这本智能体入门实战神书里。它不是空谈理论的废书,所有项目都基于当下扣子平台最新版本开发,妥妥的保姆级教程,小白学完就能直接上手,比报任何培训班都实在。为什么推荐它? 核心就两个字,使用!首先,他一托的 qc 平台整合了豆包、 timmy、 deepsea 等全网主流大模型,不用来回切换软件,一个平台就能搞定所有智能体开发。而这本书,就是扣子平台的专属实战手册,精准匹配最新功能,不做过时内容。其次,他彻底打破了智能体开发需要懂代码的 误区,把整个开发流程拆解成填空式步骤,从模板选择、参数设置到案例优化、落地使用,每一步都讲的明明白白, 甚至连你可能遇到的坑都提前做好了规避指南。更关键的是,书里的十个实战项目,全是贴合普通人工作场景的刚需内容,创作者用它自动生成文案剪辑脚本, hr 用它自动筛选简历生成面试话术,销售用它自动跟进客户辗写报价单。 只要有重复性工作,智能体都能替你扛,让你腾出时间做更有价值的事。不同于市面上那些光说不练的教程,这本书的核心就是落地,今天学,明天就能做出能用的智能体。不用懂技术,不用花大价钱,普通人也能轻松拥有自己的 ai 助手。 如果你也想二零二六年掌握一项真正能用的 ai 技术,趁着优惠抓紧入手,这一次,别再错过属于普通人的超级个体风口。

ai 圈最近有点大破防了, agent 不 再是只有博士生才能玩的高端局,起因是上海交大教授团队发布了一整套 agent 的 学习路线,引起了全球技术宅的学习热情。这估计是近几年 ai 圈最具诚意的 agent 的 入门教程,实战性直接吊打市面上百分之九十九的教程,只要你不是三分钟热度,一个月的时间就能从新手 集结成 ai 领域的工程师。第一阶段,打基础,先掌握 ai agent 的 核心理论,搞懂核心组建,吃透大圆模型 基础概念。第二阶段,专攻 a 证的工作原理和难点解决方案,拓展,学习 recat p 等经典 a 证的范式。第三阶段,深化学习,了解多智能体协助的逻辑,再学习 prompt 调优技巧,让你的 a 证更精准的理解你想要的 结果。第四阶段,练实战,结合前面所需知识,自己动手完成几个小项目,学完这些,你就能真正把 ai 技术接入实际业务。全套 ai 的 学习路线以及配套视频教程已经整理好了,留个谢谢,直接带走。 ai 领域每天都在更新迭代, 信息轰炸,让很多人感到无从下手。其实万变不离其宗,只要把 a 阵的最底层的这三个核心逻辑捋清楚,不管大模型怎么更迭,你都能立于不败之地。今天花几分钟可以直接帮你省下几十个小时的试错时间,带你从底层构建起对 a 阵的认知框架。 我们会分四步走,首先我们要搞清楚为什么现在的 agent 能从工具进化成员工。接着我们聊聊 api, 这是你连接模型实现高性价比调用的底座,把成本压下去,性能提上来,关键就在这里。 然后我们会深入 m c p 协议,这也是目前圈子里比较热的一个领域。有了它,你的 agent 才真正有了上网、抓数据、操控电脑的手脚。 最后呢,我会教大家怎么封装 skill 技能模块,让你的 agent 不 再只是个会听命令的通才,而是能直接帮你跑固定业务的专家。这三块拼图一拼完,你就能明白,为什么有的人用 agent 还在做无用功,而有的人已经能用它自动搞定复杂业务了。 好了,话不多说,我们直接开始。其实这大半年,大家肯定感受到了, ai 圈子里最火的一个词就是 agent, 也就是所谓的智能体。你看我们刚开始玩 ai 的 时候啊,其实把它当成一个高级顾问, 你问他什么,他就给你什么。比如写个文案啦,那个计划书啦,听起来挺厉害,那你发现没有,他也就到这了,剩下的活,比如说怎么把这些想法落实到系统里,怎么去真的操作那些软件,还得我们自己亲自动手。但现在呢,这个东西发生了质变, 现在真正的 agent 更像是一个真正的数字员工,他不仅仅是动动嘴皮子给你出主意,而是能自己把事给干了, 能主动去看你的日程,帮你去约人,整理好你的文件,甚至还能帮你发通知。你给他一个目标,他就能一步一步把流程跑通,直到最后那个成品摆在你面前。 所以很多人就问,这个 agent 到底该怎么用啊?或者说怎么用才不踩坑。其实要把 agent 用好,你只需要弄明白三件事,你看,我把它们总结成了一个架构模型,一共是分为三块, 第一块叫 api, 这就像是 agent 和外部世界对话的一个通道,是绕不过去的。 第二块是 m c p 协议,这东西就是个万能接口,帮 agent 把触角伸到更远的地方去。那最后一块是 skill 技能,也就是我们说的肌肉记忆, 怎么让 agent 变熟练,不再是一遍又一遍教他,而是让他掌握干活的技巧,就在这里。 那接下来的内容我们就一个一个来拆解。先从这个最基础的 api 开始讲起。你可能听过这个词啊,听的挺技术的,但其实也特别好理解。我们先说说为什么 api 这么重要。 其实大家都在用 agent 的 时候,很容易陷入一个困境,比如现在 cloud code 这种产品,体验是真的好,特别聪明,但问题是它贵啊,你要是天天让它帮你干活,这个费用跑起来对我们个人或者小团队来说还真有点吃不消。 那怎么办呢?我们就开始想有没有那种便宜一点,但是效果又差不多的模型呢?你还别说,现在国内有些模型价格可能就是十分之一,甚至更低,而且干起某些活来,效果完全不出那些大牌。 那这时候核心问题就来了,我怎么让 cloud code 这种好用的工具去调用别家的模型呢?这就是 api 要解决的事情, 你可以把你的 agent 想象成一个去餐馆吃饭的一个顾客,而模型呢,就是餐馆的这个后厨, 这个 api 其实就是中间的服务员,那顾客也就是你的应用提出需求说我要一份红烧肉,那这个 api 服务员就把你的指令传到这个后厨去,后厨是怎么处理的,火候怎么掌握的,那是后厨的事,顾客根本就不用管,只管着等着上菜就行了。 所以你看 api, 其实就是把工具和模型给分开了,工具是工具,模型是模型,中间连接它们的就是这个服务员 api。 这么一来,实操上我们就灵活多了。比如我们平时去各个 ai 厂商那里申请一下 api key, 再利用一些像 github 上那种开源的工具,比如说 cc、 switch 这一类,把这些模型都整合在一起,这时候你用的时候就能一键切换了。 觉得这个模型贵了,或者是那个任务不需要太顶级的模型,就直接点一下开关,换个便宜的就行,这样既省钱又不耽误干活,对吧?这就是 api 最核心的作用,它给了我们一个选择权, 那解决了模型调用的问题,那接下来我们要聊的就是如何让这个 agent 真正干活,也就是怎么让它连上外部世界。好,那我们接着讲第二个核心概念, mcv 协议。 其实你可以发现,光有模型 a 纸呢,真正能干的事真的挺有限的。你看大模型本身,说白了它就是一个文字处理器,脑子再聪明,也是关在屋子里处理文字的,他没法自己上网查资料,也没法自己去看桌面上有什么图片, 甚至连你给他一个网址他都打不开。以前呢,想解决这个问题特别麻烦,得手动写那种代码去抓取网页,再把它转成文字再为模型,这不仅费劲,而且成本非常高,每次换个任务还得重新再来。 但现在有了 m c p 协议,情况完全不一样了,你可以把 m c p 理解成 ai 界的一个万能 usb 接口。大家一合计,给这些大模型定了个通用的标准,只要遵循这个标准,模型就能去自动去调用各种外部工具。 这个过程说白了就是一个三步闭环。第一步叫做自动注册。好比说你,你给 agent 装了一个搜索插件,这个插件一上线,它就会自动跟 agent 说,嘿,我会联网,我还能抓政文,我有这些本事,它先把自己的能力清单报给 agent。 第二步是任务匹配。当 a 子接到任务,发现这个事,我光靠脑子想不起来,需要去网上查一下,他一看列表,发现刚才那个叉接能干,于是就把需求按规范打包扔给那个工具。 最后第三步叫执行与翻译工具。去网上干活,把那些乱七八糟全是网页的 html 代码过滤掉,整理出一份干干净净的结构化的文本,再传回给这个 agent, 你 看这有多优雅。 所以我觉得 mcp 带来的最大变化,就是让 agent 不 再是一个只能在信息里游泳的大脑了。 他现在有了手,有了脚,他能去网上调研,能识别图片,甚至能操控浏览器,还能去调用 github 上那些成堆的开源工具。你看这里写的 m c p 把 age 呢,变成了一个能伸手去外部世界把东西拿回来,再给你的一个身体。 这就好比说,以前你雇的员工只能在办公室里动笔头,现在你给他配齐了各种专业的办公设备和搜索权限,那个效率当然是量级的提升了。 那解决了 api 和 mcp 这两个连接的问题,最后怎么让 agent 变聪明,变熟练呢?最后我们要聊的这个 skill, 它就是解决 agent 好 不好用的关键。 你看我们刚开始用 agent 的 时候,是不是有个坏习惯,就是每次给他发指令都得像写论文一样,把什么背景信息啦,写作风格啦,目标用户啦,还有格式要求全都写一遍, 这真的是又累又费时,而且你还得时刻担心这一大串长提示词丢进去 copy, 消耗得多心疼啊。 这就是所谓的结构性损耗,你要是干点重复的活,比如说整理项目 brief 这种固定流程,每次都要从头再教这个 a 阵的一遍,那效率真的是低到家了。 所以我现在的做法就是给 agent 的 封装肌肉记忆。什么意思呢?就是把这些重复的标准的业务流程直接打包成一个 skill module, 也就是技能模块。以后你要需要用的话呢,直接点一下一键调用 agent 呢,就知道该怎么干了,不用你再写那几百字的指令。 这样以来,不管是效率还是成本都有了质的飞跃,任务启动的快, token 也省了不少,行情下来,这账单确实能省下一大笔。我们要做的就是把 agent 呢,从一个什么都得现交的通才,变成一个干活极度熟练的专家。 好,说到这里,我们再回头看一下这三层架构,底层的 api 解决了找谁干的问题,让我们能灵活切换模型,把成本压到最低。中间的 m c p 解决了能干什么的问题,让 agent 有 了手脚,能连接外部世界,甚至去操控软件。 那底层的 skill 解决了干得好不好,值不值的问题,通过固化 sop, 让 agent 变成我们的业务专家。 你看这三件事看似独立,其实缺一不可。只要把这三层想清楚了,你的 agent 呢,就不再只是一个会聊天的机器,而是一个真的能跑起来越用越顺手的数字员工。希望今天这番拆解,能帮你把自己的 agent 真正用好。那今天就先聊到这,我们下期再见。

二零二六, ai 人工智能入门到进阶的几个阶段,今天我就给大家好好梳理一下,看看你到底处于第几个阶段。第一个阶段就是掌握必备的基础,有三点,这三点我相信大家之前了解过, python 数学、机器学习,大家说机器学习已经作为基础了吗?对,机器学习已经作为基础了,因为现在很多机器学习都是为了铺垫,为了去学深度学习做准备,这就是基础阶段。第二个呢,就是入门阶段,入门阶段当中就包括了一些深度学习的基础算法, 像是卷积啊,地归网络,还有一些排头的框架。然后当你们入门阶段的时候,你可以把这些基础的算法,把排头体框架熟悉完之后,用排头体框架做几个例子,比如说文本数据分类、图像数据分类,做完之后算是达到一个入门的水平了,然后接下来做一个进阶的阶段。 进阶啊,其实是术业有专攻,你是做 n l p 的, 还是做结构化大数据的,还是做图像数据的?那可能咱们做的东西不同,我给大家说一说,比如说结构化数据要干什么?那你就是去看时间序列表,神经网络,如果说你是 n l p 文本数据呢?那你就是去看一些 transformers, 还有 hunger face。 然后呢?视觉。先说简单的吧,检测分割、行为识别、目标追踪、经典项目都得过一遍,是吧?然后接下来再说最后的提升阶段。提升阶段其实我觉得就是没有具体到怎么去学,主要是看你需要什么,咱们就两步走,第一步先去找相关的论文,再去做你这个场景, 你在找论文的时候一定要找有原码的论文,结合原码去看这篇论文,大量去解读原码。所以说提升阶段主要是围绕着论文和原码大量的去累积。然后大家可能说那大模型这个东西呢?大模型这个东西其实我想把它放到 nlp 的 一个境界阶段, 因为在 nlp 的 境界阶段当中,你可以这么理解,视觉有视觉,大模型视觉我们一般叫多模态,大模型文本有文本,大模型都是属于你后续境界提升的。 我想说的是,大模型本质来说并不难。最后呢,我也是整理了一套二零二六年最新 ai 人工智能学习路线四个阶段,告诉你先学什么,后学什么,看什么书,练什么项目,需要的直接安排。

假如你从二零二六年六月开始学习 ai agent, 多久才能学会?只要你年龄在四十五岁以下,不是三天打鱼两天晒网,请按照这条学习路线疯狂学习三个月,让你蜕变成为企业紧缺的 ai 技术人才! 第一阶段,基础夯时期第一到四周,吃透大模型底层运行逻辑,精通提示词工程技巧,熟练掌握 api 接口调用,注牢入门核心根基。第二阶段,核心范式攻坚期 第五到八周,专攻 ai agent 主流核心范式,吃透思考、行动观察、循环逻辑,熟练上手各类主流开发框架。第三阶段,记忆功能实操期第九到十周, 深度学习智能体记忆机制,搭建短期、长期记忆体系,掌握真实工具调用能力,独立完成智能客服实战开发。 第四阶段,多智能体协助进阶。第十一到十二周,研习多智能体协同原理,熟练运用主流协助框架赤透管理,执行辩论协助模式,完成二到三个实战项目,含盖智能阵列、智能客服等。 整套学习周期结束,足以胜任市面百分之九十相关 ai 岗位。全套 ai 阵学习路线、配套视频课程,实战项目原码已整理完毕,留言学习,领取全套资料!