这一期我们开个新系列, google 联合 kago 最近发布了五篇白皮书,把 ai agents 从概念直接推到工程与生产。我将带大家逐一解读这些白皮书。 今天先啃第一本 introduction to agents, 目标就一个,把底层框架讲清楚,让你后面做架构、做平台、做产品,都有同一张地图。先讲下背景,这五天到底发布了什么?为什么它会变成从业者的参考系?这次事件的含金量在于,它不是一场发布会, 而是两千零二十五年十一月十到十四号连续五天的密集课程,同时把五篇白皮书完整开源到开购论,并且免费。对团队来说,这意味着你拿到的不是零散 blog, 而是一套可以直接用来对其架构语言做工程落地的官方材料包。如果只用一句话概括它的行业意义, google 把 agent 从 prompt 加几个工具的全生命周期, 也就是你得能构建、能评估、能运维、能部署。这个转向很关键,因为他把讨论焦点从模型能不能变成系统稳不稳、控不控,能不能规模化上线。最后,我们把五篇白皮书当成一张路线图,第一先定义 a 阵是什么?第二讲工具与互操作, 重点是 m c p d 三,进入绘画与记忆,也就是上下文工程的核心 d 四讲质量,可观测,评测 l m 价值,这一套怎么落地? d 五,把原型推到生产,包括多智能体协助协议和部署治理。这套顺序很工程化, 先定义对象,再补能力,再补记忆,再补质量,最后上生产。从这一单元开始,我们正式进 day 一 第一本白皮书 introduction to agents 先把一个最容易被聊偏的问题盯死, agent 不是 更会聊天的 l l m。 在 google 的 定义里, agent 是 一套可构建、可运行、可治理的工程系统,后面所有内容 都是围绕这个系统,怎么设计,怎么跑,怎么上线。给一个可落地的最简定义, agent 等于四件套, model tools, orchestration layer 以及 runtime 或 deployment services。 它的关键不是能生成,而是用 lm 在 循环里做事。你可以把它理解成一个持续运转的控制回路, 每一轮把任务目标和上下文装进去模型做决策,必要时调用工具拿结果,再把结果回写上下文,进入下一轮。所以,如果你的系统只是一问一答,哪怕加了几个 function calling, 本质上还是应用层的对话接口。 只有当它具备稳定的循环机制,并且有运行时,服务支撑可观测、可控、可扩展,它才开始像一个真正的 ajax system。 接下来把四要素的分工讲清楚。第一, model, 也就是大脑,负责理解目标,做推理,出计划,但记住,模型本身不等于 agent。 第二, tools, 也就是手, 让系统能接触现实,查数据,搜信息,调业务 api, 执行代码。没有工具, 很多任务只能停留在口头建议。第三, orchestration layer 神经系统,它是最容易被忽略但最决定成败的一层。它负责把 think, act, observe 这个循环跑起来, 负责状态管理,负责把 session, history, 短期状态、长期记忆这些东西在每一步正确地塞进 context window。 第四, deployment 或 runtime services。 身体和腿。这部分决定你的 agent 能不能变成长期在线的服务,能不能监控,能不能打日制?能不能做权限能不能扩缩容很多团队做不出生产级 agent, 不是 因为模型不够强,而是因为缺了编排层和运行时服务 系统不可控、不可观测、不可治理这一单元。我们把 agent 从定义拉回运行。一句话, agent 的 核心不是输出更漂亮的文本,而是用一个可重复的循环,把任务一步步办完。 你把这套循环跑稳了,才有资格谈多工具、多智能体上生产。先把这五步盯死。第一步, get a mission, 拿到目标来自用户,也可能来自系统触发。第二步, scan a scene, 扫现场, 能用的上下文都在这一步,收集用户说了什么,历史绘画有什么,我能调哪些工具。第三步, think it through, 想清楚 模型,基于目标和现场,产出一个可执行的计划。第四步, take action, 开始干活,编排层,选择工具,发起一次具体的突扣。第五步, observe and iterate, 观察结果,然后迭代, 把工具返回,写回上下文,进入下一轮。注意,五步里最值钱的不是 think, 而是 think 之后真的能 act, 并且 act 的 结果能被系统消费,这才叫办事。接下来把这套循环翻译成工程语言, think 是 model 的 事, 负责规划,决定下一步要什么信息,要调用什么能力。 act 是 toos 的 事,真正去查、去改、去执行。 observe 是 系统的事,把工具返回,变成可用上下文,未回下一次模型调用 这一步,很多团队做坏了工具返回,一大坨 jason 直接塞回去, context window 立刻爆炸。 所以你会看到 google 在 day 一 就强调 agent 本质是 context window 的 测展系统,你要把 observe 做成结构化、可筛选、可追踪的工具,否则 think 再强,也只是在一堆噪音里瞎想。从可观测角度看, think act, observe 也是你打 trace 的 天然边界, 每轮发生了什么决策调用了什么工具,回来了什么结果一眼可查。我们用一个经典的客服场景把五步跑一遍,用户说,我的订单幺二三四五,现在到哪了? mission 很 清楚,给出订单状态, sin 怎么扫? 先确认我有哪些工具,内部订单库查询,物流承运商查询。然后 think, 别急着回答,先做一个三段式计划。第一段, identify, 查内部库,确认订单存在,拿到运单号。第二段, track, 用运单号去查乘运商的实时物流状态。第三段, report, 把事实汇总成用户能读懂的一句话。接着 act, 先调用 find order, 幺二三四五 observe, 拿到订单记录和运单号, 比如 z y x 九八七,再 think 下一步该查物流。 act 调用 get shipping status, zix 九八七 observe 返回 out for delivery。 最后 think 信息齐了,生成最终回复。你看,这就是 agent 跟聊天机器人的分水岭。 聊天机器人会直接编一个看起来很像的答案, agent 会先把世界查一遍再开口。这一单元我们不聊, agent 能做什么?我们聊更致命的问题,你到底在造哪一类 agent? google 把 ajax system 分 成 level 零到 level 四,这不是名词解释, 这是你做架构范围算治理成本定交付预期的第一把尺子。先把结论放在前面,做 agent 最容易翻车的不是模型选错,是你一开始就把系统范围开太大,最后治理跟不上。 为什么 google 要分级?因为每上一个 level, 你 增加的不是能力点,而是一整套工程负担。工具越多,权限面越大,记忆越长,隐私和合规越难多智能体一上来观测协助、责任边界会指数级复杂。所以分级的意义是, 第一,帮你把目标说清楚,你到底要会想还是会办事。第二,帮你把依赖讲明白,这个 level 需要哪些基础设施。 第三,帮你把上线门槛算出来,评测、监控策略、审计要到什么程度? 一句话, level 不是 炫技, level 是 你的系统承诺。大家看这张分类图,我们先抓 level 零和 level 一 它俩的分水岭就一句话,有没有手。 level 零是纯推理系统模型,在自己的训练知识里做解释,做规划,给建议, 但他对现实是忙的,你问昨晚比赛比分,今天库存多少,他只能猜 level 一 是 connected problem solver, 核心升级是接上工具,比如搜索 r a g 数据库查询, 他不靠记忆力硬背事实,他靠工具把事实取回来,然后再组织答案。工程上 level 一 的关键不是你会不会 function calling, 而是你有没有把工具变成稳定契约,能调用,能处理失败,能把结果回写进下一轮上下文。所以,如果你的系统目标是贴近事实,减少幻觉,能查能改, level 一 往往就是最划算的起点。 level 二是我认为最容易被低估的一层。很多人以为 level 二就是 prompt 更长,不对, level 二的核心叫 context engineering。 什么意思?就是每一步都在做上下文的主动管理,选哪些信息进来,把信息怎么打包,控制哪些噪声别进来。因为 agent 真正的瓶颈往往不是模型不会响,是上下文塞得太满, 模型的注意力被垃圾信息稀释了,结果就是计划漂移,工具乱调用,同一个任务越做越跑偏。 level 二的能力是战略规划, 它会把一个复杂目标拆成多步,而且每一步都会基于上一步的观察结果,自动生成下一步需要的最小上下文。从工程角度, level 二你要开始认真设计上下文结构状态,对象怎么存,工具结果怎么摘要, 以及哪些内容是应约束。必须进 system instruction。 做到了 level 二,你才真的在做 agent 系统,而不是工具型聊天。再往上就是 level 三和 level 四,这里凡事会变, 不是一个超级大脑变更强,而是变成一个专家团队。 level 三是协助多智能体一个协调者拿到总目标,然后把任务拆给不同的专家 agent。 在 系统里,其他 agent 变成一种高阶工具,它解决的是组织问题,分工并行,附用 level 四更激进系统不止用现成工具,它能发现自己缺能力,然后去创建,比如动态造一个新工具 或者新 agent 补上缺口。但我也把话说重一点, level 三负四不适合一上来就做,因为你要付出的代价是治理体系,包括身份权限、策略审计以及跨 agent 的 可观测,否则你得到的不是智能体团队, 是不可控的 agent's pro。 所以 建议很明确,先把 level 一 的事实闭环刨稳,再把 level 二的上下文工程做扎实,最后再谈 level 三的团队化和 level 四的自我扩展。进入 unit 五,我们聊一个最容易被带节奏的话题,选模型。在 agent 的 系统里, 模型不是越大越强就完事。 google 的 核心观点很直接,模型选择是架构决策,不是榜单冲浪这一单元。我们用工程语言把选型标准、核心能力和落地策略讲透。先给结论,选模型这件事,正确顺序是业务目标在前,模型在后, 不是看哪个榜单分高就把它塞进系统。原因很现实, a 证的失败往往不是答不出来,而是在你的业务里不稳定。比如你要他抽取你们自己的保单自断,他老漏自断, 你要他按你们的公单规范写解散,他时不时就跑格式,这种问题通用 benchmark 基本测不出来。所以真正的选行动作应该是三步。 第一步,先写清楚你要交付的业务结果,也就是 kpi。 第二步,把 kpi 映设成可评测的离线任务级,也就是你自己的 golden set。 第三步,用同一套评测脚本去跑不同模型,拿到质量、延迟、成本三张账, 这会逼着团队从我觉得这个模型很强,变成这个模型在我的任务上更稳更划算,这才是 production grade 的 选型方式。第二个要点, 在 a 证的场景里,你别只问模型会不会写,你要问的是它能不能多步做完,并且工具用的靠谱。 google 把这叫 egotic fundamentals, 我 把它翻译成两句大白话,第一句, 复杂多步推理能力,也就是它能不能在长链路任务里保持目标不漂移,步骤不乱套。第二句,可靠工具使用能力, 也就是它能不能稳定的产生正确的函数,调用参数,别乱编,拿到返回之后能正确消费结果。为什么这俩是硬门槛?因为 agent 本质是 lm in a loop, 你 不是调用一次模型, 你是要它连续做五轮、十轮决策。任何一轮工具调用不稳定,都会把后面的轨迹带崩。所以评测时也别只测最后答案对不对,要拆开测推理链路是否稳, 工具调用是否准,失败时是否能恢复,这才是对 a 证负责的模型评估。最后这页讲怎么在工程里把选择落下去。核心是三件事,权衡路由,持续升级。第一,权衡质量、速度、价格。 a 证的上线之后,最常见的现实是,你不能每个请求都用最贵最慢的模型,你的约束来自 sl a 吞吐预算。所以选型不是选一个最强,而是选一个最合适的组合点。第二,多模型路由,也就是 team of specialists, 思路很工程化,重推理用强模型,轻任务用快模型。比如复杂规划难推理交给旗舰模型, 意图识别、招标结构化抽取这种高频任务交给更便宜、更快的模型路由,可以是规则,也可以是自动策略,但目标只有一个,把钱花在刀刃上。第三,用 a 帧 ops 做持续评测,支撑快速升级。 因为模型迭代太快了,你今天选的半年就被替代。如果你没有持续评测和 c i c d, 你 每次换模型都像在赌博。 反过来,如果你有稳定的评测级,质量分数线上 ab 指标升级就是常规操作。 这三件事合起来才是生产级。 agent 架构的模型策略可控、可算、可持续到这一单元。我们把视角从模型多、聪明切到系统能不能真的动起来。 tools 是 agent 的 手,没有手,推理再强也只是建议,有了手你才开始进入 production 语境。事实怎么对齐,动作怎么执行,风险怎么刹车?先讲 grounding, 很多 a 证的失败不是不会推理,是没对齐事实,你让他回答公司政策、产品库存、最新价格,他如果不查,就只能猜。 所以 google 把剪辑放在工具体系的最底层。能力典型三类, red 连向量库适合企业文档, knowledge graph 适合强结构事实, google search 适合公开的实时信息。这里的工程结论很直接,第一,先查再说, 能把幻觉压下去一个数量级。第二, grounding 不 只是解锁本身,是把解锁结果变成下一轮上下文的可用事实,也就是返回太长,要摘要来源,要可追溯, 必要时要带引用片段。你把光顶坐稳了 a 阵,才有资格处理生产中的真实事件。第二块更关键,从读世界升级到改世界。先说结构化数据, 当你的数据在数据库里,最常见的动作不是 red, 而是 n l 二、 c 口,用自然语言生成 c 口去查分析数据,比如季度销量、 top 产品异常订单。这里的重点是 c 口。这类工具调用必须可控可审计,不能让模型随便 delete。 再说执行类工具,把你现有的业务能力封装成工具就行, 发邮件、排会议、更新工单,写入 crm agent, 不 需要懂业务系统,它只需要拿到清晰的工具器约,然后按计划调用。还有一类很强的工具,代码执行或生成 c 口脚本, a 诊就能把复杂计算清洗转换自动做完。但这类能力要谨慎杀伤资源限制、超时网络权限,这些都是工程底线。一句话总结,工具不是越多越好, 工具是把能力做成可附用的接口,并且把风险关在笼子里。最后讲 hito, 很多团队以为 hito 是 体验不好,但在生产里, hito 其实是你的安全阀,也是责任边界, 什么时候必须把人拉进来?两类场景,第一类信息不够,比如缺日期、缺收件人、缺审批人, a 证不能硬拆。第二类高风险动作, 比如对外发信、改客户数据、触发付款、批量操作。工程上, hack 就是 一个工具, 比如 ask for confirmation, ask for date input, 把它插在编排层的关键节点,让系统停一下,等人给最终授权或补全信息, 你会发现这不是退步,这是把 agent 的 从可能乱来,变成可控、自动化。想规模化上线,害透不是可选项,是必备键。 上一单元,我们说 tools 是 agent 的 手,但手再多,如果指挥不动,调不准、连不稳,系统照样上不了线。这一单元,我们就专门解决一件事,把工具调用,从能跑的 demo 升级成可契约、可互操作的工程能力。我们先把可靠工具调用讲成一个工程 checklist, 就 三件事,清晰指令、安全连接、编排保证。第一, 清晰指令。你要让模型在什么条件下用工具,用哪个工具,输出什么参数,格式失败怎么处理,否则方式 callin 就 会变成看心情生成参数,你线上一定翻车。第二,安全连接,工具调用不是玩具,它是权限, 你要解决健全最小权限,参数校验、审计留痕。一句话,模型负责提议,系统负责批准。第三,编排保证。 这是很多团队最缺的一块,你得把 think act observe 变成稳定状态机,什么时候该调用工具, 什么时候该重试,什么时候该降级,什么时候必须 hoho。 并且要把每一次工具调用的输入、输出错误都变成可观测的轨迹。把这三件事做扎实,你的工具调用才是可上线的,而不是可掩饰的。 接下来讲协议。我用一个很工程的划分,契约和互操作。先说 open api, 它解决的是契约问题,也就是把工具描述成一个 skma, 这个工具干什么?入餐有哪些字段类型是什么?哪些必填? 返回结构长什么样?好处是模型更容易生成,正确调用系统也更容易做校验, mock 测试版本管理。再说 m c p, m c p 更像是互操作层,它的价值不再描述一个工具有多规范, 而在让工具更容易被发现,更容易被接入,更容易跨系统附用。当你的工具生态开始变大, m c p 会显著降低连接成本。最后补一类模型,原声 google search。 这种模式的优势是集成顺滑、调用路径短、体验好。但工程上你要想清楚可控性、可观测性,以及你能不能把它纳入同一套治理体系。结论很简单, open api 把工具变成可契约的组建, mcp, 把组建变成可互操作的生态,你要的是两条都打通,而不是二选一。到这一单元,我们要把 agent 从会推理、 会调工具升级成能长期稳定跑的系统,核心角色就是 orchestration layer, 它不是一段胶水代码,也不是简单的流程管道,它更像系统的行为中书,负责调度,负责状态, 负责把不确定性关进可治理的框里。编排层到底干什么?我建议你把它当成智能体系统的状态机加调度器。 大家看这张五步循环图,模型负责想,但不是模型自己决定什么时候停,什么时候跑。边排层负责把循环跑起来,拿到 missing 扫信,然后让模型 think, 一 旦需要落地,就触发 act 去调用工具,工具返回之后,边排层再做 observe, 把返回加工成可用的上下文,进入下一轮。第二个职责是 state 和 memory 状态,不是聊天记录这么简单,它包括当前任务进行到哪一步了,已经调用过哪些工具,拿到了哪些关键字段, 还有哪些缺口没补。短期的 action 和 observation 训练通常就挂在 state 里。长期记忆则更像一个可查询的工具,需要的时候被编排层拉进来。第三个职责,决定何时思考,何时用工具,这其实是控制成本和稳定性的关键。 能用确定性规则解决的,就别把方向盘交给模型,需要判断,需要在不完整信息下做决策的,再让模型上。 所以你会发现,真正把 a 阵坐稳的,不是让模型更聪明,而是让编排层更会管。管节奏、管状态、管上下文、管调用边界。这一页讲编排层怎么设计,我直接给你两把尺子,自制度谱系和生产级硬标准。先说自制度, 一端是确定性工作流,点缀 lm, 你 把流程写死。 lm 只是某几个节点的能力插件,比如分类摘要、信息抽取。 优点是可预期、好治理、好审计。另一端是 l m 驱动的动态规划,目标给到他,他自己拆解,步骤自己决定下一步调用哪个工具,优点是覆盖复杂任务,缺点是轨迹不稳定,容易漂移。 工程上最常见的成功解法是混合式关键步骤,用硬规则卡口开放区域让模型发挥,比如高风险动作必须 highto, 或者必须通过 policy 校验。再说生产级框架的硬标准必须内建 absorbability, 而且要支持用硬规则治理。不确定性 没有可观测,你就不知道他为什么这么做。上线之后一旦 kpi 掉了,你只能靠猜。所以框架要能产出 traces 和 log, 每轮 prompt 是 什么模型,选了哪个工具,参数是什么,工具返回是什么,同时必须把模型的提议和系统的批准分开。模型可以建议调用工具,但是否执行分开模型可以建议调用工具,但是否执行降级。 这也是为什么 google 会强调像 a、 d k 这种 code first 方式,不是因为代码更酷,而是因为在生产里你需要可控的行为边界。 一句话总结,边排层的设计不是让 agent 更自由,而是让它在可观测、可治理的前提下,把自由用在真正有价值的地方上。一单元我们说边排层是行为中枢纽, 这一单元我们把它说的更直白一点, agent 的 本质其实就是 context window 的 测展系统,谁把什么信息塞进去,什么时候塞,塞多少 决定了他这轮能不能做对事。后面我们就用两页把上下文长什么样和记忆怎么做工程化讲清楚。我们先把上下文到底由什么构成说成一张工程清单,一轮 agent 调用 l m, 你 喂进去的 context 通常至少有六块。第一块, 系统指令,它是宪法定义、人格边界、输出格式,以及什么时候必须用工具。第二块, 用户输入,这是任务的触发点,但只靠它通常不够。第三块, session history, 它让多轮对话有连续性,尤其是需求澄清和约束变化。第四块,长期记忆, 注意它不是把所有历史都塞进来,它是可招回的偏好事实、决策记录,按需取用。第五块, grounding, 知识 来自 r a g, 搜索知识图谱等权威来源,核心目的就一个,先对齐事实再开口。第六块,可用工具清单和工具结果。工具清单告诉模型手里有什么,工具,结果告诉模型 我刚刚做了什么,拿回了什么。你把这六块想清楚就能看懂为什么很多 a 帧的不稳定。不是模型不行, 是上下文被喂成了一锅粥。模型的注意力被造声稀释了。 context engineering 做的就是把这一锅粥做成一道道可附用的配菜。接下来把记忆讲成工程上最关键的二分法,短期和长期。 短期记忆本质是任务进行时的工作台,它维护的是一条可追踪的序列, action observation。 action observation, 也就是我调用了哪个工具,用了什么参数,返回了什么关键结果。这条序列让 agent 不 会在同一个任务里反复查同一件事,也让你后面做 trace 和 debug, 有 据可查。长期记忆是跨绘画的持久层, 它的工程实现通常不是把历史对话文塞进 prompt。 更常见的做法是把长期记忆做成一个工具, 需要的时候通过 r a g 连向量库或搜索,把最相关的几条记忆召回进来,这带来两个直接收益。第一,个性化可以持续, 比如用户偏好历史决定以前确认过的规则。第二,上下文不会爆炸,只在需要的时候取取最相关的那一点点。你可以把短期记忆理解成 ram, 把长期记忆理解成待解锁能力的硬盘 agent。 要稳定,就必须同时管好这两层,短期保证任务不丢线,长期保证体验能积累 到。第十个单元,我们把话说的更架构一点,很多团队做 agent, 第一反应是堆能力更多,工具更长,上下文更复杂提示词。最后做出来的往往是一个 super agent, 看起来什么都能干,但线上很难测,很难改,很难排账。这一单元,我们换个思路,别造超人造团队, 把复杂任务拆成专家分工,让系统可维护、可扩展,也更像生产级软件猫提 agent 的 价值别被多这个字带跑偏,它不是为了炫技,而是为了把系统复杂度拆开。单体 super agent 的 最大的问题是所有不确定性堆在一起, 任务拆解、信息解锁、内容生成、质量检查、合规审查全塞进同一条轨迹里。你一改 prompt, 可能把工具调用也改崩了。你一换模型,整个行为分布都瞟。团队化的核心收益是三点, 第一,聚焦,每个 agent 只做一种直能,上下文更短,工具面更小,决策空间更可控。第二,可测试, 你可以给每个专家 agent 配自己的评测级和 kpi, 比如 research agent 只测招回质量, writer agent 只测结构化输出, critic agent 只测规则覆盖。第三,可维护, 线上出问题,你能定位是哪一个角色出了问题,而不是在一条长链路里盲猜。所以从工程结果看, multi agent 不是 把问题变复杂,它是把复杂度拆成模块, 把不确定性关进可治理的边界里。接下来给大家一张选行地图,四种最常用的协调模式,你不用全做,选对一个就能立刻提升。系统上线。第一类 coordinator, 他 向项目经理 先读懂总目标,再把子任务路由给不同专家,适合非限性任务,信息不完整,需要动态分解的时候。第二类, sequential, 它像流水线,上游产出结构化中间件,下游直接消费,适合流程明确、步骤固定、易审计的业务炼炉。 第三类, iterative refinement。 这是质量优先的打法, generator 先产出 critic, 按 rubric 挑问题,再回到 generator 修。大家看这张图,就是典型的深层批判迭代回路,它特别适合你,更在意质量一致性,而不是一次就完美。第四类, high 透停顿点, 记住高风险动作,不要迷信全自动,该停就停,比如对外发信改客户数据,触发支付, 让系统在关键节点用确认工具把人拉进来,这是生产系统的责任边界。你把这四种模式理解成积木, coordinator 负责拆, sequential 负责跑, iterative refinement 负责变好, head 负责刹车, 组合起来就是一套真正可交付的 multi agent 工程形态。到这里,我们终于进入 day 里最值钱的部分 agent tops。 前面你可以把 agent 做出来, 但 agnops 决定你能不能把它上线。长期跑还能越跑越稳。这一单元我们就用 google 的 工程视角,把不确定性变成可观测、可评测、可迭代的东西。 agn 的 上线最大的问题不是功能不全,而是你会突然发现你不知道它为什么这样做,也不知道它什么时候会翻车。大家看传统软件的单测逻辑很清楚, 输入固定输出应该等于预期,但 agent 的 输出是概率分布,同一个输入措辞会变,步骤会变,甚至工具调用顺序都会变,你用 pass or fail 去断言,天然就不成立。 更麻烦的是, agent 不是 一次模型调用,它是 lm in a loop。 你 改了一句话,提示词可能影响的是第七轮的工具选择。所以你要测的也不是最后一句话对不对,而是整个轨迹质量是不是下降了。这就是为什么 google 把它单独叫 agentops。 它不是 devops 的 重命名, 它是在 stockistic system 上重新发明一套工程闭环。 google 给的落地方法很像一套生产流水线。我把它总结成三段,第一段, kpi 先行, 你先别谈模型多强,你要定义什么叫更好,像做 ab 实验一样,比如目标达成率、用户满意度、端到端十元单次交互成本, 最关键的是能映射到业务转化、留存营收、工单关闭时长。第二段,用 lms 价值做质量评测,你不能只靠线上 kpi, 因为 kpi 不 告诉你行为对不对。所以你要做 golden data set, 从真实交互里抽样覆盖主路径和边界案例,然后用一个强模型,按 rubric 去打分,是否遵循指令,是否 grounded, 工具用的是否合理,格式是否合规。第三段, matrix driven development。 每次改 prompt 换模型加工具,都不是祈祷它更好,而是跑一遍。评测级分数上不去,或者关键指标掉了,这个版本就不允许上线。 上线也不是一件全量,要用灰度或者 ab 把离线分数和线上指标一起对齐。这三段加起来就是一个可复制的上线闸门。它让 a 阵迭代,从手工试错变成可控工程。最后一块 是让你真正驯服 agent。 两样武器, traces 和反馈闭环。大家看这张图,核心是 open telemetry traces, trace 不是 用来看报表的,它是用来回答一个问题,为什么?为什么他选了这个工具? 为什么参数这样填?为什么在第三步开始偏行?有了高保证轨迹,你才可能做 loot cos? 第二个武器是人类反馈闭环,线上一个 thumbs down, 不是 噪声, 它是你评测级缺失的证据。正确做法是把这次失败复现出来,沉淀成新的评测样例,永久加入 golden data set。 下次你修 bug, 不 只是修一次,而是给系统打了一针疫苗,避免同类问题再发生。 所以 agent ops 的 终极不是监控一下,而是形成一个循环,可观测定位原因评测及固化经验指标驱动发布节奏。这套循环一旦跑起来,你的 agent 才算进入生产成熟度。 到这一步,我们其实已经默认一件事,你不缺能跑的 agent, 你 缺的是能接入生态的 agent。 这一单元只解决一个问题, 当你的 agent 质量达标之后,他怎么跟人协做,怎么跟别的 agent 协做,以及怎么在交易场景里安全的协做。我们按 google 的 三条主线来讲, humans agents money。 先讲 humans 互操作的第一层其实不是协议,而是交互形态升级。最基础的是 chatbot 人发请求, agent 在 后端跑完回一段文本,但工程上很快就会卡住,纯文本不好做,流程编排也不好做前端状态联动。 所以第二阶段是结构化输出,让 agent 输出 json 这类结构化数据,前端用它来渲染副 ui。 这一步的意义是, agent 不 只是回复内容, 而是在驱动界面和流程。再往后就是 computer use, 也就是 agent 把 ui 当成一种工具,能导航页面,点按钮、填表,但通常要配合人类监督,它解决的是移流系统没有 api 的 现实问题。最后是 live mode, 从文本走向实时多模态的双向流式交互,关键不是炫酷,而是交互延迟和可打断能力,让写作更接近真实工作流。 一句话,收束人机互操作的眼镜路线是从说给你听,走向,帮你把界面和流程跑起来。第二条线, agents and agents。 当你企业里开始出现很多专用 agent 的, 最大的风险不是重复造轮子,而是连接方式失控。每个团队写一套私有集成,最后变成一张脆弱的蜘蛛网。 google 在 day 里把问题拆成两件事, discovery 和 communication。 第一,怎么发现别的 agent, 它能干什么?第二,怎么通信,确保双方说的是同一种任务语言。 a 二 a agent 二, agent 就是为这个来的,它允许 agent 发布一张数字名片,叫 agent card, 本质是一个 jason, 说明能力范围、网络端点以及交互需要的安全屏具, 这样别的 agent 才能标准化发现你,调用你通信方式,也不是简单的 request response。 a 二 a 面向的是 task 异步任务客户端 agent 发起一个 task 服务端 agent 可以 在长连接里持续回传进度更新,这对长号时多步骤协助特别关键。再强调一句, agents 不是 toos, 连 toos 解决的是交易型。调用连 agents 解决的是追加、推理与协助。 一旦你把这两类混在一起,治理模型会直接崩。这一页的结论很硬,没有 a 二 a 这类标准,你就很难做出可扩展的 level。 三、多智能体生态 第三条线, money 这块很多人会低估,但它是 agent 走向真实世界的硬门槛。原因很简单,今天的互联网交易体系是给人设计的,人点击,购买人承担责任。但如果是 agent 去点购买,马上会引爆信任问题。 谁授权的授权边界是什么?出了事谁负责?怎么审计?怎么追责?白皮书给了方向性的两类协议,第一类是 agent payments protocol, 也就是 a p r, 它的核心思想是用加密签名的 mandate, 也可以理解成可验证的授权委托。它把用户意图变成不可抵赖的审计证据, 让 agent 能在被授权的范围内安全交易。第二类是 http 四零二 payment required 的 这条路线,它更像基础设施层,用标准 http 语义支持机器对机器的按次付费,比如为 api 或数字内容作微支付。 这里我给从业者的落地提醒只有一句,当你设计能花钱、能下单、能调用计费资源的 agent 时,不要先想模型怎么谈判, 先把授权、审计、不可抵赖、预算上限这些信任机制做出来,否则你做出来的不是自动化, 是事故自动化这一单元。我们把 ag 从能用推到敢用,因为一旦他能查数据,能改系统、能花钱,安全和治理就不是加分项。 他是你能不能上生产的硬门槛。做 agent 安全,先把一句话刻在墙上,授权越大越有用,但风险也同步放大。 风险主要就三类,第一类是 rogue actions, 也就是他自作主张做了不该做的动作,比如勿发邮件,勿改工单,勿触发流程,而且很多动作是不可逆的。 第二类是敏感数据泄露, agent 的 上下纹理会混合用户输入解锁结果工具返回历史记忆,只要有一段被他不该输出的内容泄露,就是系统级事故。第三类是 prompt injection, 很多人把它当成提示词、小技巧, 但在工程上,它本质是指令被劫持,攻击者把恶意指令藏在网页、文档、邮件里,你的 agent 一 解锁一读取,就可能把攻击指令当成更高优先级的任务去执行。所以这页的结论很硬, 不要把安全寄托在模型的自觉上,要把安全写进系统结构里,解决这类风险。 google 给的关键词是 defense in depth, 也就是防御纵深。 我建议你把它理解成两道门,第一道门是确定性 god rails, 它是模型外的硬规则,做策略卡口,比如金额上限,敏感操作必须二次确认,某些 api 永远不允许调用参数必须过白名单校验, 它的价值就四个字,可预期,可审计。第二道门是推理型防御,也就是 guard models, 它不替代硬规则,而是捕盲区,因为很多风险是上下文相关的。这次对话是不是在诱导越权?这次工具调用意图是不是变形了? 这类问题硬规则很难写全,但小模型或专用模型可以做实时判别和拦截。 所以正确姿势不是二选一,而是用硬规则定义底线。用 god model 覆盖灰区,让 agent 的 能力变强,但行为边界更清晰。当你从一个 agent 走向一堆 agent, 安全就必须平台化, 不然很快就会出现 agent spraw。 到处是 agent, 到处是工具连接,没人说得清谁能干什么。平台化治理,我给你三个落点,第一, agent identity, 把 agent 当成新的 principle, 而不是一段脚本,它要有自己的可验证身份才能做最小权限, 哪个 agent 能读 crm, 哪个 agent 只能读,不能写,一刀切权限就是等着出事。 第二, policy 策略不是只管 agent 个体,要把约束覆盖到四类对象, agent tools、 其他 agents 以及他能接触的 context。 你 要能回答他能用哪些工具,能调用哪些下游 agent, 能读哪些记忆,能把哪些信息对外输出。第三, control plane 加 registry 做一个统一入口,所有交互都走这里, 人到 agent, agent 到工具, agent 到 agent 入口负责健全授权审计,可观测。 registry 则负责资产清单和生命周期。发布前安全凭证版本管理可附用。发现 结论很明确,单体安全靠加栏杆,规模化安全靠修交通系统。最后一个单元,我们聊 deployment, 把话说狠一点,你只要还在本地,跑的很开心,但线上没人能稳定用,你就还没交付 agent。 这一节,我们用最工程化的方式,把怎么上生产讲清楚, 做部署。你先别纠结用什么产品,先把交付目标对齐,你要交付的是一个长期运行的服务,第一,安全,包括身份权限、数据边界,以及你能不能把访问控制、审计留痕接进来。第二,可扩展, 不是能不能跑起来,而是流量一上来能不能扩,流量一下去能不能降成本。第三,可访问, 不管是人来调用,还是别的系统别的 agent 来调,你得有稳定的 endpoint 和版本策略。 第四,接入监控、日制与管理,这点决定你能不能运维。没有 logs, 你 不知道发生了什么。没有 metrics, 你 不知道好不好。没有 traces, 你 不知道为什么。所以 deployment 的 本质不是上线, 是把 agent 变成可运营的产品能力。 google 在 白皮书里给了很清晰的两条路,你可以理解成平台化和自建站。 大家看这张界面图,这是平台化路径的典型形态,用 vertex、 ai agent engine 这类运行时,你拿到的是一整套托管能力、运行服务化,以及更容易接入监控治理。它的优势是上手快,少踩坑, 适合你,要快速把第一个 production agent 跑起来。另一条路是容器化,把 agent 和必要的服务打进 doc, 部署到 cloud run 或 gke。 优势是控制力强,能跟你现有 devops 体系、网络安全、边界深度融合,代价也很明确,你要自己负责更多的运维细节。选哪条路不是信仰问题,就看你是优先速度还是优先控制。最后一页, 我只强调一个现实, agent 的 上线之后,变化才刚开始,模型会升级,工具会变更,策略会收紧,业务也会加需求。没有 c i c d 和自动化测试,你每次改动都是一次线上赌博。 所以生产级投入至少要两件事,第一, c i c d 让构建部署灰度回滚变成流水线能力,而不是靠人手点按钮。第二,自动化测试。 这里的测试不只是传统单测,还要覆盖离线评测级关键 kpi, 以及对工具调用和安全策略的回归。你把这套体系建起来, a 证才能做到持续迭代,但风险可控。 好到这里,我们把这第一本白皮书 introduction to agents 的 从定义到生产完整走了一遍。下一集我们讲第二本白皮书, agent tools interoperability with m c p。 我 们下期见。
粉丝566获赞1953

本视频耗时三百二十五小时,制作时长三千六百秒,今天手把手带你们吃透 ai 智能体,从基础原理到实战应用,教你从零构建模型,用对用好, 在校本研博、求职、算法岗相关领域的交叉学者迅速码住。这节课咱们来给大家好好分析一下,什么是 agent, 以及为什么他在 ai 领域当中能这么火,他跟大摩羯之间关系是什么,他的定义是什么?以及他能帮我们解决哪些个问题,这些事啊,我们会一并给大家逐一进行梳理, 然后大家发现了,其实我并没有打开一个 ppt, 就是 我不想啊,拿一些概念给大家去背这个课文,更多的是我想给大家去总结一些啊,就是我用 agent 的 一些感受和我觉得它到底是什么, 我需要大家这么去理解。就是对于 agent 这个东西啊,它并没有一个就是本质的概念,或者说它并没有一个完美的一个定义啊,它就是什么,它究竟解决什么事, 他是比较活的一个概念,就像是你眼中的一个机器人啊,你希望他给你做什么事,和我眼中机器人他怎么解决问题的流程 其实是可以不同的,我们每个人眼中 a 人的其实也可以是完全不一样的,他相对来说啊,就是比较 diy 啊,或者来说你怎么去设计,他,其实完全可以根据你的想法我们来进行设计,咱们没必要有一个统一的概念,统一的一个什么算法,流程这些东西。 哈喽,我们来说说是什么?首先呢,我给大家举个例子,就是这个词啊,翻译过来叫什么?翻译过来就是一般情况下,我们就把它叫做一个代理,或者叫做一个智能体。举个例子吧,就比如说我今天啊,就今天我上课去,然后我说我早上起不来了, 我跟我室友说,哎,我说哥们,你替我上课去吧。然后那我哥们说,行啊,那我就替你上课去呗。那大家想一想他,我给他交代了一个命令,我说你替我上课去, 但是这件事啊,我不给他拆底,拆底他怎么能替我上课?是不是说,首先,哎,我们说啊,他上课的时候,老师在这点名点我名了,他是不是替我举手,替我喊个到这第一个事, 第二个事呢,老师说要交作业,他顺便是不是也能帮我把作业给他交上去,甚至呢,老师讲了些东西,哎,我没去啊,他再好好心点,他说帮我把笔记也记下来了,然后回来让我去看一看,然后到考试的时候,我好能去考, 然后,甚至啊,这也只是基本的概念,甚至这个智能体啊,哎,我说他还去推理一下,他一寻思,这个下课点啊,一看快到中午了,我没来上课,肯定在床上睡觉呢,要来寝室打游戏呢,那我肯定中午也不想上食堂, 他在智能点,他顺便去食堂,他自己吃完饭再把饭给我打回来。你说这件事是不是就完美给我们解决了? 所以说什么是个 agent 呢?将来这样一件事,就是我现在有一个需求,我有一个命令,但是我这个需求的命令不是说啊,你瞬间或者说是一步就能到位的,我们需要把这件事给它拆分成很多个流程 啊,然后每一个流程上你还要单独的去完成,所以说我们来想一想啊,就是代理,就像说的啊,你替我做什么东西,你帮我完成一下什么事啊?就像我们跟这边说话似的啊?咱比较友好,请干这个,请干那个。但是呢 agent 他 跟大模型之间可能有点区别。 大模型就比如说啊,我问他一个东西,他给我回答一个东西,我再问他一件事,他再给我回答一件事,那其实智能体就不是这种感觉。我们说这个 agent 啊,他相当于 第一步啊,他要去理解你的命令,理解完你的命令之后呢?他要把这个东西啊干什么?根据他的一个理解再做一些拆分。什么叫拆分?要完成你这件事,我第一步要干什么?我第二步要干什么?我第三步要干什么?哎,那我问问大家啊,就拆分这件事 他是怎么做到的?他,哎,你觉着我给他个命令,他怎么能把这个命令做一些拆分啊?其实他可能说,哎呦, agent 这东西是不是长大脑了,长脑子了,然后他比较聪明,他就能真正理解这个东西。其实我跟大家说啊,就是在 agent 当中啊, 一切都是用这些大模型去做的。比如说我先给他一个命令,我说你去帮我上课去, 那接下来他就啊问这个大模型,他说,哎,我现在啊想帮唐雨迪上课,那唐雨迪的一些状态是什么啊?他的一些基本情况是什么啊?当做一个提示,以及呢?我的命令也是我的提示。好,那你把这件事帮我去拆分成几个子命令,好大模型啊,自动就把你拆分了,你要给他干什么?要干这个干那个干那个, 哎,是不是他就可以去知道我们每一步要去做什么了?所以这一块啊,就是我们不要觉着 a 点这个东西,他是能脱离大模型之外的一种新鲜的事物,其实不是的,他相当于呢是更好的去利用我们这个大模型。换句话来说, 他每一步都在去利用我们这个大模型。那比如说我们先给他拆分成了一些子任务,那拆分成了一些子任务之后,接下来那大家可能说,哎呀,比如上课的时候, 他在想,我现在老师在上课,那我需要去做点啥呢?又把这件事问问这个大魔球,大魔球说先上课呢,一会老师要点到点,到时候你帮他举个手啊,就是拆解的第一个任务怎么去回答, 那第二任务呢?他说啊,老师现在在上课,然后你顺便啊再去帮他把笔记记一记。那第三件事呢啊,他说你在回来路上再去买一买点吃的,其实这些啊,我们说可以叫做一些决策,或者是一些动作,这些个决策一般情况下都说谁完成的? 其实 a 阵这个东西啊,本质来说就是他在跟我们的大模型做大量的一个交互,他每去做一个决策,他每去办任何的一件事,都要问这个大模型,哎,我该怎么去做啊?我当前的环境是什么?我当前收到的命令是什么? 那我怎么去完成呢?其实一切东西啊,都是由我们大模型每一步再去告诉他。所以就是我希望大家这么去理解啊,就是咱们所谓的一个智能体,就是 先理解你命令,再把这个东西不断做拆分,那每一步靠什么执行?还是靠的这些个大模型去执行你当前所要的一些结果? 所以我希望大家就这么去理解这个所谓的智能体啊,就是啊,让我们的啊,一个 agent 去模仿你人类的一个行为,你可能怎么去做的,那我们就也这么去做了啊,这是我们基本的一个概念。 然后呢,我想再跟大家说几件事,就是,哎,你觉着啊,这个 agent 他 再去做的时候,为什么说他能去理解你每一步的一个操作?哎?他怎么知道你的命令是什么?他该怎么决定你这个东西该怎么做拆分呢? 其实我估计有很多同学会有这样的想法,就是我们这个 agent 足够强大,他已经能够真的去理解你们人类的每一个行为。 其实我们说截止到目前为止还做不到这样一个水平,为什么?因为大模型可能会出现很多的幻觉,他可能是比较发赞,而且是不稳定的一件事。那其实更多的时候 我们这个 agent 是 靠什么来进行执行的?靠我们的规则。什么叫我们的规则呢?就是上课这件事。哦,说你替我上课这件事,我说给他写死了, 就要帮我签到,就要帮我做这个,就要帮我做那个,更多的情况下,我们希望他是帮我代理完成一件事,顺利的完美的完成。那是不是我要给他设计一些游戏的规则? 所以说更多的时候我们的规则是通过什么来设置的?其实说白了就是啊,我们去写一些提示, 那这个提示怎么来呢?你帮汤雨迪去上课,他平时不愿意上课,但是考试喜欢复习笔记。 好,我的个人信息也可以作为提示交给这个大模型。那大模型再把啊,你现在要去替别人上课,以及这个人的需求是什么?他的一些心理行为是什么?以及当前你的目的是什么? 把这些所有东西一起作为一个提示再交给这个大模型,最终啊我们是得到。哎,他在这一步上要去做一件什么事? 所以我一直觉着就现在很多的 a 站,包括框架也好,项目也好,包括大家听到的很多的演讲,很多的故事,我觉得都把这个东西给他说的过于就是神话般的感觉了,好像是说他能去自己的去分析自己的去啊,不断的去理解这些事。 其实目前我看到一些成功的案例都是我们自己好设自己设计好的规则。啥意思?你先让他去写代码,那写代码逻辑是什么?先有产品经理,先有 pm 啊,去制定好每一步的流程是什么,然后每一步的流程上再交给对应的程序员,程序员再去把每一步的功能给他做实现。 是不是做一件事我们讲究就是有一个完整的流程,他还不具备自我的一些思维,就是很难具备自我的一些思维啊。其实不是说不能具备,因为大模型在每一步当中他都可以去思考啊,我们需要去做什么,但是如果说你不涉及规则, 你的结果是很差的,这就是目前 a 阵是什么? 他就是要帮我们去完成一件事,但是完成这件事他会去做一些拆分啊,把它拆分成很多个子的任务,再对每个子的任务,结合你的游戏规则,也就是你有哪些个提示,传进去之后,一起调用大模型来去得到我们想要的一个输出结果。 本期视频给大家整理了 ai 系统入门的保姆级路线图,从基础到进阶,全程无废话,不管你是零基础小白,学生党,还是想转行抓住 ai 风口的朋友,都能直接套用,也可以根据这份路线定制专属学习规划,少走百分之九十的弯路, 只要你是我的粉丝,留言学习就能解锁完整干货。那这个 agent 他 既然能帮我完成这些个事儿, 那他都得具备哪些个能力呢?其实我们觉着就是理解这个东西啊,其实并不难啊,代理我们去做一系列任务,跟大魔镜不断交互,得到结果,哎,那你说他凭什么?凭什么能做到这些 来,咱们说这个事凭什么能做到?为什么他能帮我们解决,哎,我让他去交代这些事啊,其实这一块呢,我们要说几个词,其实我说这些词啊,还不是特别的,就是覆盖全面了,因为整个 agent 在 你的业务当中,他到底有什么能力,完全是你赋予给他的。 第一个我们来说一说啊,比如说大家最常见的叫做一个感知的能力,可能大家觉得这个词挺抽象的,什么叫感知呢? 就比如说,哎,我说我让我那个室友帮我去啊,上课的时候他到课堂了,发现咱们班一共就来了俩人,老师点名的时候一共就俩人,三个人喊到了, 他是不是就觉得这件事可能做不到了?那是不是我们这个大模型他要实时的去得到一些环境的一些反馈呢, 环境的反馈大家可以当做,比如说我们这个智能体,它可以跟环境做一些交互,它可以观察一些信息,一些文本上的信息,一些语音上的信息,一些图像上的信息,这些呢都可以作为它这个感知。那其实感知对我们来说是什么?说的特别抽象,其实就是说 把能用到的转化成提示,啥意思?你在接下来要去帮别人喊到的时候,我们再加上个提示,现在教室里边就两个人,一会老师点到的时候,我该怎么样帮助唐雨迪把喊到这件事完成, 把这件事,哎,问大模型大明哥说了,一会老师要喊到,要要要点名,你们班级人太少了,你就别帮我点到了,要不然老师发现了不许整死他呀。 所以第一个啊,就是我们说得有感知这玩意,他不是一个死的,他得及时去发现个问题是按照我们的流程,但是你说啊,我们按照流程我们自己写一些拍准脚本去执行,完全可以的。用 a 针的就说明他会比较智能,智能体,智能体, 你连感知都没有,是不是就不行了呀?但是我们说任务当中啊,就是不仅仅是有感知,还有什么? 其实你看这一块我写了一些思考,就是我先给大家写这概念啊,其实不是什么标准上的一个定义,就是我理解的就是在我看来 a 阵有什么东西啊,就是大家你们在其他地方去看,可能每个人讲解我觉得是不同的啊,都是凭着自己的感觉,因为这东西还没有 绝对权威的定义啊,都是我们使用者,我们从用下来,从我们这些这段时间吧,做完之后咱们整体的感受啊,第二就是个思考,什么叫思考呢? 我看到的东西可能会很多,我去啊,教室里边我看到了有好多人,我看到老师在讲课,我看到了好多好多好多好多东西,其实这些对我来说什么我看到的东西感知啊,我是可以得到一些记忆的,我给大家再再再补充一个,就相当于这一步啊,我们是要得到, 得到咱们很多记忆,这些记忆啊,都是啊,一会我们可以来进行参考的。那什么时候做参考?其实说白了啊,在这个任务当中就是我们去思考的时候,你要去考虑这样一件事,我们观察这么多东西,是不是都是表面现象, 人很多啊?然后啊,有男有女的,然后老师写了一篇文章,然后老师讲完了一堂课, 其实这些都是我们叫做基本上啊,就是表面层面上看到的东西,但是这些东西我能对大模型产生特别有价值的信息吗?可能性有点杂,也可能性有点多,也可能你的上下文传不进来这么多的提示。 那思考呢?其实说白了就是我们要去总结你看到的感知到的东西,其实这个任务当中啊,说白了你现在要把这些感知当做你的上下文啊,我看到了这么多东西,我再去问这个大魔小, 你能不能帮我把这些事总结成几个关键点,或者说结合我的任务标,我看到了这些东西,这些东西会怎么影响我呢?问问大魔小 大母婴,我告诉你,老师都写这么多了,你快帮他把笔记记一记吧,快帮他去写点知识点吧,考试了他啥也不会,怎么办啊? 所以说思考啊,是要把我们的感知上的东西,或者说把你记忆里边有的东西再做一个升华,你记忆里边都是些基本面上的东西,那个东西太简单了,那我们需要去让智能体有点思维哈,就说点高端点,有点思维,把这个东西重新的再去总结一下, 总结完了之后再去做什么?一般情况下我们叫做一个 action, 或者叫做一个动作,什么叫做一个动作呢?就是说白了啊,我们现在说,哎呀,这个智能体他现在要去啊,记笔记,他现在要去啊,做这个,做那个,那这些事是怎么去做的呀? 我给大家举个例子,比如说我现在啊,就大家翻一翻,你问这个大模型啊,我问他一些问题的时候,他是不是会有一些插件?我问他天气的时候,他会访问一些天气的 a p i。 我 问他日期的时候,他访问一些日期的事,然后问他今年今天的新鲜事,他可能上网去帮我做一些搜索。 那其实这个任务当中动作呀,我觉得就是整个 agent 当中比较核心的一件事了,你这个 agent 他 有多智能,关键来说就是看你的动作设计有多丰富。 大家可能说这件事一个 agent 他 越智能,不应该是他脑子越好使吗?但是我跟大家说啊,就脑子这件事 是你改变不了的,我们现在所有大模型都是用 gpt 四去做的,用别的说几句话就是不好使, 就是你,你一说你考虑,你考虑你本地大模型,你整什么观展大模型就不好使,那玩意就感知也不行,思考也不行,那就不用说了,那为啥说我们自己可以设计动作呢?动作其实我说白了就一一个事,我给大家解释一下,说白就是调 api, 你 让他干什么?就让他调自己 api, 哎,我说就老师点名的时候啊,你给我发个短信,然后我赶紧跑,比如说快马加鞭能赶上, 那这回你想发短信这件事怎么操作?大家都说,哎呀,大模型还真的能给我发个短信吗?当然可以了,这又不是什么难事, 我们说咱们可不可以调用咱们的一些短信的一些 api, 这些东西无论是 gpt 还是一些现成的工具,早就给你接入进去了,给我发个短信,给我发个邮件,这玩意并不是一件什么难事吧?然后再比如说呢,就是我给大家举个例子啊,就调用 api 当中,比如说啊,就是你可以上网, 然后你可以查查各种东西吧,这些都是啥?这些呢?其实都是我们可以定义好的,咱们要去完成哪些个事。好了,这就是一些动作,但是动作其实不仅仅啊,是我们要调用一些 api, 我 再给大家举个例子,这是我们一块去说的啊,就是比如说我这个智能体, 他现在观察到思考这些东西之后,他不确定这事该怎么做,想一想你,咱们,你咋说你们人类了?想一想咱们人类,我不确定什么事,我问问潘小冉,我说咋办啊?我说啥事,我别自己自己定主意,到时候啊,吃不了兜着走,咱们一起参谋参谋哈,你也帮我参谋点事。是不可以问问别的智能题, 其实我给他,我给他举例就可以去啊,就是问别的智能题,其实也是可以的一件事啊,你怎么认为这个东西你的一些回答也要当做我的记忆,我在思考的时候,我在其实就是思考决定的动作要做什么,我在思考的时候也可以去考虑你别的智能题给了我什么什么样的一个信息。 所以说啊,就是这里边啊,我给大家先提了这么三点,其实我觉得这三点还是比较简单的,我们需要什么,就首先呢就最基本,最基本你得有感知,但是不仅要感知,还有思考,思考完之后 你就要去确定一下子我们的动作是什么,大可能说,哎呀,他调这个 api 还是调那个 api, 这样是怎么决定的?这个事是大模型来决定的, 我跟他说我要去完成一件什么事啊?就是现在老师要点名了,我要给唐雨霏去发短信,然后找他怎么做啊?大模型会把你生成出来,我们要调用什么 api, 实际去调用,然后啊发下短信当中短信内容是什么,他是全部都给你完成了的, 所以说这一块就是凭什么做到当中,他得具体啊,就是最少吧,他得具备这几个能力才行。然后呢,我们再说一说啊,就是这个 agent, 大家可能总有一个好奇点,就是这玩意吧,跟那个大模型之间的关系到底是啥呀?好像那时候这东西啊,与人之间的关系。 其实我觉得这样的啊,就是大模型是什么?大模型就是充当了一切,我就给大家说吧,就是他,是 啊,一切,我为啥说他是一切呢?就是相当于你这样,你说你看到了什么?你是不是得有个输入,其实你输入的是啥?你可能输入的是一些文本数据啊,输入的这些图像数据,甚至现在多模态嘛,你输入可以是语音数据, 你输入完之后,那谁知道你们这玩意啥东西啊?书里问问大模型哎,这东西是啥?你从这个图当中看到什么?你从这个文本信息当中你理解到了什么? 是不是你又得跟大模型去作业交互啊?所以我这句话我说第一句啊,就是踏实一切,那你想思考呢?思考时候说,哎,把把你感知到东西啊,总结成上下文,然后当做提示,也去问这个大模型啊,你先能不能思考出来什么东西?那动作呢?基于你的思考和你的目标,再去问大模型啊,你要执行的动作是什么? 其实你看你要得到你的动作是什么之后怎么执行动作,还是去将这个大魔镜再去执行你一个动作,其实说白了就是他就是一个实际执行者,你我总,我总是这么觉得,就是 agent 啊,是我们事先定义好了一个大的框架,就是一个基本的原则, 基本原则当中你为了完成这件事,你可能要分几步走,但是就是啊,有一句话叫什么将在外军令有所不受, 通过你的感知和你的思考和你的动作,你可以稍微的去偏离一点我这个行为,但是也不能偏偏的太离谱是不是?那他怎么能不,他怎么能偏的没那么离谱啊,我们说一切啊,都是我们会给他一些提示的,会给他一些指令的,我们最终的目的是什么?他在做每一件,他在感知的时候 不是说整个世界都让它感知着玩呢?带着我们的任务去感知,带着我们的要求和每一步的流程,你觉着什么重要的,你把它感知进来,就是这里边每一步啊。大家这么理解,就是你玩大魔音的时候是不是都要去写提示 这一块,每一步的时候都要把我们的一些要求当做提示传进去,这样感知的东西就是我要的思考的,也是我要的动作的,也是为了完成我这件事的。那其实与大模型的关系就是 a 阵他要不断的去调用这个大模型,你可以,你可以这么理解,就这个东西啊, 如果大家你们实际去玩的时候,你就会发现一件事,他是一个极其昂贵的一个过程,就是现在为什么说 a 阵这个东西啊?落地难, 我觉得落地难这个东西啊,主要原因就是什么?就是你的一个成本,如果说你不考虑你的一个成本,其实我觉着呃落地来说真就没有啥难度。因为现在你想一想我们这个大模型咱们是选什么? 就是一些 g 做模型,你说你选啊,三点五啊,三点五就是还行,四呢肯定是最好的,但是你说你选你自己本地的大模型,你就是你自己选模型,你也知道他你觉得能具备这些个能力吗?别说具备这个能力了,就一问一答,他整能整明白都不错了。 所以这玩意大家可以想,就 gp 四的 api key 它是有多贵的?你我我就举个例子吧,就是让我室友去帮我去啊,上一堂课,然后他要可以去跟很多交互。他交互的时候我们简单点说啊,如果是一个单智能体,就是他只是去做一些感知,做一些思考,做一些动作, 那可能这件事他是花不了多钱的啊,就你感觉可能就是我们钉过几次,但是我再给大家举个例子,一堂课可能有一百二十分钟,他每分钟都要思考,每分钟都要去感知,都要去产生动作,你觉着还便宜吗? 再比如说现在很少是一个单智能体,如果说是多智能体的,我这个班级有三十个学生,学生和学生之间他们可以交流上课,不是大家在这死的,就是端个书在这听着呢,我们要唠嗑的,要说说事的,老师要跟你们说话的, 你们这些智能体之间再去交互呢?交互的时候你们的感知,你们的思考还要融入到其他人当中,还要由人家感知到你的一些语句,还要形成成他的一个重新的思考。当一个多智能体环境来的时候, 你就知道这一些大模型为什么咱们要自研了。因为就一件事,我就觉得就是用不起的感觉实在是太贵了。你就干一件事 啊,就是 open i n a p i key 嘛,你每一个几美元大概就是少说啊,就是你用 agent 去完成件小事,逻辑上不是特别复杂的,比如说写一些代码啊, 或者是啊生成一些比较高质量的一些什么文案啊,然后一些你想要的东西,我估计每一个两三美元是下不来的,这又是一次调用,这又是一次啊,这一次当中这个 agent 可能已经跟你的大魔镜产生几千次交互了,然后每一次你想一想你的一个记忆,其实这一块我给大家,我想把这个记忆给它放到哪呢?记忆啊,我给大家放到这里边吧,就是这一块啊,大家这么去理解你每一步 上面啊,就是每一步都要得到记忆,啥意思呢?你这个,呃感知啊,不是说你这一步得到完这个东西,它就它就没了 你第一步的感知的东西和你后续就是咱们是有认知的过程,我离挺老远看到卡车过来了,我现在就不敢过马路了,不是说我离近了才看着他,是不是我感知这东西形成了一个记忆,你要把你所有东西不断往当中记忆当中去存, 那你可以想这么一件事,你的记忆要越存越多,越存越多,你的记忆越多,你需要思考的事也越多,你在执行动作的时候,你需要传进来的上下文就是你的一些啊提示,这个东西他也会越全的。所以就导致了一件事,你的输入啊,就是前面那个头衔特别多, 那这个东西就干变得特别贵啊,一个是你交互多,一个是你输入长,所以说就导致了一件事啊,这个 a 证的现在对我们来说呀,我真就觉着有点用不起的感觉,因为你看现在,呃一些开源的框架当中有什么说让你注册一个会员,然后每个月花个三十来块钱 就能让你去用所有的 a 证的解决事了吗?好像没有,是不是因为它的成本实在是太高了,这是目前来说我觉得解决不了的一件事啊。 张伟说了,就是他跟大模型关系什么?就是每一步,你的感知、你的思考、你的动作以及你的记忆怎么去更新,你怎么去啊?比如调一些 api, 你 怎么去做任何事,就这里边一切你要去做的东西其实都是大模型得到的。 我们更多觉着就是 a 帧的是我列好的一个框架,我列好的一个逻辑,你要做什么,然后你大概就是怎么去做大模型,就是执行你的一些细节啊,我具体每一步干什么,我具体看到什么东西,我具体什么东西怎么得到的,这就是说啊,我觉着他跟咱们大模型之间的关系是什, 刚才呢?咱们说了一下,就是一个叫智能体,是不是其实现在更多的啊?就是你做什么事吧?他其实已经不是一个智能体他能完成的东西了,因为你既然又 agent 肯定说这件事就是很麻烦啊。他不是说我一步用到位的,比如说我写一个代码, 写一个代码啊,就是他不是说写在一个代码文件里吧?屁,他生成一堆,你看现在你雕一些模型数,就写一个代码,生成一堆。但是我们说,呃,我让他写一个项目, 写一个项目的时候咱们是不得考虑考虑啊,这个项目当中啊,我要有哪些个文件,要实现具体哪些个功能, 以及在每一个功能当中具体该怎么实现,哎,以及我,我把这个代码写完了,你能不能别给我一些错的,你去跑一跑,跑的时候出现报错,我把这个报错也也问你啊,你这个报错能不能抵 bug? 一下子,你把这个报错改一改给他,实际实际要能执行出来咱们想要的一个结果。 那其实这件事大家想一想,一个智能体他能做到吗?其实我们觉着就智能体他是一个角色,我室友帮我去上课,他充当的是我室友的一个角色, 那在这里边他可能会遇到其他的智能体,他可能遇到一个我的老师,我的老师他也是个智能体。 那我们说两个智能体之间可以怎么样?他们之间可以去做一些交流的,就是他们是可以这这交流啊,其实含义又特别多了,他们可以互相分配任务,他们也可以在互相通过交流得到对方的一些记忆,得到对方的信息,从而更好的去执行我们接下来的一个指令。 所以说多智能体育学生就是啊,咱不用说这么复杂,我觉得就是一个多角色的一个故事。什么叫角色呢?一个软件公司有这个程序员,有产品经理,然后有这个架构师,每个角色要单独完成自己的一件事。注意这个东西其实是我觉得真正啊跟 a 诊断当中最关键的一个问题, 你要完成一件事,其实我们强调是一个标准化的流程,在这个标准化流程当中,你不可能说让一个 agent 它既带有这样的一个啊属性的信息。比如说我,我是比较懒的,我不喜欢上课,我就喜欢等别人把知识点喂到我嘴里,然后把饭把我带回来, 这是我的特色。然后我室友啊,他就是很热心的人,他特别勤快,他特别喜欢上课,你不能让这个 agent 他 是个,他是个双重人格吧?他一会扮演这个,一会扮演那个,所以说在多整体当中啊,就是我们这一块 是有多个角色的第一件事,每个角色当中其实都会有自己的一些属性,自己的自己的那个使命了,相当于他要去做什么,他是为了完成什么事的 程序员,比如说给他的使命,其实使命你不用理解,特别抽象,就是一个提示,程序员的使命就是啊,把这个代码 完整写出来,可读性要强,能满足啊,产满能满足什么?什么要求,然后尽可能写的完整,然后带有什么注视的产品经理呢?尽可能把每一个功能定义的清晰,然后把他按照客户的需求啊,分条分逻辑的总结出来。 就是每一个每一个角色啊,他都是他有,他有使命,就像是你写一个问大门的东西啊,就是现在你现在是个技术专家,你现在是个医疗专家,你是个什么东西啊?你现在要面对什么事?就每一个智能体啊,都会有这样一个角色, 然后呢,这些个角色之间啊,他们要干什么?他们之间我觉着就是啊,要产生很多的一个交互,交互是这种感觉,就是他们啊,嗯,大家可能说这个交互这个东西是不是我们自己预先设置好的呢?其实我觉着就是你要去真办事, 真做一些实际的事。就是啊,要设置好,要设置好啥意思?产品经理他就是跟程序员和架构师啊,以及你们客户之间产生一些交流, 然后这是产品经理他要去跟谁去做,他可能是先跟客户交流,然后再跟架构师交流,然后再跟程序员交流啊,这个产品经理他是有一个顺序的,我们自己设置好的顺序是什么?然后程序员呢?他不要跟客户去交流,他只跟产品经理去交流就好了。 所以说就是啊,我觉得这个东西啊,多智能体是得咱们自己设置好,但是这件事是不是一个必须的呢?也不是必须的,也可以让他们自己玩,就是你可以把这个智能体啊放,就是放进去之后你就不管了, 反正就是你觉得他要不要交互啊?让大模型自己去思考。比如说大模型思考的时候,我给他加上一个提示,通过你现在感知到的,你记到已有的信息,以及你面带着一个使命,你觉着接下来应该跟谁去做一些交互,跟谁去做一些讨论,能得到更多有价值的信息。 哎,你看我加上这样一个提示,他是不是就会在这智能体上去找,哎,跟我记忆当中,哎呀,我觉得谁好,我觉得谁合适,他可以自己去玩的。就现在比如说什么斯坦福 ai 小 镇啊,什么 ai 汤之类的,好多这些多智能体的东西,都是让他们自己去玩, 他们自己去玩的过程当中。其实,嗯,有一件事比较麻烦,就是他们需要通过大量的迭代,长时间才会形成一种问题的一个方案。 就相当于啊,就是比如说一个产品经理他不知道干什么,他是不是得去总结几次,他是不是去把这个,把这个游戏玩几遍才能擅长啊?但这个东西就是咋说呢?就价格是非常贵的,而且你这个 agent 每次都要圈他玩这么多事,那这个成本也太高了。所以说现在啊,这些个 我们使用的过程当中,我觉得多智能体啊,是达不到啊,就是让他们自己玩的一个水平的。虽然说有很多就例子给你演示能自己玩,但是演示是什么? 演示都是游戏,都是一些虚拟场景当中,他们去做一些交互,但是在一些实际任务当中, 我现在目前看到的就是失败的案例咱不说了,所有的成功的案例都是预先设置好的,而且要明确的是设置好每个智能企业做的是什么,他可以跟谁做交互,他只能完成哪些个事,他要做什么,不要做什么, 都要去设置好啊,这就是一个多智能体。其实这个事并不难,就是角色比较多了,这些角色之间他们可以互相共用一些信息,互相去传递一些信息啊这样一件事。 然后呢,我们还要说一说啊,就是现在我们要用这些 agent, 是 不是咱们得去准备一些跟框架相关的东西啊?那框架这个东西 该怎么去理解呢?其实啊,就是大家咱们自己做事的时候啊,就是更多的时候我们是用人家的现成的。那我给大家举个例子啊,就人家现成这些框架啊,比如说奥拓 gpt 啊,什么什么各种 gpts 之类的啊,现在框架 我跟大家这么说吧,就现在这个框架,我我先简单多啰嗦两句啊,就框架好像用的比较多,给我整体的感觉就是大同小异,就是都是你说他好吧, 反正这块儿缺点儿东西,你说那个好吧,那块儿缺点儿东西还真没有一个,就完全意义上我觉得非常好的,但是现在大家用的最多的就还是这个 auto gbt 或者是这个呃, mate 之类的,这些就 get up 的 star 数是比较比较多的,而且就是大家用起来相对来说也是比较容易的,后续我们也会给大家去讲啊, 然后再但是我给大家说一说感受,就是你不要觉得现在这些个开源项目这些框架哇,他就无敌了,他就是个 a 人,能解决的问题是很多的,即便现在啊,就是最强的,做最好这些框架,我跟大家说一句实话,就是他能解决问题非常局限,他能把这件事做出来的可能性非常低, 就是说 a 人这个东西他还在一个发展的状态当中,他还是持续的,就是自动化的完成个东西 大概率得到的结果是不那么尽如人意的,这一点我希望大家清楚。大家能说是不是因为陶老师你讲的不行,这玩意跟我讲也没关系,这东西就是现在啊,人家做着什么东西,我们没能力自己去开发 你的基作模型,也没能力去设计一些底层的架构,底层的工具去调用啊,就要用这些动作,然后怎么去处理这些记忆,这东西其实都不是我们去做的,我们是作为一个使用者,怎么在人家的框架基础上啊?比如说新创建一个角色,新创建一种动作,添加一个 api 调用方式, 我们是在人家基础上做一些增删改查的,但是现在说心里话没有一个框架我觉得真的是能满意的,真是能用起来的,无论是就是付费的也有啊,付费的那玩意 我用了,我选了几家,我本来想讲的,但是我不说哪不说哪些家了,就是用起来跟这个免费的,就是跟这个开源的,我觉着没啥太大的区别,所以说框架啊,嗯,咱们就这么说吧,对我们来说就是个学习, 理解他们任务当中的一个流程,熟悉他,哎,是怎么定义的,逻辑上怎么去做的,好让我们知道 agent 的 整体的框架,咱们从一个输入到我一个输出,他具体流程怎么走啊,咱们理解这些个事,我觉得暂时就足够了。为什么?因为我觉得工具这个东西啊, ai 这里面现在更新换代的非常非常快,你现在就是即便你把这个什么 auto, gbt 没改, gbt 你 熟练掌握了,可能用不了半年,一个新的框架又出来了,一个新的框架可能又是一个颠覆性的超越,又完全碾压了前面这些框架。 这些事是都有可能的,因为我每天都在看新闻,每天有都有同学问我老师新出的框架,我要学,新出的东西我要看, 我给我的感觉我都快麻木了,就是框架实在太多了,咱们去理解去用就行啊。但是我估计后续啊,肯定这玩意早晚都会被更新换代,早晚都会被替代掉的啊。然后 我们来说一说框架当中啊,他其实这些东西啊,他帮我们实现了什么,这些东西啊,就是无论你用哪个框架,咱们都少不了一个东西,就是你得有这个 key, 咱们都得有这个 key 才是可以的。什么叫做一个 key 呢?我给大家举个例子,就是我们要调一些基座模型,是不是啊?就是你要调基座模型,这都不用想了,一般情况下就是 g、 b、 d 四啊,这个是最好的,基本上现在所有的这些框架都是要不三点五,要不就是四,反正就是 token 的 价格有点区别 啊。那这边他可能说我换别的行不行,换别的还真不行,就是我我自己没尝试啊,但是我问了几个哥们,他们搞这些本地化的一些私有 a 证的啊,他们他们他们给我的反馈就是这件事真不行,你本地自己去研究,即便是在自己专业领域当中, 他的这些能力其实是本身具备的,你可以这么理解,就是我是让啊,这个大魔精做我专门的一个医疗领域,做专门的一个什么法律,什么金融领域啊,就是个领域,我这个数据都问给他了, 但是他还是做不好,为什么?因为感知、思考、动作还有记忆这些个能力,是在这个大模型训练的时候他的一些基础能力,而不是说他下游应用的一些能力。 他如果说你的模型都不具备这些个基础能力,你怎么去做微调,怎么去做下一个任务是都不行的。所以这条路我估计大家可以把这条心死了,不要想着我自己去训练一个私有化场景,然后我用这个 a 神怎么样的?我问过好多人,这条路是都行不通的,都是比较差的,所以说业界通用解决方案是什么?就是花钱, 最佳解决方案就是花钱,而且,而且咱们也说这个这个价格啊,这个价格你可想而知是非常非常昂贵的一件事, 但这些框架当中它都帮我们去做了什么呢?其实就是这里边啊,我觉得这些框架当中啊,它都帮我们实现这些东西,就是啊角色,然后交互,然后还有这个 api 调用。我觉得就这几点, 一个框架当中,比如说凹凸或者媒体 ppt 里边,它会给你预定一些角色啊,比如说你现在是一个程序员,你的角色是什么?你现在是一个医生,你的角色是什么?你要做什么事?根据你不同指令,它会给你写很多例子的啊,在这个例子当中,角色该怎么去定义 好?那就是交互,交互,就比如说你为了完成这件事啊,你应该跟谁做交互?程序员跟产品经理之间做交互,程序员啊,程序员就只跟他交互啊,产品经理跟谁交互,你的角色可以跟谁交互。然后最关键的就是我运用这框架啊,最大的一个核心,最大优势是什么?就是工具是现成的, 就比如这里边,现在所有的工具给我的感觉都是这样哇,都是一个,就像个百宝箱一样,就是反正啥 ip 都能用,我让他问天气也能,然后浏览网页就不用说了,用各种浏览器,浏览网页,用各种缩显器,他都能的。 所以说就用这些框架啊,是用人家给我们设计好的这些个 api。 这 api 有 多少种呢?嗯,咱不夸张的说啊,就上百种,肯定是打不住的。因为你比如说你要访问一个公众号, 访问一些微信上的接口,那这个微信,这个公众号,那 a p i 有 多少个了?海了去了,是不是你要你要再去查一些什么企业的信息啊?什么个人的信息,那这每个地方都有 a p i 这些框架,就帮我们写好了很多这样的例子,怎么去掉这 api? 说白了他再去执行这些个动作,就这里边啊,就是他把角色定义好了,然后角色教会定义好了,然后 api 调用给你了。那其实对我们来说就是现成的模板咱可以直接用了,但是更多的,其实我觉着啊,还是希望大家怎么样,就是要这样 熟悉流程,然后我们肯定要做自己的事,你做的事,你不一定是开软件公司的吧?你肯定是有你的一系列人员,然后你们这些人他们要做什么, 我们可以去模仿他们角色定义的方式,他们怎么交互的,以及人家这块涉及到这些 a p i。 那 那在我的任务当中我可能会涉及到哪些个 a p i 呢?就要把这些 a p i 的 一些调用方式,我们给它加进来。其实这些东西啊,我觉着你觉得这个框架当中啊,咱们在理解时候特别难吗? 我,我讲的课比较多,我讲算法、讲论文、讲项目、讲圆满,其实我都会觉着难度挺大的。但是这个框架吧, 他这个难度还真不大,因为就是整体逻辑是比较简单的,所有东西都是到调大模型生成的,他可能并没有太多跟算法、跟数学啊,跟概概念相关的东西,其实都是什么,都是流程, 第一步干什么,第二步干什么?第三步干什么啊?都是流程怎么调 api, 然后反正调 api 也是现成的,反正对我们来说,我,我就觉着啊,如果说我要用这些框架, 我无外乎就是对应好我的角色啊,然后我把我需要用的 api 给它加入进来,就相当于我可能不仅仅执行这些动作,我可能执行点特殊的动作啊,我要执行什么动作? 把这些整理好,其实它的流程我觉得来说是非常类似的,所有里边核心操作都是把啊,就是通过你的角色获取到你这个人基础的一些啊,就就基础的一些命令和基础的属性。 然后呢去啊,根据你的命令当做提示调大模型,然后调完 api 之后呢,把 api 返回结果啊交给大模型,然后生成一些记忆,然后再根据记忆再决定下一步怎么去走。这地方来说,我觉着就这几点吧,框架来说,嗯,就是特别多啊,这个这个到时候大家任选,你想要什么框架都行, 我给大家列出来,是我觉得 k 二 pro 当中死大叔比较高的,也是现在大家呼声比较高的,用的比较多的,我用了一下,我真觉着就是区别不是特别大,而且这东西安装起来比较简单。但是大家会发现一件事,就现在这些框架啊, 都是极简的,他不像是你几年前啊,你想跑个看人像不?哎,我天呐,几年前要跑个看人像不?你配个环境,你没个没个,两三天你配不出来,还得编一这整这贼麻烦。 但是现在呢,这里边啊,你的配置极简单,就是我估计用不了半个小时的一个时间,你就可以把它给它配置起来,只要你有这个 key, 你 就可以很快上手,很快去理解它的流程啊,它的任务是怎么做的啊?反正这个框架我觉得用起来都不难啊, a 阵当中都帮我们把这件事做了一个简化极简,你就可以把这个东西用起来, 给大家去分析了一下,就是我对 a 证的一些理解啊,还有这么长一段时间使用下来,整体的感觉更多的就是通过这些个开源项目和一些实际,再去做这些私有化部属于企业啊,跟他们去讨论交流得到的一些经验。 然后呢我们先来说一说啊,就是 a 证当中啊,什么是可以去做的,什么样的东西他是做不了的,我觉得这样的就是你的业务场景当中啊,如果说啊,你要解决的问题,这个问题他有一个标准化流程, 就比如说你让程序员啊,就是你呢,现在客户有个需求,我需要根据这个需求给他写一些代码啊,给他做一个游戏,给他做一个小程序,做一个界面, 其实这些其实是有一个完整的一个模板的,我们要做这件事怎么分析用户需求,每一步要去做什么,其实都是固定的一些思维逻辑,一旦这件事我们做到一种标准化的体系,其实 a 阵头我觉得是有能力帮我把这事做出来的啊。但是我们现在强调我跟大家说句实话,就是能做出来, 但是你不要指望这个东西能做的多好,不要现在去看别人去吹。这个 a 阵能解决很多事,我目前接触到的百分之九十都是失败的案例, 能成功的也是比较简单的,比较简易的,呆某的级别的还很难做到,说这个东西直接就商业化了,直接就是帮我们解决生活当中的一些实际的需求啊,以以现在啊,以今天这时间来看,还做不到这些东西啊,就更多的标准化体系, 他起码能把格式,能把我们要的东西啊,有那么一点像模像样的感觉输出出来。但是换句话来说, 如果说你现在的任务就是你自己都不知道是怎么该怎么去做啊?你再让他去做,你觉着你让这个 agent 他 自己去思考,自己去反思,自己总结去吧,你能做啥?你按照你的逻辑给我做出来 这件事,百分之百它是做不到的。你没有一个标准化的体系,你的任务当中没有一个清晰的定义,每哪一步该用什么样的 api, 哪一步它应该有什么样的角色。 如果说你没有一个清晰化的定义,其实这件事你是做不到的,那所以这里边啊,我给大家强调了一下,就是 a 人这东西啊,它绝对是 ai 的 一个未来,因为我们用 ai 的 目的是什么? 咱们做大模型的目的,其实现在来说不仅仅是要满足我们一问一答,更多的是我一问,他帮我去把这些个答案做一些汇总,他思考,他决定他做了些事之后,哎,把这个东西交给我,你就别让我再去参与到其中了。帮我做一个 ppt, 别让我告诉你 ppt 的 每一步怎么去做,你来根据我之前做过什么事,你来根据我的一些行为特点,根据我之前写的一些 ppt, 根据我这些要求自动的把这些做出来,别问我一句话,就根据我记忆当中去找。 但如果说这个东西是标准化流程,我觉得是能做的,但是反过来它是很难去解决的啊。哎,这这东西我觉得还是始于持续的一个发展,这东西其实这个词它并不是像是你们现在觉得它火了才提出来的, 很久之前啊,他就已经有这个词了。只不过说之前啊,那些个 gbt 啊,或者之前的决策 可能是靠一些人为的逻辑,显得不那么智能,但是也能把这做出来。现在呢,有了大模型的一个介入,我们可以把每一步优化的更好。最关键是什么?最关键的,其实我就是觉得这样一件事,大模型当中啊,他是帮我们多了一些思考。其实你说执行个动作, 我自己写一些 f s, f s 的 一些判断行不行,什么时候做什么,什么时候做什么,但这东西就很死,他能解决问题就很少。所以说大模型我觉着他是一定是有脑子的,有脑子的大模型能根据他在当前面临的一个问题,去反思我们要怎么去执行接下来的一个动作。 这个是我觉着整个 a 阵当中啊,比较核心的一个概念。但是现在啊,最大的一个难点是什么?最大难点其实我们是无能为力的,就像是一个基作的模型,他的思考能力越强, 他执行动作能力,他的感知能力越强,你整体 a 阵的就会越强。但是这些东西是我们无法去触及的,我们都是用现成的 key 来帮我们去完成的啊。好了,这是给大家做了整体 a 阵的总结啊,他是啊,长什么样子,能做什么东西。 接下来我想给大家再去说这样一件事,就是很多同学啊,咱们现有一些需求,就是我要去构建一些智能体,但是啊,大家觉着就是我这个水平吧,我写代码,我不想写,我也不是程序员啊,不想写代码, 我就想去了解 a 阵的,用 a 阵就行了,然后比如说我现在啊,就是我也不做这个商用,我就自己玩,自己能解决点事就行了,提高点工作效率也好,然后帮我去啊,干点私事也好, 然后第三个呢,就是啊,我可以花点小钱,但是啊,你就别整东西太麻烦,咱们先用起来呗,先用起来就行,这块我给大家推荐的就是这个 gps, 它是最简单最直接的,但是呢,你也得去花点钱, 然后大家说,哎,那有开源的不用,老师你给我推荐这个付费的干啥?那比如开源的这个什么凹凸啊,或者是这个什么 mate gpt 啊, 我咱咱们说,咱们说实话啊,就这东西他不也是调用人家的 key 吗?跟你的 gps 当中调用人家的啊,这个接口,这不是异曲同工之处吗?没有什么本质的区别吧? 但,但是呢,就是,呃,在这个凹凸啊,或者 m i g p 当中,你是自己要写代码啊,就是你要在代码上去实现一个功能啊,要调用调用什么 api, 然后要执行什么动作,然后有什么提示, 都是代码上就显着比较麻烦,没有那么活。但是在这个 gbt 字当中呢,它相当于是 gbt 的 一个应用商店,这里边啊,咱做事就非常非常简单了,而且呢还有很多现成的工具啊,是可以帮我们去用的。更关键的一件事, 这里边啊, o p i 的 全家桶我们是可以玩的多模块能力本身已经具备了,不用你再去额外做些开发了。所以啊,咱们后后面我会给大家讲这些框架的,怎么怎么怎么自己玩,然后他的流程怎么走啊,但是如果说大家咱们你就有点小的需求,想解决自己点事,这个 gps 我 觉着也是挺好的一个地方啊,我给大家举个例子, 比如说现在啊,现在啊,这块我这是打开了一些别人的啊,就是我一会给大家说咱们自己玩怎么用,其实非常非常简单, 比如现在,我现在打开了一个啊,这个 app 吧,或者叫做一个啊,别人写好的一个 a 阵,那我们就叫别人写好 a 阵就行了,他给他起个名字啊,就是啊,叫这个小红书写的专家。然后呢我接下来问他,就是啊,我说这个又就是我啊,我说问他帮我写一篇讲 a 阵的笔记,那你看他是不是帮我把标题列出来了,然后下面呢, 在这个任务当中,他说 a 阵的定义上吧, a 阵的特性, a 阵的一些应用,未来展望,然后结论他是不是有几大块啊? 那其中我们简单梳理梳理啊,就是他要完成这样一件事,他是不是说首先他要给这个 agent 定一个角色,那你是一个写作专家,你接下来要根据用户的输入啊,把它什么什么写完整啊,怎么样的啊?他就有一个提示,然后接下来 他还得有啊,就是要完成这件事,他得去调用什么,他得去调用一下子啊,比如说怎么生成一些比较好的标题,那标题当中有哪些子的模块子的一个逻辑,就相当于他是有顺序的,先生成标题,然后再根据标题和你的要求生成我们想要的一些内容 啊?这就是我们的一个基本逻辑,第一步要干什么?生成标题,第二步根据标题生成内容。其实这不就是最简单的一个 agent 吗?把一件事做一个拆解,然后把最终结果帮我们生成返回就可以了。那这一块呢?比如说 现在啊,呃,比如这块有叫,还有一个随便随便打开的啊,叫什么啊?这个什么 ai 车助手, ai 车助手东西啊,就是比如现在啊,我也我也,我也没看他具体是啥,我就让他说给我介绍一下,比如说沃尔沃叉七六零的详细配置,那下面是我把我们这些结构全拿出来了,那这些配置大家,大家帮我想一想,他是怎么升这个东西的? 他是不是得调用一些工具了?比如说,哎,他要分析一下这个叉 c 六零,他是不是得去找一找?哎呀,叉 c 六零,比如或或者说你问他最近新出的一款车,可能 gbt 里边都没有他这个训练数据,他是不是要到网上去找一找,去做一些搜索, 那这一块就形成什么?这一块就形成他一个动作,我为了完成这个任务,然后他经过一思考,这件事是我目前不具备的,那我要去执行什么动作?执行到互联网上去搜索,那可能他一搜索搜索到这么一千个网页都是讲这玩意的, 他是不是也辨别一下子哪些是广告,哪些是我不想看的网页?在这里边他说经过大脑一思考,我选出来前十篇我觉着最好的网页,然后那是不是还要把这十篇网页 做一些摘药,做一些总结,再根据这些总结,最后再穿越 gbt 啊,问你怎么样基于我找到这些资料,帮我生成该用户想要回答这个问题,再做这样一个结构化的一个输出啊?就这个大家发现反感就是 流程上是怎么样?是我觉得相对比较死的啊,相对比较死的感觉。然后这会还有什么,就是又打开工具啊,什么微信阅读,鬼才不知道干啥的,他就是说让你输入一个文章链接,就你我随便给他发个链接啊,他就帮我分析了这个文章标题是什么,然后文章标摘有什么,然后可以深入思考做哪些事 啊?其实这里边都是啊,你看我给他发个链接,你这他起码得把这个链接打开,是不是?是不具备一些联网的功能才能解决这些问题啊?都是去调一些工具帮我们解决这些事, 然后大家说那给我发短信,然后给我做什么东西,该怎么办呢?其实这件事啊,并不难啊,就是让让我们这 api 啊,就是让我们这个助手,或者说让我们这个 agent 他 具备一些能力。这个东西啊,咋说呢?就是你可以自己去调一些免费的 api 去做, 但是呢,如果说大家觉着就是像我说的,你用那个什么 mate 或者 autodgpt, 你 写这代码特别麻烦,这块现在啊,就是我看啊,一些个人用啊, 可以玩这个语句 ai, 它这里边相当于啥?就是帮我们把 api 做了一个整合,你看啊,比如说这块创建一个叫什么的个 ai 的, 你不用管是什么,你看我一点这个添加动作,这里面有多少种,就是随便给大家举个例子吧,比如说咱们这个什么企业通讯,什么 qq 邮箱,什么什么短信宝,这都干啥的, 哎,调用这个 api 就 给你发短信了,在这个 a 领当中能给你自动发短信,能给你自动发邮件,还能给你做一些这些所有的跟人家集成进来 api 相关的。我觉得这 api 这都不下几百个了吧,你想访问啥?想调用啥?是不都行啊? 但是吧,就天下是没有免费的午餐的,我给大家找这个叫什么语句 ai 啊?他就是总结的比较全啊,我觉得就是,反正我是这样,我喜欢花点小钱,然后你让我做起事来,别那么难。他这块你随便一点, 它这块都给你生成出来,比如说你要要要调这个钉钉应用干什么?比如要发发这个消息,发这个消息,然后这块你要注册账户啊,这块我给大家演示了,你们自己去注册账户,注册完账户之后呢,它就会啊,给你去生成一个 api, 你 就可以调用这 api, 然后你的 agent 它再去执行的时候,大家都说,哎,这个 gbt 它咋地?还能给我这个钉钉连上吗?就这一块它是有的啊,就在这里边我们点它自己创建这个 gpt, 创建 gpt 的 时候啊,就是 create 的 时候,你给自己写啊,你的要求是什么?你的描述是什么?你把你的要求描述写完之后,它右边就会生成出来啊,你的一个助手是长什么样子的? 比如说现在,就是啊,我就随便写啊,咱们先管,我随便写,你是做企业管理专家,尽可能压榨员工的工作时间, 时间,让他们更多的工作,还啊,然后就就就这么写吧。就是啊,我我我写个需求,你这个角色是什么就好说的啊,就是第一步我们希望这 agent 他 要完成一件什么样的工作, 那其实在这 cpts 当中啊,这块我写的比较少啊,这样这玩意你要写一堆啊,就是你是角色是什么,然后你每一步要去啊,做什么,你要写非常全面,这些市面上教程太多了啊,我就不给大家具体详细说这个事了,我主要给大家说说流程,然后这有 config, 这个 config 当中啊,是这样啊,就是我忘加一句话,就是下面用中文给我回答啊, config 当中这块它有, 各位抖友大家来看,这块它有个 create new action, 其实这些啊,就是你可以把你倒数 a p i 直接复制过来,就是这些语句, ai 当中啊,刚给大家演示这些动作,它都是有 a p i 的, 你可以把这 a p i 啊全部复制过来, 这样你的 gpt 就 具备这样一个能力,他就可以做各种各样事了,他也觉得我该调用啊,他也觉着现在这个员工问我点啥,我该给大家群发消息了,大家晚上别走过加班啊,那这一块他就会调你这 a p i 来去啊,在这里面实际的把点东西执行出来,数据分析的,各种查询的,这就不用说了啊,所以说 现在做这 agent 吧,我觉得都不难啊,就是不难的原因是什么?嗯,就是你兜里花点小钱,你想这个这个 open i 的 key 你, 你要买是不是?这是第一个事,第二个事呢,就是你调这些个 api 的 时候,咱们得用一些嗯,现成的现成的库吧,或者现成的 api 的 一个大权。 但这玩意儿吧,这咋说呢?就是你自己折腾也行,很多都免费的。但是这汇总的吧,人家就是收钱的啊。到时候大家你们最简单的方式就是你做出来一些小的 a 这样的东西,你就可以用这个 gps, 它是我觉得最快的一个方式啊,能帮你去解决这个问题的。

hi, 我是 megan, 我是 google lads 团队的产品经理,我将带大家快速了解一个名为 oppo 的 产品的教程。这是一个无代码迷你应用构建器,可以帮助你自动化工作流,并为你自己或朋友构建迷你应用。 对大多数人来说,顶部这部分会是空的,因为你还没有任何 oppo 应用,所以大多数人实际上是从画廊 gallery 开始去寻找视力和灵感,看看用 oppo 能做些什么。 让我们点击新建并输入我的一个想法,这是一个制定每周膳食计划的应用,我希望它基于用餐人数以及我一周内可能做饭的次数来制定。 这是我每周都要做的事情,所以我喜欢它是可重复的,而且我可以随时回来使用它。在我们等待加载的时候,这就是我们要介绍的可视化编辑器。这里的本质就是我刚才提出的那个应用构想背后的逻辑。 我们可以实际查看这些步骤中的每一步。第一个黄色的这块是用户输入,就在这里。你也可以随时手动将这些模块添加到画布上,所以你也可以完全从头开始构建。 这本质上是在询问用户大概有多少人,然后这个询问烹饪频率。 好的,我看这里,这是生成步骤,这里是在向生成式模型提问。在这个案例中使用的是 gemini 二点五 flash 模型。但正如你在下拉菜单中看到的,你可以从 google 生态系统中选择任何你想要的 ai 模型。 在这里你可以看到它们实际上扩展了我的提示词 prompt, 使其比我刚才在原始提示框中输入的内容详细的多。然后这看起来像是最终输出步骤。它展示了当我运行应用时它会是什么样子。 那我们来试一试吧。我点击这里。这是开始按钮。本质上,我们正在预览这个应用。假设是两个人。这周我只想做四次饭,现在它正在运行。 如果我转到这里的控制台,你可以看到所有的中间过程,也就是当应用开始运行时实际发生了什么。这里我可以看到它们正在调用一个特定的模型。我也可以展开它。 我其实不需要看所有这些细节,但如果我好奇的话,可以在这里查看。在它运行的同时,我也给你们展示一下主题功能。这一块区域,你可以修改原始的封面图片。 在这里,你可以生成一张图片,或者直接上传一张。如果你点击随机,你会得到一张与应用内容相关的图片。好了,让我们看看运行的怎么样了。你已经可以看到一些内容出来了。 我可以看到它生成的原始膳食计划,但看起来它还没有生成最终的输出结果。 一旦准备就绪,我实际上会得到一个不错的小落地页,让人们看到我制定的所有膳食准备计划。 好的,如果我转到预览标签页,我可以看到它已经准备好了。我还可以点击应用切换按钮查看更具沉浸感的仕途。棒极了, 我可以看到这里计划了几顿饭。好的,他们知道我只做四次饭。这很不错。酷,这就是输出结果。 如果我想和某人保存分享这份确切的 html 输出结果,我可以点击这个分享输出按钮。 我得先分享这个 oppo 应用。我可以通过点击上面这里来操作。我点击分享应用,你可以发布它。这意味着任何收到链接的人都可以访问你的 oppo 应用。 一旦你这么做了,你就复制这个发布链接发送给其他人。但一旦你完成了发布,你就可以像我刚才试图展示的那样轻松点击这个分享输出按钮。如果你点击复制这个分享链接,其他人就可以打开它,并直接跳转到这里。 但如果你想让人们真正进入你的 oppo 应用或亲自运行它,那么你应该分享这个发布链接给他们。这个链接会带他们来到这里。所以,如果我们重新开始,你可以让任何人运行你刚刚制作的应用。 好了,我们现在来做一些编辑。我们在这里尝试用自然语言。这是最简单的做法。在这里,我只想让应用问我有什么剩菜,以确保我们真正利用了这些食材。 但如果我想手动操作,我也可以点击这个用户输入。他会在面板上添加另一个字段,这样我就可以通过描述我希望该步骤做什么来进行编辑。 然后,我只需要在这里添加一个小连接线。你可以看到,因为我在这里输入了需求,他自动帮我完成了,但我也完全可以在这里手动添加一个。 实际上,这里的所有东西都是同理。如果我想要一个不同的步骤,比方说我想让模型做点别的事。在我得到菜单后,我希望他生成某种图像。我可以在这里操作并选择一个不同的模型。 好了,为了演示这些修改,我们在这里再加一个输入,生成一些与我的餐点搭配的图片好了。当你看看这里实际发生了什么变化时,第一个变化很明显, 因为它只是在面板上增加了一个输入框。对于这种变化,你实际上需要点击进去,看看每一步有什么改变。这里,因为我希望有一些图片来搭配我的餐点。 我实际上期望这里会创建一个新的生成步骤,以便向图像生成模型提问。这里它使用的是 emoji。 四。实际上我们来用 nano banana, 这是最新且有趣的图像模型。 你可以看到它实际上刚刚把这个步骤添加到了我的流程中。最终你可以看到这里。它也已经考虑到了有图片这一事实。 所以在输出中,我期望不仅能看到食谱和膳食计划,还能看到与之搭配的图片。在我继续其他话题之前,我还想向你们展示一些其他的隐藏功能。这里你可以看到版本历史。 如果点击这里,你可以编辑你的 oppo 应用的标题和描述。不过它在这里也已经为你自动命名了。描述实际上就在这下面。所以即使你什么都没写,你也可以编辑这个字段。再说回主题, 如果你设置了主题或者上传了自己的封面图片,你会看到那张图片显示在这里。最后,这里还有一些撤销和重做的控件。你可以点击那些,或者用这些来放大或缩小画布。 这个按钮可以让你居中,这样你随时可以回到主视图。我还想给你们展示几个功能,第一个是添加资产 s x t。 在 这个例子中,我想制作一个宠物连环画。 我想让人们上传他们宠物的照片和名字,然后每次都能生成这种特定风格的连环画。于是我点击了添加资产,然后上传了一张图片,但你也可以从 draw, youtube 等地方获取这里。我希望卡通总是呈现出这种特定的外观。 这里发生的事这个提示词实际上引用了那张特定的图片,并告诉模型在生成连环画时,需要从那张照片中获取灵感。你可以想象这对任何事物都适用。 如果你上传了一个文档,你可以复制那个特定的结构格式,或者你可以提供一个视频或图片来增加灵感,或者让模型精确模仿它。 另一个很棒的功能实际上是更改输出的能力。之前我向你们展示了输出本质上是一个网页时的样子。 但如果你点击这里,你还可以做的是将内容保存到 google doc slide 或 sheet 中。比如你生成了一份自定义报告,这里是关于社交媒体的病毒式传播趋势,我可以直接将其更改为保存到 google docs。 然后当我查看应用和输出时,你会实际看到那个文档,一个指向它的链接,点击打开,你也可以把这个文档分享给别人。无论何时,你再次运行同一个 oppo 应用,它只会将更多内容上传到同一个文档中。
![用谷歌ADK五分钟就能搭建一个Agent? 【课程推荐:谷歌圣诞25天Agent课程】
课程大体分为三部分:agent的搭建和部署、上下文工程、A2A。看完之后,筑波真的觉得普通人也能快速构建自己的agent了👍 之前langchain不要两三天,现在真的就是几分钟😇
看在筑波圣诞节更新视频的份儿上 觉得有收获的点个赞吧~
#谷歌圣诞agent课程[话题]# #GoogleADK[话题]##智能体开发[话题]# #Gemini[话题]# #零代码搭建Agent](https://p3-pc-sign.douyinpic.com/image-cut-tos-priv/d60bc96c2f95d5c9f22f96e9b5dbbfea~tplv-dy-resize-origshort-autoq-75:330.jpeg?lk3s=138a59ce&x-expires=2082902400&x-signature=gTxTWhMzhIs5Gec%2BWWMqYWzn1tA%3D&from=327834062&s=PackSourceEnum_AWEME_DETAIL&se=false&sc=cover&biz_tag=pcweb_cover&l=20260105003318015074C3E89E7414CD8B)
今年圣诞节,谷歌出了一个圣诞主题的 agent 的 课程,在听这个课程之前,我觉得啊,我们如果要搭建一个 agent 的 话,可能会需要调用以前比较复杂的像 long chain 这样的架构,可能需要花一两天吧才能搭建一个自己的 agent, 但上完这个课,真的你只需要五分钟就能搭建一个你自己定义的 agent。 这个课程的量比较多,因为它是按天数算的,一共有二十五天。今天我也是带大家快速的这样体验,总结一下,然后看一下它里面到底有哪些干货。 ok, 所以 我们可以首先看一下如何去构建一个 agent, 其实我们只需要三件事,三个东西。首先就是说我们要有一个自己的谷歌的 api 啊,这个时候我们可以到,呃,这个网址就是 as studio 点 google com, 然后后面是 api keys, 然后我们这一边可以自己创建一个 api key, 这个最开始都是免费的,然后用量不大的话应该会一直免费。 然后接下来呢,我们就是说把这这这一段代码复制,然后打开随便一个 id, 我 这边用的是谷歌自己的,因为我感觉更方便嘛, 然后粘贴给他,然后他就会叭叭叭叭开始输出代码,输出代码完之后呢,然后我们再复制一下这段代码给他,然后我们把这两个代码复制之后,会得到这样的一个 ip 地址,这个网址就是说我们已经把它部署到我们的本地了,这个时候我们可以体验我们刚才自己命名的这个 agent 了, 首先我们要在这里选择跟我们刚才创建的同样名字的这个文件,选中之后呢,然后我们就可以在这边跟他对话框里面开始对话了,这个 session 就是 记录的我们之前的所有的对话列表,就可以看一下,我之前就是跟他对话的一些内容,他都会在这里面做存储,然后 包括你每次对话你调用了什么模型,然后它的回复是什么,以及耗了多少 tokens, 都能在这这里面看到。然后通过疑问这里我们也可以看到这个 agent 主要构成就是一个 google search 的 agent, 是 一个单 agent, 不过我们想构建那种比较复杂的多 agent, 它本身也是可以的,我非常推荐大家看一下。呃,第一期第一第二天其中有一个教程,使用 m c p 构建多代理应用程序,它就非常详细地描述了如何去构建一个呃, research 到 summary 的 一个 agent, 就是其中包含了三个 agent, 一个是协调者协调这两个 agent 之间的交互,然后一个是做 research agent, 一个是做 summary agent。 所以 说谷歌给我们提供的这样的工具,可以帮助我们去实现各种各样自定义的 agent。 接下来四五都是我们如何把它做一个云端的部署,但这边也写了,它主要是用于生产级去观测一些模型的指标啊,输出的正常指标啊什么,我这边就主要给大家演示一下它效果是什么样子的吧, 它主要还是部署在 google cloud 上面的,然后在这个上面我们也可以正常跟它像刚才部署到本地一样做对话。 不同的点就是说我们在这边可以看到实时的绘画量,然后调用量以及模型的使用量,各种各样的,就是比较符合这种生产级的要求吧,就是说平常你是不需要的,如果你把一个 agent 给做上线了,我觉得这样一个 dashboard 还是非常有效的。 接下来第三趴就是上下文,刚才我们已经去构建了一个谷歌搜索的 agent, 然后并且把它部署到了云端。下一步就是说我们如何 给这个 agent 做好上下文的管理。其中我觉得第八和第十这两个教程都是非常有帮助的,而且非常适合小白。其中第八天主要讲了一下我们为什么要做上下文管理, 其中主要原因就是说目前这一个大的上下文的窗口,呃,所有的信息都是非常混乱的丢进去的,这样就会导致这个模型每次运行不仅成本会变得更高,消耗的 tokens 量会变得更多,而且反应也更迟钝,更容易出错。 我们想做的事情就是说给他做一个更加精细化的一个结构,然后把不同的这种信息分类,比如说有些是临时性的信息 啊,可以随时丢掉,有些就是永久需要保存的信息,那么就给他放一个位置,并且足够容易获取。那么谷歌是如何做好上下文工程这件事情呢?我觉得得益于他做了一个信息的分层结构 啊,像是这种工作的上下文就是一次性的,马上就会被丢掉的。绘画的就是说我们跟模型每次沟通的记录,这个是会总结,然后 形成一个结构化的日制做存储。然后记忆,就是说我的一些长期的用户习惯呀,沟通啊,然后都可以储存在记忆层。最后就是弓箭,就比如说一些大型文件 pdf 的 话,我们就可以做一个名称快速调用。 我觉得这个巧妙的点就在于说上下文的窗口,它是一个动态的,只有我们每次使用的信息,呃,匹配的时候它就调用相关的信息,比如说调用某次绘画,调用某个记忆,调用某个弓箭,临时的来到上下文的窗口,然后替我们执行任务。 但是在具体实现的过程中需要两个主要的方面,一个是上下文存储,另外一个是上下文压缩。这两个因为时间关系,我这次就不一一展开了, 因为我发现可能一期视频已经讲不了这些内容了,所以说如果大家感兴趣的话,我会专门出一期视频来讲这个上下文的工程。最后感谢大家,如果想看更多类似这种教程,然后以及 ai 知识分享类的内容,记得关注我,下期再见!拜拜!

谷歌前两天发布了一份 ai agent 指南手册,主题是 work smarter now harder, 全文共四十六页,需要的朋友私信我领取。当然,你不想自己看的话,也可以看我这个视频就行。二零二五年是 ai agent 的 一个爆发年,谷歌认为 ai agent 将会从提升工作效率不可或缺的工具,变为彻底重塑我们工作方式、工作环境的办公组成部分。 在文中,谷歌规划了十个 ai agent 的 应用场景,很多都是已经实现了并有实际案例的场景。感觉这个手册既有对未来的预判,也更像是对二零二五年 agent 应用的一个总结。 首先,谷歌认为到二零二八年,百分之三十三的应用软件将会包含 ai 智能功能,而这一数据在二零二四年时还不到百分之一。十大。 ai 智能的应用场景为第一,企业内部数据解锁效率的提升 通常一个企业内部会有很多不同的部门和不同的数据,而这些数据都存放在不同的地方,在需要使用的时候,要将这些数据汇拢到一起是一件非常繁琐的事情,既浪费时间,又可能丢失主要的数据。谷歌认为使用 ai 可以 改变这一现象,利用多模态搜索功能,能够高效的获取企业数据,帮助决策者完成决策。 二零二五年四月,谷歌和西雅图儿童医院合作搭建了这样的 agent, 来帮助医生完成诊断决策。医生可以通过访问 agent 来获取各类病历的专家、治疗方案、诊断路径等信息,这些信息的获取可以在数秒里完成,而在没有 agent 的 时候,医生手动查找这些数据需要至少十五分钟。 第二,将繁琐的文本文件转化为播客。试想一下,你不用再穿着紧绷的西装坐在僵硬的办公室里听各类的工作报告,而是可以在健身房里录个铁就听完了今天的财务报表,何乐而不为呢?而这些,只需要你将文档传给 agent, 它就会给你一个带有你喜欢的声音的内容 狗,我是姐姐。第三,数分钟内完成头脑风暴。以前一个好的 idea 是 不是需要好几个拿着你上万月薪的创意总监开一个所谓的创意会?冥思苦想一整天才勉强有一个呢。现在不需要了,想想 a 政可以数分钟内给你一千个好的创意,任君挑选。四、咨询任何方面的专家隔行如隔山,正在被打破。你可以通过 a 政的数小时内就掌握一个行业的主要知识,这一点是我非常喜欢, 因为之前就一直在想,知识垄断也是一件非常可怕的事情。第五,个性化体验咨询服务。这个其实就是 ai 客服。当然,我相信你们今年已经见识过了,很多银行、企业都开始使用人工智能客服,负面评论很多,这也是因为 ai 初级应用的结果。我相信随着 agent 的 发展, ai 客服的服务也会越来越好。 转人工客服转人工,转人工,转人工客服。第六,提升营销参与度和转化率。针对不同的客户需求,用 ai 来制定规划步骤,提升营销活动的参与度和转化率。第七,缩短营销周期。营销团队可以让 a 阵子分担掉营销环节中的一些工作,从而提升营销效率,缩短营销周期。 第八, web coding 用提示词可以写代码,查到 bug, 打补丁等等。 web coding 也是今年火起来的一个词,其实就是用提示词来进行软件开发的意思。第九,提升 hr 的 工作效率。从简历筛选到入职流程、入职培训,都可以让 agent 来参与,提升 hr 的 工作效率。 第十,创建自己的 agent。 这个相当于是一个开放性的功能,每个人都可以通过自己的需求来创建个性化的 agent, 辅助每日工作。

今天咱们来聊一聊最近 google deepmind 的 一篇论文,它其实就是在讲多智能体系统在扩展的时候,其实并不是智能体越多越好,嗯,其实是要根据你的任务的类型来选择合适的架构, 以及到底要不要用多智能体,这个还是很有意思的,那我们就开始吧。咱们先来说说就是这个多智能体系统最近这么火,大家都在不断地增加智能体的数量, 这种趋势到底是怎么来的?过去的一年里,就是 ai agent 真的 是迎来了一个寒武纪大爆发,然后从 auto gen 到 line change, 大家好像都默认了一个事情,就是说 more agents is all you need, 就是 智能体越多越好。听起来好像大家就是说一个模型搞不定,那就上一堆模型一起上,肯定能搞定。对,就大家都觉得说,那我如果一个 gpt 四搞不定,那我三个 gpt 四组成一个专家委员会, 然后让他们投票,或者说辩论,或者说分工,那效果肯定就会好很多。对,但其实 google deepmind 的 最新研究就给这个热情泼了一盆冷水,这泼冷水怎么个泼法?就是说这个论文到底是怎么通过实验 来监视多智能体系统的这个效果呢?这个论文它其实非常的系统,就是它做了一百八十种不同的配置,然后横跨了 openai、 google 和 antropica 三大模型家族,然后做了这么一个大规模的受控实验。嗯,结果非常的惊人,就是多智能体协助并不总是好的, 有的时候甚至会让你的性能暴跌百分之七十。那这个实验设计的核心就是研究人员到底是怎么去设置这些不同的智能体架构, 然后怎么去保证他们的这个比较是公平的。他们其实设置了五种经典的架构,嗯,就第一个是 s a s, 就是 单智能体系统,然后第二个是 m a s independent, 就是 每个智能体各自为战,最后把结果汇总。 第三个是 m a s centralized, 就是 有一个中心的协调者来分配任务和审核结果。嗯,然后第四个是 m a s 及 centralize, 就是 大家完全就是自由讨论,没有中心节点。 那第五个是 m a s hybrid, 就是 它是一个混合的,既有中心的协调者,然后又有内部的讨论。好的,那就是说这个实验里面是怎么保证多智能体系统和单智能体系统它们是在同一个起跑线上的,这个就是它们控制了计算预算, 就是多智能体,虽然说成员很多,但是每个智能体它能说的话就变少了,就大家总共用的 token 数量是和单智能体是一样的。 对,所以这才是真正的在效率上面的一个硬碰硬的比较了解。下面就是这个实验的结果,真的是颠覆认知啊,就这个多智能体协助 在不同的任务下面,他到底有什么样的表现?这个结果真的是让很多凭经验做事的工程师都捏了一把汗,就是多智能体到底有没有用,完全是看任务的类型, 看来任务的结构比我们想象的要影响大的多呀。对,比如说像金融分析这种,可以把它拆成很多快的任务, 那多智能体就可以大放异彩,特别是中心化的这种架构,它可以比单智能体提升百分之八十点九的性能,但是像那种游戏规划就是必须要一步一步来的, 你这个时候如果上多智能体的话,他的性能最多可以掉百分之七十,天呐。所以就是说并行的任务你可以上多智能体,但是串行的任务你单干反而更靠谱。明白了,那工具的数量对多智能体协助的效率有什么影响?他们在论文里面其实有一个特别有意思的发现,就是 工具的数量和多智能体协助的效率是成反比的,就是你这个任务需要的工具越多, 那多智能体之间的这个管理费就越贵。也就是说工具一多,大家就开始花大量的时间沟通,而不是解决问题了。没错没错,就比如说你只有一个工具,就是写代码,那大家还可以配合一下。嗯,但如果说你要同时用到搜索、运行代码、查数据库、画图等等一共十六种工具, 那这个时候多智能体系统就会彻底的陷入混乱,他们会把大部分的头肯都浪费在讨论谁要用哪个工具,而不是真正的去做这个事情。 对,他们的数据也非常的明显,就是这个交互像系数贝塔等于负的零点三三零, 就工具数量几乎就是多智能体效率的头号杀手。我还有个疑问啊,就是说这个机座模型的能力和多智能体协助的效果之间到底有什么样的关系?这里面其实有一个很有意思的现象,就是当你的这个机座模型本身就已经很强了, 就是他单独做这个任务的成功率已经超过百分之四十五了,你再给他配上一堆小伙伴,反而会帮倒忙。嗯,这个就叫能力饱和,就像你已经有了一个 gpt 四,或者说 koala 的 三点五, smart 的 这种很强的模型,你再让他们去协助的话, 只会增加他们之间的沟通成本,然后让他们更容易出错。 ok, 我 想问一下,为什么多智能体系统会经常出现这种突然的性能崩溃?其实他们这个论文里面是有做一个非常细致的 token 级别的分析, 就他其实找到了这个多智能体系统为什么会突然垮掉的一个关键原因就是错误放大啊。那这个错误放大在不同的架构下面会有什么样的差别?非常大?就比如说在独立架构里面,如果有一个智能体,他犯了一个错, 因为他没有跟别人沟通嘛,他这个错就会被放大十七点二倍。但是如果是在中心化架构里面,因为有一个经理在把关,他的这个错误只会被放大四点四倍。 所以就是说你想要用好多智能体,你一定要有一个守门员,就是有一个审核的机制,不然的话真的就是错上加错。然后我们来进入今天最核心的一个话题,就是这个 agent 扩展定律,对,这篇论文里面到底是怎么用一个公式来描述智能体系统的性能呢? 以及他这个公式背后到底是有什么样的直观的含义。这个其实就是这篇论文里面最让人激动的一个地方,就是 他终于推导出了一个可以用来预测的模型,就是他把这个 agent 的 设计从一个玄学变成了一个科学。对,他这个公式其实挺复杂的,他是一个包含二十个参数的一个混合效应模型,但是他其实核心的逻辑非常的直白,就他是 performance, 约等于 capability 加 task structure 减去 coordination overhead 乘以 complexity。 那 这个公式里面这几个关键的因素是怎么来影响我们到底要不要用多智能体,以及用什么样的架构的?其实它这个里面就是给出了三条非常实用的黄金法则。嗯,第一个就是如果你的这个单智能体已经可以完成百分之四十五以上的任务了,那你就不要用多智能体了。对, 第二个就是如果你的这个任务是可以完全拆解成互相没有依赖的子任务,那你就应该用中心化的多智能 t。 第三个就是如果你的这个任务需要用到的工具超过了五到十个,那你就要小心了。嗯,你要么就不要用多智能 t, 要么你就用去中心化的架构,因为去中心化的架构在这种工具特别多的情况下会好一点。好的,那我们继续往下说啊,就是说这个研究对于实际的应用开发到底有什么样的具体的指导意义, 这个就太有价值了,就是对我们这种天天在琢磨怎么把 ai 落地的开发者来讲,这篇论文简直就是一个宝藏。就是它里面给出了好几个非常具体的建议。 比如说第一个就是不要被那些多智能体的 demo 迷惑了,因为很多这种框架他给你展示的都是一些很简单的能并行的例子,但一旦你的业务流程变得很复杂, 比如说你需要这种长序列的规划,嗯,这个时候往往还是单智能体来的更靠谱。所以说就是在实际的系统设计当中,这个后端的架构和这个审核的机制应该怎么去做才是最有效的。这个论文里面其实特别强调了,就是你的后端一定要灵活, 就你不要把自己的 agent 编排写死了,就你要根据你当前面对的任务是什么来动态的决定我是要用单智能体还是多智能体。 比如说你是做金融分析的,那你可能多智能体是有优势的,但如果你是做这种网页导航的,那你可能单智能体就够了。嗯,还有一个就是如果你决定上多智能体了,你一定要有一个中心化的审核节点,不然的话你的错误就会像滚雪球一样越滚越大。 还有就是成本,成本控制也很重要。就这个论文里面其实也提到了就是混合架构,它的 token 消耗是可以达到单智能体的六倍的,但是它的收益在很多任务上面其实是非常有限的。明白了,那就是说我们现在这个 agent 系统的发展 相当于处于一个什么样的阶段,这篇论文又给我们带来了什么样的整体的思路上的改变。可以说 agent 系统现在正处于一个从炼金术到化学的这么一个关键的转折。就是这篇论文其实就相当于给出了第一张元素周期表, 就是你以后再遇到这种有人跟你说多加几个 agent 就 行了,你就可以直接拿这张表出来,嗯,跟他好好的理论理论。 ok 了。那么今天我们聊了这个多智能体系统,其实并不是说人多力量大,关键还是要任务和架构匹配对,然后要有科学的审核和成本控制。好了,这就是本期播课的全部内容了,然后感谢大家的收听,然后咱们下次再见,拜拜。拜拜。

嗨,大家好,今天咱们来聊一个特别火也特别重要的话题, ai 代理,也就是 agent。 我 们将从一个最简单的代理蓝图开始,一步步带你看到未来如何管理一个像繁华都市一样,由无数个代理组成的庞大智能生态。 构建一个代理很容易,但信任他却很难。这句话说真的,简直是一针见血。你看,现在让一个代理跑起来做点简单任务已经不是什么难事了。本真正的挑战是,我们怎么才能放心地把它部署到复杂的现实世界里,让它既可靠又安全地完成工作, 这才是问题的核心。好,那咱们今天就顺着这个思路走。首先,我们来看看为什么单个代理不够用,我们需要组建代理团队。 然后呢,我们得学会怎么像个指挥家一样去编排他们的工作流程。接着呢,咱们得解决工具太多太乱的问题,再引入一套专业的运维方法,叫 agent tops。 当然,有了新能力也得面对新风险。最后,我们会一起畅想一下未来所有代理都能互相协助的美好景象。 你可能会想,干嘛这么麻烦,直接造一个什么都会的超级英雄代理不就行了吗?嗯,这个想法听起来不错,但现实是,一个专家团队远比一个什么都懂一点的万金油要靠谱的多。 这就好比你肯定更愿意让一个顶尖的心脏外科专家团队来给你做手术,而不是一个什么病都看的全科医生,对吧? 你看这个对比就非常清楚了。左边这个我们叫他单体代理,什么都想干,结果呢,里面就跟一团乱麻似的,代码复杂的要命,一旦出了问题,你都不知道从哪下手去修。 而右边呢,就是多代理系统,这就聪明多了,我们把一个大问题拆成好几个小任务,然后分给一个个小而精的专业代理去合作完成。这样做的好处是显而易见的,开发和测试都简单多了,而且整个系统也更稳定更强大。 好了,团队有了,那他们怎么一起干活呢?总得有个章法吧。接下来我们就来看看三种最核心的协助模式,他们可以说是决定了整个代理团队战斗力的关键。 第一种特别好理解,就是顺序模式,你就把它想象成一条工厂的流水线。第一步一个规划代理先搭好框架, 第二步交给写作代理来填充写肉,最后一步再由编辑代理来精雕细琢。这种模式最适合那种一步接一步,顺序不能乱的任务。第二种呢,叫并行模式,这个就像是组建了一支特遣队,大家分头行动。 比方说我们要同时研究三个不同领域,那就派三个专家代理一起上,各自调研,最后再有一个汇总代理,把所有的信息整合到一起。这种模式的优点就一个字,快!效率!直接拉满。 最后这个我觉得最有意思,叫循环模式,这简直就是一个追求完美的打磨过程。写作代理先交个出稿,就开始挑毛病,给出修改意见, 写作代理拿到反馈改,改完再交。就这么来来回回,直到批评家代理点头说通过为止。 对于那些对质量要求极高的工作,这个模式简直是绝配。好,现在我们的代理团队内部沟通没问题了,但光自己聊得欢也不行啊,对吧?他们得能和外部世界互动才行。 所以下一个大问题来了,我们怎么给这些代理配上合适的工具,让他们能真正的动手干活? 这就是开发者们头疼的 n 乘 m 集成问题。你想想看,你有 n 个代理,还有 m 个外部工具。如果你要给每一个代理和每一个工具都单独做一个连接,那工作量简直是噩梦,最后整个系统就变成了屏幕上,这样遗传乱麻,根本没法维护。 那怎么解决这个乱麻呢?答案来了,一个叫模型上下文协议,也就是 m c p 的 东西, 你可以把它理解成一个万能转换插头。有了它,代理和工具之间就有了一套通用的语言,代理的逻辑和工具的具体实现就分开了,彻底结偶。 你看,用了 m c p 之后,世界一下子就清爽了,它就像一个中心枢纽,所有的代理和工具都来跟它对接。这样一来,工具开发者只要开发一次,就能让所有兼容 m c p 的 代理使用。 这不仅仅是省事儿,更重要的是它能催生出一个繁荣开放的工具生态。行,我们的代理现在既有团队,有,又有工具,看上去很完美了。但是这就像你造好了一辆 f 一 赛车,可怎么让它在赛道上安全稳定地跑,甚至拿冠军呢? 这就需要尾运了。在 ai 世界里,我们管这个叫 agent ops, agent ops 的 核心其实就是这么一个不断滚动的轮子。 第一步观察就是时刻盯着线上系统,看它的健康状况、性能成本,还有用户的反应。 第二步行动,一旦发现不对劲,马上出手干预,控制住局面。但最关键的是第三步演进,把线上出的所有问题,犯的所有错误,都当成宝贵的经验反馈给开发团队,让下一个版本的代理变得更聪明、更可靠。但是咱们得聊点,严肃的 能力越大,风险也越大。当我们把一个能自主行动的代理放到现实世界里,也就打开了一扇通往全新风险世界的大门。这些风险我们以前可能想都没想过。 你看屏幕上这些名词,听着是不是有点吓人?什么动态能力注入工具伪装、内存污染?还有这个经典的困惑的代理人问题,这些可不是科幻小说,而是安全团队现在就必须开始研究和防范的新型攻击。 咱们就拿这个工具伪装来说吧,这玩意儿啊,其实就是针对 ai 的 一种钓鱼攻击。 攻击者会创建一个恶意工具,但给他写一个特别好听、特别可信的描述,伪装成一个正经工具,然后诱骗代理去调用他。一旦代理上当,那敏感数据可能就泄露出去。还有一个叫困惑的代理人, 这个词听着有点绕,其实特好理解。说白了就是一个没啥权限的用户,通过花言巧语骗了一个拥有很高权限的代理,让这个代理替他去干坏事。代理本身是好心,结果却在不知情的情况下成了别人的帮凶。 你看这个攻击是怎么一步步得逞的?首先,没权限的用户用大白话说,帮我找到那个秘密文件,再建个新分支,代理一看,指令本身没问题啊,就 beautifully 的 把请求转给了后端的系统, 后端系统权限很高,他收到指令就执行了,根本不知道这个请求的源头,其实是个不该有权限的人。聊了这么多风险,不是为了吓唬大家,而是为了让我们能更清醒地走向未来。 我们未来的终极目标绝对不是管理几个代理那么简单,而是要构建一个由成千上万个代理组成的能够协通工作的庞大生态。 而要实现这个目标,关键就两个字,互通。要做到互通,关键就是代理间协议,我们叫它 a to a。 如果说刚才的 m、 c p 是 让代理和工具对话,那 a to a 就是 让代理和代理之间对话,不管它们是谁开发的,用的什么技术,都能无障碍交流。这就像是给所有代理都装上了同声传义气。 那具体是怎么工作的呢?其实就跟我们人际交往差不多。第一步,发现每个代理都有一张数字名片,上面清清楚楚的写着自己能干什么。 第二步,连接别的代理,看到这张名片就知道怎么跟他联系了。最关键的是第三步,委托。比如一个客服代理碰到了一个可能是欺诈的案子,他就可以马上找到反欺诈代理的名片,然后把这个专业活直接派给他,整个过程全自动完成。 所以这就引出了我们最后也是最深远的一个问题,当成千上万的代理开始大规模的自主协助,形成一个我们不再能直接控制的复杂生态系统时,我们又该如何去治理它呢? 这个问题没有标准答案,值得我们每一个人去深入思考。

最近谷歌推出了一个新的东西,叫做 a two u i, 它是让 agent 可以 实时生产交互页面的开源项目。我举个例子, 比如说我们手机里面有豆包,但是我们的豆包它是没有打车功能的,所以说它需要去对接一个打车服务。我说帮我去叫个车去机场,那他可能就打开某个打车服务,并且直接弹出来一个打车服务的窗口,就像这个样子, 有时间,有车型,还有确定轿车,这个就是 a two u i 的 工作, and i can 可以 实时生成可以交互的界面,它搞定了现在 m c p 和 skills 都完成不了的工作。如果你用 cloud 的 比较多,我认为这件事情对我们来说都很重要。 noshop 的 下一步可能就会出现在 artifacts 里。为什么会有这个产品呢?我们首先要讲一个事情,就是 mcp 和 skills 的 局限。由于它们是纯数据流的,所以说当 agent 去调用 mcp 的 时候,我们只能看到文字,或者说一串数据。 当 agent 去调用 skills 的 时候,我们也只能看到一串数据。就比如说我说定一个会议室会问你说要几点,你说下午两点,他就说预定。 我们全都是靠这种文字交流去完成任务的,但是有些任务用界面他是更好的。比如说我们要去选一个航班,我更希望的交互式,他能弹出来这一种列表,而不是给我一串文字, 这个列表我还能够去点他,这是最好的。我们人的大脑天生就喜欢画面一些的东西,而不是纯文字的东西,那么 a to u i 就是 补上上面那一层,交互的一层,就回到我们刚开始的豆包打车,例子,我们说帮我叫一个车,他就会弹出来一个地图让我们点,最后他怎么完成呢? 我们首先会发给 agent 一个任务, agent 它会写一串代码,它这个代码里面是包含里面的前端代码,还有一些数据, 也就是说我们所需要的打车的数据,它会经过一个渲染器,这个渲染器里面会有 a u u i 默认的组建和它的渲染方法,就会生成原生的 u i。 如果说豆包有它专门的渲染器,那它就会专门生成符合豆包 页面样式的 ui, 然后再返给用户,用户再去操作,然后这个操作又会给到 agent, 然后 agent 如果说 还需要这个界面交互的话,它又会形成这个循环。就像我们现在如果问一个 agent, 请问几点?我们是需要打字回答, 那么等到 a to u i 它成熟并能让人接了以后,它可能返回的就是一个日历组件。那么我们这里有个问题,既然它能画页面,为什么我们还需要 a to u i 而不是让 agent 直接去写代码呢?它有几个优势, a to u i 做法是给 agent 进行一个受限的组件库, 也就是说它能用日历,能用地图,能用表单,还有很多一系列的工具,但是它是不能去读取文件,执行代码或发送请求。 更糟糕点的是说不能够反问我们的系统,我们给了他很多工具,但是他是不能够让外部的文件通过这个组件库去伤害或者说去影响到我们本地的系统的,这本身是从安全角度去考虑。总结下来他就有几个特点,一个是安全, 我们只会让 agent 把允许的组建,不会让他去执行外部给我们的恶意代码。第二个是实时界面,它是边生成边渲染的。第三个是这个是一个跨端的, 因为它是实时渲染的,所以说它会根据我们的机型让 agent 去自我判断,这就是它的几个特点。那么除了这一层以外,我认为它影响更大的是它会形成我们的一个基础设施。 有了这层交互层,我们的整一个 agent 工具就全部完整了。我们的上下文层有 skills 可以 用,那么我们的工具层有 mcp 或者说 google 的 a to a 可以 用, 那么最后就还差一个交互层,交互层就是 a to u i 去弥补上,那么这三个能力注入了以后和 agent 去一起去合作,我们就能够去完整的做一个 agent 的 产品了。 这里我们再回感到 ansopik, ansopik 我 认为它接下来应该也会出 artifacts 的 二点零。 artifacts 是 什么?它之前 ansopik 出的代码渲染工具,也就是说我们左边写一串代码,右边就能够直接显示出来,它其实是 a to u i 的 一个图形了。接下来的下一步,我们现在的 agent 可能就会从一个对话的工具, 可以变成一个对话式的操作系统。最后说两句,一个是 a to u y 的 本质,其实就是给我们的存数据流补上交互层,我们是需要交互层的, 因为对于我们有好几个选项的时候,如果说除文字给我们,我们是需要靠脑子去记的,但良好的交互可以帮助我们降低脑子的负担,所以说很多交互是有必要的。我这里做了个例子,比如说写一个计时器, 这个 a two ui 的 魔法网站立刻就会生产出来一系列的代码,你看这边就是它展示出来的可以用的计时器,包括它的仓库里面也有很多案例,比如说这是飞机的,比如说这个是邮件的内容, 如果我们在 agent 里面去使用了以后,我们点击这个 setmail, 它可能就能直接去发送,还有购物车,还有这个音乐播放器,所以说 a two ui 其实就补上 agent 的 能力的最后一环。

hi, 大家好,给大家介绍一个最近有谷歌圣诞季新推出的免费的对于非技术背景,一些一些开发爱好者的二十五天实战 a e g 的 一个课程,那么这个课程 由二十五节课组成,我们每天只需要花几分钟的练习就可以解锁一个新的任务。第一天主要是一个课程的一个介绍, 那么第二天就是个 y m l 配置做一个 a 阵。第三天就是 jimmy 奶加 adk 做一个啊更强大的一个 a 阵。第四天就是教你如何部署上线, 一步步循序渐进,那点开它,其实每一天都会有一个配置的一个课程的一个视频,还有一些链接,当然我们也不需要自己写代码,它会有好的一些代码,我们可以自己去进行的复制使用。 那么这个二十五天系统的学习会让我们从基础到高级的一个循序渐进。 刚好要到新年啦,我们都可以去自己尝试一下,然后给自己部署一个自己的 agent 的 一个新年礼物,感兴趣的都可以去试试喽。

咕噜新书我愿称之为 ai a 诊最伟大的书。按 tony 库利为人工智能领域编写的一本实战型指南,包含了现代人工智能系统中智能体设计的核心概念和实践方法。 全书通过逻辑严密的框架设计与真实场景的案例演示,深入表述了构建现代智能体的核心设计模式与落地方法论,非常适合想学习了解 a 阵智能体的宝子书籍 pdf 电子版打包好了,感兴趣的宝子可以带回家慢慢学。

我们需要聊一聊一个非常具体的痛点。我认为每一个使用 ai 的 开发者都遇到过。你知道流程,你打开你最喜欢的 ai 编码工具或聊天界面,然后开始构建一些东西。一开始一切都很棒,他会写好样板代码,设置好基本函数, 一切都很顺利。但接着,当你在对话中发到大约第二十条消息时,问题就来了。你让它重构一个组建或者更改数据库的连接方式。 突然之间, ai 就 完全搞不清状况了。它会凭空出现一个你十分钟前刚刚删除的变量。它会忘记你在用 type script 开始写起 java script。 他会建议你安装一个你早就已经有的库。之所以会这样,是因为大多数这些工具把软件开发当成了一场随意的对话。他们依赖于一个上下文窗口, 虽然每年都在变大,但本质上仍然只是一个临时缓冲区。他们有短期记忆, 但缺乏对你项目实际架构和历史的长期理解。不过,谷歌最近为他们的 gemini c l i 发布了一个开源扩展,叫做 conductor。 这个扩展正试图以非常实用的方式来解决这个问题,他们称之为上下文驱动开发。说实话,这真的很棒, 因为他把范式从和机器人聊天转变为管理一个智能代理。他基本上强制 ai 去规划、记录并理解你项目的各种约束。在他写下第一行代码之前,而且因为他是通过 jimmy a p i 运行的。 如果你用的是免费套餐,基本上可以免费试用,非常实惠。现在让我给你演示一下他的实际操作, 因为光用讲的真的无法体现它的价值。你必须亲眼看看这个工作流程是如何实际运作的。首先,设置过程非常快,你不需要安装笨重的桌面应用程序,也不用更换你的 id。 一 你只需要在你的电脑上安装 jimmy c o i。 如果你已经有 note js, 真的只需要一个 n p m 命令。有了 c r i 之后,你只需运行一个简单的命令来安装 conductor 扩展。这真的只需要几秒钟,但它开箱即用,所以我现在已经打开了终端。我现在在一个完全空的文件夹里,我打算用它来构建一个电影追踪应用。 我们就叫它 sign log 吧。我的想法是,我想有一个地方来记录我看过的电影,给它们评分,也许还能按类型筛选。通常在这个时候,我会直接输入一个提示, 比如创建一个用于追踪电影的 next js 应用。但有了 conductor, 我 们的做法就不一样了。我输入 conductor setup, 看看会发生什么。 他不会直接开始疯狂输出代码,他会启动一个访谈流程。他的表现就像是一位刚加入新团队的高级工程师。他会问这是一个新项目还是已有项目。 我输入新项目,然后他问我们要做什么?现在看看我资源管理器里的文件结构。他刚刚创建了一个名为 conductor 的 隐藏文件夹 product md 文件概述了各项功能。 ai 不 再是凭空猜测它。现在有了一个事实依据 之后,我们给他的每一个任务他都会参考这个依据。但这还不是全部。现在我们需要实际构建应用程序,在 conductor 中 工作,被组织成他们所谓的轨道。你可以把一个跟踪视为一个功能分支,一个 jira 公单或一个特定的工作单元。我输入斜杠导体冒号新建轨道。他问我这首歌是关于什么的。我说,搭建项目结构,设置 tailwind, 配置 并创建主电影卡片组建。在普通的聊天中, ai 会直接执行这个请求,但 conductor 首先会生成一个 plan m d 文件。先生成文件, 他会把我的请求拆解成细致的步骤。他让我审核这个计划。这非常重要,因为如果 ai 有 什么误解,比如他计划使用 pages router 而不是 app router, 我 就可以在这里发现并让他在写出糟糕代码之前修正计划。我查看了这个计划, 看起来很靠谱,我点击了批准。现在我输入 conductor implement。 这时候就变得有趣了,就能体会读取他刚刚创建的计划。他会再次检查 text doc tm, 确保遵循了我的规则,然后他开始执行。他会运行终端命令来安装这些包。他会创建文件,这基本上就是他的工作方式,而这之所以重要,是因为他处理团队协助的方式。还记得 markdown 文件吗? product md, plan, md, tracks。 它们存在于你的代码库中,这意味着你可以将它们提交到 github。 想象一下,你正在团队中工作。你设置好上下文,定义好技术站,然后推送代码。 你的队友下载了代码库。当它们在自己的机器上运行 gemini c l i 时,它们的代理会看到完全相同的上下文。 你的那台确实如此。你实际上是在于整个团队共享人工智能的大脑。如果你更新了 product md 文件,比如说我们要转向以移动端为优先的设计理念。下次你的队友让 ai 构建导航栏时, ai 会以移动端优先的方式来构建, 因为这个约束现在已经成为共享项目记忆的一部分。这大大简化了你的工作流程,你不用再反复重复。同样的话, 你也不用每次开启新绘画时都把 package json 粘贴到聊天窗口里, ai 自己就知道了,而且格式化效果也非常好。你可以随时运行 conductor status, 它会为你提供一个高层次的概览,准确显示代理正在做什么,正在执行计划的哪一步,以及它修改了哪些文件。如果它陷入了你不喜欢的死胡同,你可以运行 conductor revert, 它会智能地回滚那一条特定的轨迹,而不会破坏你整个 get 历史。总的来说,这真的很酷。

本视频耗时三百六十小时,制作时长一千零八十秒,我将教会你在 ai 智能体的基础和应用,手把手教你打造企业级 ai 智能体,一口气带你搞懂 ai agent 的 正确学习之路。刚才呢,咱们说了一下,就是一个叫智能体,是不是其实现在更多的啊?就是你做什么事吧? 它其实已经不是一个智能体它能完成的东西了,因为你既然用 agent, 肯定说这件事就是很麻烦啊,它不是说我一步就到位的,比如说我写一个代码, 写一个代码啊,就是他不是说写在一个代码文件里吧?屁,他生成一堆,你看现在你用一些模型是不是写一个代码生成一堆?但是我们说我让他写一个项目, 写一个项目的时候,咱们是不是得考虑考虑啊?这个项目当中啊,我要有哪些个文件要实现具体哪些个功能,以及在每个功能当中具体该怎么实现,哎,以及我,我把这个代码写完了,你能不能别给我一些错的?你去跑一跑的时候说要报错,也问你啊,你这个报错能不能提 bug, 一下子你把这个报错改一改给他,实际 实际要能执行出来咱们想要的一个结果。那其实这件事大家想一想,一个智能体他能做到吗?其实我们觉得就智能体他是一个角色,我室友帮我去上课,他充当的是我室友的一个角色, 那在这里边他可能会遇到其他的智能体,他可能遇到一个我的老师,我的老师他也是个智能体。那我们说两个智能体之间可以怎么样? 他们之间可以去做一些交流的,就他们是可以,如果这这交流啊,其实含义又特别多了,他们可以互相分配任务,他们也可以在互相哎,通过交流得到对方的一些记忆,得到对方的信息,做更好的去执行我们接下来的一个指令。 所以说多正题,我觉得就是,呃,咱不用说这么复杂,我觉得就是一个多角色的一个故事。什么叫角色呢?一个软件公司有这个程序员,有产品经理,然后有这个加厚师,每个角色要单独完成自己的一件事,注意这个东西其实是我觉得真正啊跟 agent 当中最关键的一个问题, 你要完成一件事,其实我们强调是一个标准化的流程,在这个标准化流程当中,你不可能说让一个 agent 他 既带有这样的一个啊属性的信息。比如说我,我是比较懒的,我不喜欢上课,我就喜欢等别人把知识点喂到我嘴里,然后把饭把我带回来,这是我的特色。然后我室友他就是很热心的人,他特别勤快,他特别喜欢上课, 你不能让这个 agent 他 是个,他是个双重人格吧,他一会扮演这个,一会扮演那个,所以说在多身体当中啊,就是我们这一块 是有多个角色的第一件事,每个角色当中其实都会有自己的一些属性啊,都是有自己的属性,自己的自己的那个使命吧,我叫就一般我就叫使命了,现在他要去做什么?他是为了完成什么事的 程序员,比如说给他的使命,其实使命你不用理解,特别抽象,就是一个提示,程序员的使命就是啊,把这个代码完整写出来,可读性要强,能满足啊,产能满足什么?什么要求,然后尽可能写的完整,然后他有什么注视的?产品经理呢?尽可能把每一个功能定义的清晰,然后把它按照客户需求啊,分条分逻辑的总结出来。 就是每一个每一个角色啊,他都是他有,他有。使命就像是你写一个问大门东西啊,就像是你写一个问大门东西啊,你现在要面对什么事?就每一个智能题啊,都会有这样一个角色, 然后呢?这些个角色之间啊,他们要干什么?他们之间我觉着就是啊,要产生很多的一个交互,交互是这种感觉,就是他们啊,嗯,他可能说这个交互这东西是不是我们自己预先设置好的呢?其实我觉着就是你要去真办事, 真做一些实际的事。就是啊,要设置好,要设置啥意思?产品经理他就是跟程序员和架构师啊,以及你们客户之间产生一些交流, 然后这是产品经理他要去跟谁去做?他可能是先跟客户交流,然后再跟架构师交流,然后再跟程序员交流啊,这个产品经理他是有一个顺序的,我们自己设置好的顺序是什么?然后程序员呢?他不要跟客户去交流,他只跟产品经理去交流就好了。所以说就是啊,我觉得这个东西啊,多事能提,是得咱们自己设置好,但这件事 是不是一个必须的呢?也不是必须的,也可以让他们自己玩,就是你可以把这个智能体啊放,就是放进去之后你就不管了,反正就是你觉得他要不要交互啊?让大模型自己去思考,比如说大模型思考的时候为他加上一个提示, 通过你现在感知到的,你记到已有的信息,以及你面带着一个使命,你觉着接下来应该跟谁去做一些交互,跟谁去做一些讨论,能得到更多有价值的信息。 哎,你看我加上这样一个提示,他是不是就会在这智能体上去找,哎,跟我记忆当中,哎,我觉得谁好,我觉得谁合适,他可以自己去玩的。就现在比如说什么赛夫 ai 小 镇啊,什么 ai 烫之类的,好多这些多智能的东西,都是让他们自己去玩, 他们自己去玩的过程当中,其实,嗯,有一件事比较麻烦,就是他们需要通过大量的迭代, 长时间才会形成一种很好的记忆,怎么解决问题的一个方案,就相当于啊,就是比如说一个产品经理,他不知道干什么,他是不是得去总结几次,他是不是去把这个,把这个游戏玩几遍才能擅长啊?但这个东西就是咋说呢?就价格是非常贵的,而且你这个 agent 每次都要全要玩这么多事,那这个成本也太高了。所以说现在啊,这些个 我们使用的过程当中,我觉得多重体啊,是达不到啊,就让他们自己玩的一个水平的。虽然说有很多就例子给你演示能自己玩,但演示什么演示都是游戏,都是一些虚拟场景当中,他们去做一些交互,但是在一些实际任务当中, 我现在目前看到的就是失败的案例咱不说了,所有的成功的案例都是预先设置好的,而且要明确的是设置好每个整体角色是什么,他可以跟谁做交互,他只能完成哪些个事,他要做什么,不要做什么,都要去设置好啊,这就是一个多智能体。其实这个事并不难,就是角色比较多了,这 角色之间他们可以互相共用一些信息,互相去传递一些信息啊这样一件事。然后呢,我还要说一说啊,就是现在我们要用一些跟框架相关的东西啊,那框架这个东西 该怎么去理解呢?其实啊,就是大家咱们自己做事的时候啊,就是更多的时候我们是用人家的现成的。那我给他举个例子啊,就人家现成这些框架啊,比如说 auto gpt 啊,什么什么各种 gps 之类的啊,现在框架 我跟大家这么说吧,就现在这个框架我我先简单多啰嗦两句啊,就框架好像用的比较多,给我整体的感觉就是大同小异,就是都是你说它好吧, 反正这块儿缺点东西,你说那个好吧,那块儿缺点东西还真没有一个,就完全意义上我觉得非常好的,但是下期大家用的最多的就还是这个 auto gbt, 或者是这个呃,美塔 gbt 之类的这些就 guitar star 数是比较比较多的,而且就是大家用起来相对来说也是比较容易的,后续我们也会给大家去讲啊, 但是我给大家说一说感受,就是你不要觉得现在这些个开源项目这些框架哇,他就无敌了,他就是个 a 领,能解决的问题是很多的,即便现在就最强的做最好这些框架,我跟大家说一句实话,就是他能解决问题非常局限,他能把这件事做出来的可能性非常低。 就是说 a 领这个东西他还在一个发展的状态当中,他还是持续的迭代和更新的,他现在想让你去真的就是自动化的完成的东西,大概率得到的结果是不那么尽如人意的, 这一点我希望大家清楚。他还能说是不是因为涛老师你讲的不行,这玩意跟我讲也没关系,这东西就是现在啊,人家做的什么东西,我们没能力自己去开发你的基作模型,也没能力去设计一些底层的架构,底层的工具去调用啊,就要用这些动作,然后怎么去处理这些记忆, 这东西其实都不是我们去做的,我们是作为一个使用者,怎么在人家的框架基础上啊?比如说新创建一个角色,新创建一种动作,添加一个 api 应用方式,我们是在人家基础上做一些增删改查的,但是现在说心里话没有一个框架我觉得真的是能满意的,真是要用起来的,无论是就是付费的也有啊,付费的那玩意儿 我用了,我选了几家,我本来想讲的,但是我不说哪不说哪一家了啊,就是用起来就这个免费的,就跟这个开源的我觉着没啥太大的区别,所以说框架啊,嗯,咱们就这么说吧, 对我们来说就是个学习,理解他们任务当中的一个流程,熟悉他,哎,是怎么定义的,逻辑上怎么去做的,好让我们知道 a j 的 整体的框架,咱们从一个输入到我一个输出,它具体流程怎么走啊?咱们理解这些个事儿,我觉得赞成足够了,为什么?因为我觉得工具这个东西啊, ai 这里面现在更新换代的非常非常快,你现在就是即便你把这个 auto gbt 没改, gbt 你 熟练掌握了,可能用了半年,一个新的框架又出来了,一个新的框架可能又是一个颠覆性的超越,又完全碾压了前面这些框架。这些事是都有可能的,因为我每天都在看新闻,每天有都有朋友问我老师新出的框架,我要学,新出的东西我要看, ok, 我 的感觉我都快麻木了,就是框架实在太多了,咱们去理解去用就行啊,但是我估计后续肯定这玩意早晚都会被更新换代,早晚都会被替代掉的啊。然后我们来说一说框架当中啊,它其实这些东西啊,它帮我们实现了什么?这个东西啊,就是无论你用哪个框架,咱们都少不了一个东西,就是你得有这个 key, 咱们都得有这个 key 才是可以的。什么叫做一个 key 呢?我给大家举个例子,就是我们要调用一些基作模型,是不是啊?就是你要调用基作模型,这都不用想了,一般情况下就是 g、 b、 d 四啊,这个是最好的,基本上现在所有的这些框架都是要不三点五,要不就是四,反正就是 token 的 价格有点区别。 那这边他可能说我换别的行不行,换别的还真不行,就是我我自己没尝试啊,但是我问了几个哥们,他们搞这个本地化的一些自由 agent 啊,他们他们他们给我的反馈就是这件事真不行,你本地自己去按摩行,即便是在自己专业领域当中,他的这些能力其实是本身具备的,你可以这么理解, 不是,我是让啊,这个大模型做专门的一个医疗领域,做专门的一个什么法律,什么金融领域啊,就是个领域,我这个数据都喂他了,但是他还是做不好,为什么?因为感知、思考、动作,还有记忆这些个能力,是在这个大模型训练的时候他的一些基础能力,而不是说他下游应用的一些能力。他如果说你的模型都不具, 最近很多同学也发现了一个方向,多智能体非常适合做跨结构交叉,是不是真的是无论你做什么的,就算你是学艺术的,你是学文学的,你照样能上,照样能给 ai 机会,是不是?哎,那可能会说了,就是多注意这个方向啊,我想结合我的 任务去做,那我该就用什么样的框架去搭呢?这也我给大家推荐几个吧,可能大家说的最多的就是当下这个框架,但是我觉得当下这个框架动手的难度 相对来说有点高,你不是从家出身啊,要学东西太多太多了。我给大家推荐两个框架吧,我觉得就是五 g 的 门槛并这么高,一方面来说可以开箱即用,这一方面来说呢,也是非常适合做自己的事,自己用逻辑的。第一款就是国产框架,叫微感真皮, 微感真皮,然后呢,你可以点开箱搜一搜,这个框架我用过,我觉得蛮简单的,它的接口,它的文档,且非常详细,比较适合小白开箱即用,去做自己的事。第二就是微感的凹凸之音,哎,我觉得凹凸之音用起来也挺浅, 便捷方便的,而且还持续的质量更新,这样的报价可以优先考虑如何做多生体,看看软件的例子,再把你作业要做的少,通过你的例子做一个改写,从而完成你自己的实验。

如果你认为大模型仅仅是聊天和答题,那可能你对 ai 的 认知还停留在 ai 一 点零时代。谷歌专家 and tony 古力的星座突破传统仅聚焦于语言生成的局限, 提出了覆盖决策执行、环境交互及多智能体协助的全景化设计模式,引导读者从零开始搭建具备高度自主性与环境适应能力的智能体系统。作者将 a i a 帧的设计模式进行了系统化的梳理,包含了设计领域的二十一种常见模式链路,由并行化反思、工具 使用规划、多智能体协助记忆管理等内容,并配有可运行的视力代码与配图说明,以及大量融合前沿研究与真实场景的案例, 既为研究者提供理论灵感和结构化的设计思路,也为开发者准备了扎实的工具与实现方案,适合不同背景的读者深入理解和实践,堪称一本融合学术严谨性与工程实用性的指南。感兴趣的小伙伴。