最近呢,打开 boss 直聘猎聘,你有没有发现一个新变化啊,就除了加法后端的工程师,突然冒出来一个新的岗位,像一些像 ai 证的开发工程师,智能体呢,系统工程师,大模型呢,应用架构模式, 像这些大厂,阿里,腾讯,字节,包括呢,京东都在那抢这类,有些呢,芯子呢,能开到四十 k 以上都要求呢,有 a 证的开发经验, 很多人呢就慌了,这到底是啥岗位呢?我一个做后端的,我还能上车吗?大家呢,别被名字所吓到啊, a n 的 a 证的开发工程师啊,说白了就是呢,会造 a n 智能企的人, 以前呢,我们写代码服务人,现在呢,我们写代码让 a n 呢服务人。那具体呢,要学什么东西呢?作为呢,在大厂也落地过一两个 a 证的项目的工程师,我给你呢拆解一下啊,全是呢能直接用的干货啊。 第一块呢就是大模型的基础啊,这是地基,当你不需要去深耕钻研什么 transform 这个推导,但是呢,你必须呢掌握三个核心的能力。第一个呢就是提示词工程, promote 工程能力,怎么写指令呢?让 ai 呢?不胡说啊。 第二个呢就是 i 减缩增强神程,怎么让它呢,能够查你的数据库,你的知识库,而不是呢瞎编。第三个呢就是方程扣函数呢,调用啊, 怎么让 ai 呢,能够主动调用你的 api, 比如说查订单啊,发短信啊,能 pos 扣啊啊,这些不是玄学啊,呃,是 a 证它能干活的前提。 第二个呢就是 agent 的 一些框架,但这也是一个主。呃,目前呢,主流呢,其实就两个,第一个呢是 longchange, 第二个呢就是 lamb index 它们呢帮你呢能快速搭搭建呢,就像思考行动反思的智能题的一些流程嘛, 重点呢,不是死磕原码,而是呢,学会用托注册外部的一些能力,就比如能够连接 master, 要一些支付一些接口用 memory 呢管理呢对话的上下文嘛?再比如说呢,用 plan extract 拆解呢复杂的一些任务, 比如呢,像帮我分析一下上个月的订单的销量,然后呢拆成查数据啊,画图啊,写结龙等等等等这些啊。但第三块也是大厂呢,就是最看重的一块能力,就是有没有一种工程化的能力,当然这也是护城河啊, 大厂里呢,肯定不会要只会跑戴帽的人啊,你要你要能把它塞进呢生产系统,同时呢要能够扛住呢高病发,保障呢系统的稳定性。就比如啊,用 spring boot 加 dok 能把 agent 呢封装成微服务啊, 再用 radis 呢缓冲呢历史对话对吧,降低呢 a n 呢,半夜把第三方的 a p n 啊打崩掉啊。 同时呢,还有一套监控的策略监控呢, gp 九九的延迟啊,包括掏空的消耗啊,对吧,错误率像管道啊,像管理像普通服务呢一样呢去管理它啊。 所以呢,大家一定要记住啊,大厂招的不是会会调用呢拆拆的 g p 的 人啊,而是呢,能把 ai 呢做成可靠产品的人,对吧? 如果你现在是一个三到五年的 java 后端或者全栈的工程师啊,或者呢是一个想从算法转向呢落地的工程师,其实我觉得啊,现在呢,其实就是比较好的一个窗口期, 我觉得呢,你不用从零呢开始学 ai 啊,只需要呢把你已有的工程能力啊叠加一层呢 a 正的一个思维, 未来五年呢都啊不会被淘汰的程序员。其实呢,他不是说写代码写程序最多的人,而是呢最会指挥呢 ai 干活的人。谢谢大家,我是呢青铜老徐。
粉丝4061获赞1.8万

今天这份 j d, 我 直接帮你们扒干净岗位,叫 ai 应用工程师。你别被那一堆 rag agent、 prompt、 context engineering 这些词糊住,我先给你讲结论,这不是在招工程师,这是在招一个 ai 全能打工人加试验田负责人。 先说第一点,为什么这份 j d 写这么长这么全?因为公司自己也没想清楚他们写什么。从零到一,做原型,搭 r a g, 做 prompt, cool, 搞 agent, 做培训跟模型,你看着是不是很全面?我帮你翻译一下。公司现在没有成熟 ai 体系,也没有技术负责人, 他们想找一个人把这摊子事从零接起来,所以怎么办?把所有可能用到的技能全写上,赌一个什么都会一点的人。这种 j d 的 本质就是四个字,需求混乱。 第二点,这家公司真正想要你干嘛?我们逐条翻译,快速构建 ai 应用原型业务,天天来提需求,你自己接,自己做,自己扛, 从零到一,开发并移交工程化脏活你干,成果别人接,你基本没机会深耕,为业务团队提供培训,你不仅写代码,还得当讲师,客服、售后 跟踪、最新模型能力,没人给你方向,你自己试错,公司不背锅。总结一句话,他们要的不是工程师,是一个能自己打仗的 ai 项目部。第三点,你来了之后,真正必须干成的三件事是什么? 记住,不是 j d 写的那些花活,是你活不活得下去的核心。第一,你必须能独立搭一个完整的 r a g 系统,从数据清洗向量化剪辑到生成全链路,你得能跑通。第二, 你必须能用 devi 或 n 八 n 把 ai 流程自动化,公司不要 demo, 要能跑的东西。第三,你必须会算成本,不是技术问题,是钱的问题。什么时候用 gpt 四什么时候用便宜模型。你要自己判断一句话,花最少的钱,做最像样的效果。 第四点,我把这些黑话直接翻译给你听。 rag 知识库系统,做个能回答公司内部问题的机器人 context engineer, 想办法省钱,还别让 ai 太蠢。 prompt 库,写一堆模板,让业务复制粘贴,用 ai agent 工作流,用工具把多个 ai 步骤串起来自动干活。别再觉得这些词高级了,本质全是执行活。 最后我给你一句实话,这份工作适合什么人?喜欢折腾,不怕杂活,能自学能自驱能抗压的人,你会很快成长,但也会很累。

什么是 ng 的 开发? ng 的 开发工程师到底火到什么程度?今天一条视频给你说明白。 ng 的 开发岗位缺口非常大,现在属于行业爆发的早期, 你简历上只要有 ng 的 相关的项目和技术,只要你去投约面试的让你忙不过来,而且薪资呢,基本上都是二十 k 起步。 我们的 ai 大 模型像豆包、 deepsea, 就 像大脑一样,而 agent 的 开发呢,就像我们的手和脚一样,大模型负责思考,而 agent 负责执行。你可以问大模型一些攻略, agent 智能体帮你直接买票做规划。 ng 的 开发在工作中的主要任务是组建设计系统,编排 ng 的 后端服务与工程化大语言模型训练,还有 ng 的 自动化数据流以及项目数据微调等等。成为 ng 的 开发需要具备 python、 ai coding, ragu engine, sfc 微调和强化学习。 现在无论是大厂、中厂还是小公司等众多行业提供了巨大岗位, a 的 开发的这些前景整体偏高,新方向、多门槛适中、偏工程和落地。所以 ai 发展这么快,不要焦虑了,机会还是很多的,赶紧行动吧!

agent 从屁都不懂到成功转行,我是怎么做到的?首先你要做的第一件事就是把网上那些杂乱无章的课程丢掉,按这个框架制定一个学习计划,只要你是真心想学,不是三分钟热度,只用一个月就能从零基础小白进阶成能落地的 agent 工程师。重点学习基础架构工具调用、上下文记忆 以及多 agent 系统。第一周,打基础,想啃透 agent 的 核心理论,搞懂核心组建,了解 react 模式,学习 agent 的 自主规划思考, 并且简单地寄予 agent 和 s d k, 构建你的第一个 agent 的 应用。第二周,进阶学习工具调用,搞清楚 fan to name skills m c p, 并且掌握封装的能力。第三周,吃厚上下文和记忆模块,结合 reg 知识库,让 agent 才生成更精准的答案。第四周,拓展学习 do agent 的 系统。 agent 是 现在大模型应用的风口方向, 能够自主去感知环境并执行任务,了解多智能体写作的逻辑,掌握 prumps 调优技巧,让你的 agent 更精准地输出你想要的结果。最后,我把大模型知识点系统呢整理成了学习路线和视频教程,留下学习,双手奉唱。

强烈不介意,学完 python 和 python 之后,我直接就开始 a 整了,这种小伙伴说白了就像空中楼阁一样,所有的 ai 在 你的眼里都是黑箱,你只能是掉一边,别的什么也干不了。这样的小伙伴,其实来讲,你的天花板是比较低的。小 赵是强烈建议你在两周到四周里, python 和 python 那 些操作语法最主要的内容学完,学完之后,剩下的内容其实都是在做项目的过程中呢,不断地去升华,不断地熟练。 第二步直接就可以切入到深度学习。有很多小伙伴之前也问的就是传统机器学习需要学多少,我个人觉得啊,逻辑回归、决策树、随机森林,他这一步都把这几个工业界还在用,同时能让你 掌握一些算法和模型里面的基础的相关知识,有这么一个概念,学一学就行了,迅速切换到深度学习,因为这才是当今工业界的主流。深度学习里边,说白了 c n 呐, r n l t m 就是 快速的过一下,跑一跑代码,不需要花太多的时间。 这块搞定之后,第三块一定要跑一到两个小 demo 的 项目。什么意思?就比如说你把一些垂类的数据在 bot 上也好, t 五上也好,就这种小模型上,你全流程的训练一波,微调一波,优化一波,你就知道了,原来训练模型是这个样子。 有了这么一些经验之后,第四块直接你就可以切换到大模型领域,因为这是当今工业界的主流。但是我个人依然认为,小模型有小模型的价值,大模型有大模型的价值,不要在所有的业务场景里无脑的上大模型, 大模型终究来讲耗资源大,它运行慢。那么大模型这块主要学什么?大?主要除了少量走高大上路线这个小伙伴,他去学底层的算法,搞基,做预训练模型。剩下的小伙伴主要来讲学架构, 比如说大模型的 dance 架构,大模型的 m o, e 架构,大模型内部的一些黑科技。再有一个就是大模型的微调一定要会。小赵是建议,不仅仅进行 s f, t 的 阶段,一定要争取把自己的技术栈扩展到强化学习阶段啊,也就是 r, l, h, f 的 阶段,不管是 revolve, model, p, p, o, d, p, o, j, r, p o 这些东西都要上。 搞定了之后,最好在一个全流程的领域里把这三阶段的训练走一圈。大模型的根底你就很扎实了,有前面的做基础, 你现在是一个有非常深厚内功的所谓的 agent 工程师了,我们就可以切换到 agent。 第五块,切 agent 一定要切 launch and long graph, 这个框架, 一定要全流程的搭自己的 r, a, j, 把这个东西给跑起来,有自己全流程优化的一个经验,这个很重要。 agent 搞定之后,第六块,小赵是觉得就可以继续地去做项目,不管是大模型的项目, agent 的 项目能够真正地落地,写到简历上,所谓的就业,那就是一马平川,千万不要左一头右一头地来回跑。

kimi 啊, deepsea 啊,就是一些顶尖的公司,他招那种 agent 的 工程师就基本上四十到七十,当然这是顶尖的水平,市面上的水平现在整体而言也非常的高,但最关键的就是 agent 的 这块,这个开发 明显是一个需求量非常非常大班里的学生现在来讲,说句大实话啊,就是即使把这些研究生海归九八五二幺幺都算上,走 agent 的 这个方向的学生大概能占到百分之八十以上,剩下的百分之二十 走所谓的一些什么大模型啊,算法呀。但是我仔细统计过,能走大模型算法那几个的,要么就是海外回来的也都是好学校,要么就是国内的这种九八五背景的,不是这种背景的 只能走 agent。 而且呢,现在只要是你在简历上有非常好的这种 agent 的 开发商,当然了,辅助一些你对于大模型的一些理解,那你这个简历投出就呼呼的喊面试,当然有的学生比如说他在这个面试的过程中吧,他也得打磨一些面试的技巧啊。网上也有那种学生直接来找我 整一些什么所谓的什么简历面试辅导,我一看那个那个简历写的,后来我说你为什么来找我,他都不是说面试面,不过他就简历投出去石沉大海,根本就不知道自己问题出在哪。你一看那个简历写的就全都是传统技术战,你没有这种非常好的学历背景的加持,或者说你之前那个公司就是好公司, 对吧?你平行跳一下,没有这两点的话,就是那种传统技术站投出去没人理,但是你只要是你的这个简历里边体现出跟 ai 的 一个联系,尤其是现在在 a 诊的这块市场真的特别火。

ai 圈啊,最近又冒出了一个热门新词儿, harness engineering。 但先不用被这个词儿唬到啊,六分钟带你搞懂!二零二六年初, lincoln 团队做了一个实验,用同一个 ai 模型跑变成任务,什么都不换,只改模型外面的那套运行机制,结果排名啊,从前三十名冲进了前五名。 模型外部的这套系统设计叫做 harness。 harness 本身是马具的意思,想像你雇立匹马来干活儿,它跑得快,力气大,但不知道目的地在哪儿,也不知道哪条路能走。如果把它放出去,它可能跑得很猛,但也可能跑偏、踩回东西,甚至冲到危险进去。那真正让它变得有用的啊,是将绳、马鞍、脚子这些装备,也就是 harness 这套东西啊,不是在宣扬马的力量,而是在约束、引导和放大它的价值。 ai agent 呢,也是一样, ai agent 等于模型加 harness, 也就是说, harness 是 ai agent 里除模型以外的一切,包括系统、提示词、工具、记忆、系统、沙箱、编排、逻辑、中间件等等。 你可以把模型理解成那匹马,把 harness 理解成外面的驾驭系统。所以 harness engineering 就是 给 ai 设计一个合适的工作环境,让它更稳定、更靠谱的做事。以前我们用 ai 啊,大多数时候是问一个问题,得到一段答案,答错了影响不大,你不采纳就行。 所以在那个阶段,大家最关心的是怎么把话说清楚,也就是怎么写提示词,才能让 ai 更好理解你的意思,回答得更准确。这就是为什么前几年 prompt engineering 会那么火,但现在越来越多 ai 工具已经不只是聊天机器人了,他们开始能读文件、改代码、运行命令、操作网页。 一旦 ai 开始真正动手,你关心的就不再是他聪不聪明,而是他能看到什么,能调动什么,跑偏了怎么回来,出岔子了怎么收拾。也就是说,问题已经不再是怎么把要求说清楚,而是怎么把干活的环境打好。所以 prompt engineering 是 教 ai 怎么说话, harness engineering 是 设计 ai 怎么干活。 harness engineering 的 核心思维方式是想让 agent 做到什么,就在 harness 里设计实现什么机制。我们可以通过几个具体例子来进行理解, 例子一,告诉 ai 能做什么,不能做什么。 ai 每次开始工作前,需要先读一份规矩文件,在 cloud code 里,这个文件叫 cloud 点 md, 在 openai 的 code x 里叫 agents 点 md。 目的啊,都是告诉 ai 在 这个项目里应该怎么做事。 你可以把它理解成公司给新员工的入职须知,比如哪个柜子不能随便开,哪些事要跟主管先说一声,哪些操作做完要记得通知同事。具体来说啊,这份文件里可能会包含这些内容。第一类是禁区,比如某个配置目录下的文件不能直接动,要改就得走审批流程。第二类是操作规范, 比如提交代码之前不能跳过系统的自动检查,不能直接把代码推到主分支上。第三类是边界说明,比如用户让改哪就改哪,不要自作主张优化别的地方。 四类是验证要求,比如改完代码之后,必须说清楚怎么确认过这是对的。第三,给对信息,而不是给全信息。很多人会觉得 ai 知道的越多越好,于是把各种文档资料一股脑塞进去。 但你会发现啊,效果可能适得其反, a r 反而更容易混乱。他可能把不相关的内容揉进来,把故事的信息当成现在的重点,把不同场景的话术混在一起。所以啊,好的 harness 不是 一味地给 ai 更多信息,而是在当前这一步,给他最需要的信息。这个道理同样适用于长期记忆,重要的不是记得多,而是什么该记,什么该忘,什么该压缩。 coscode 的 设计里啊,就有一个很典型的体现,它把项目里的文件分层加载。最外层是管理员级的统一规范,适用于所有的项目。第二层是用户级的规范,也就是个人的偏好设置。第三层啊,是项目团队共用的规范,最内层是本地私有的临时说明,越靠近当前幕的文件,一屋兼及越高,在上架文中被加载得越晚。 因为模型啊,会更关注后面出现内容。所以 ai 的 记忆相比于仓库,更像是一个工作台,台面上放什么啊,是需要设计的, 堆的越多反而越乱。例子三,给合适的工具,而不是开放所有权限。 ai 掌握的工具越多,能力就越强,但相应的风险也越大。比如让 ai 帮你整理文件,如果它只能读取文件名,最多啊,是建议不靠谱,但如果你给了它删除移动批量重命名的权限,一 旦理解错规则,可能把你辛苦整理的文件全部打乱。那么好的 harness engineering 会考虑到,这个任务里它需要哪些工具,哪些权限该给,哪些权限不该给。一个很典型的例子啊,是 bash, 也就是直接在终端运行命令的能力。 hack 几乎什么都能做,删文件、改配置、推代码等等,还能绕过对其他工具的限制。所以在 cloud code 的 设计里, bash 被当做最需要警惕的工具,不仅在权限层面做了更严格的限制,还专门提供了操作系统级别的纱窗隔离来防止越界。例子四, 把复杂任务变成一条流水线很多人啊,都希望找到一句万能提示词,发给 ai 后,复杂任务就全搞定。但现实里,复杂任务往往不是靠一句话解决的,而是靠流程。好的 hartis 会在系统层面内置流程编排,让 ai 像流水线一样分工推进,而不是把所有事情塞进一个脑子里。比如 cloud code 遇到足够复杂的任务时,主 a 阵的会把任务拆成多个子任务, 委派给不同的子 a 阵的分头执行。每个子 a 阵的在自己独立的上下文里专注完成一件事,做完后只把最终结果交回主 a 阵的汇总,中间的探索、搜索、试错全部留在子 a 阵内部,不会污染主对话。这种拆分和协调机制啊,是 harness 在 系统层面提供的, 用户呢,不需要自己手动编排每一步。例子五,独立验证,不让 ai 既当运动员又当裁判 ai 最大的问题之一不是不会输出,而是特别容易输出,看起来像对的东西。更麻烦的是,如果让 ai 自己做,自己检查,自己告知完成,他往往会非常自信地告诉你没问题。因为我们天然啊,都倾向于相信自己的输出,所以实现和验证必须分开。 through clock code 的 多 a 制的模式里, implementation worker 负责写代码, verification worker 负责独立证明代码能正常工作。这个负责验证的角色必须实际运行。测试遇到报错必须追查, 不能以错误应该和我改的地方无关为由挑过。那同一个 ai 分 阶段扮演不同角色也能做到这一点?不一定非要多个模型,关键啊是验证环节必须独立。例子六,设计好出错之后怎么办?没有百分百不出错的 ai 系统,可靠的系统啊,不是假装不出错,而 而是提前设计好出错之后怎么恢复。比如 cloud code 有 很多恢复方案,上架文太长了怎么办?系统不会直接报错,而是先清理旧内容,保留关键信息不够就把对话压缩成摘要。输出被截断了怎么办? 直接追加一条指令,从截断的地方继续输出用户,中途打断了怎么办?系统啊,会先把发出去但还没收到结果的工具调用进行收尾,确保有始有终,不留烂摊子。所以,如果模型是马, harness 就是 让他真正抛下的那套装备。 harness and engineering 研究的 就是怎么把这套装备设计好,比如给他的信息够不够精准,工具和权限开的合不合适,复杂任务有没有拆成流程,结果有没有验证,出错了?有没有恢复机制?所以下次你看到某个 ai 产品能力惊人时,别致感叹模型有多强了,因为他背后的 harness 可能才是真正的幕后英雄。如果这个视频对你有帮助,也欢迎点赞收藏,我们下个视频见。

最近市面上有非常多的 ai 工具,比如说 ermus agent, cloud managed agent, cloud code codex cursor, open cloud lanqing lan graph。 那 么对于普通人而言,怎么样去选择对应的工具来做我们的开发助手呢?今天就来和大家聊一聊这个问题。 首先为了让大家更好地去理解如何选择,我想先和大家聊一下我自己总结的 ai 的 七层架构。 首先在最底层呢,有我们的 model, 那 比较出名的也就是 openai 底下的 g p d 五点四和 anthropomorphic 底下的 cloud open 四点六。 model 呢,是所有事情的核心,也是我们的大脑, 那它本质上就是一个推理的工具,你给他一个输入,他就可以通过推理给你一个相对应的输出, 那么工具永远是工具,需要有一个人去调用它,所以与 l 零对应的就有我们的 l e primitive。 最早期的 chart g p t。 作为一个例子,这个时候呢,其实我们和 ai 的 交互方式大多是你问我答的方式,我给他一个输入,他会思考一阵,然后就告诉我一个输出, 那这也就是最早期的这种无状态原子调用的方式。或者说在现在呢,如果说你就是直接给 ai 发一个 api, 那 其实也是这种方式。 但是在这个阶段呢,其实我们还没有到达 agent 的 门槛,因为 agent 是 需要帮我们去完成一个固定的任务的,而不是执行一个单词对话。所以呢,到 l two 这里,我们就有了最早期的这一些 agents。 这些 agents 的 目标呢,并不是解答你当前的问题,而是根据你给他的指示,尝试去帮你完成一个任务, 所以说呢,它可以有一些外在的工具,它可以去调用这些工具执行这些工具,它可以去把一个任务拆分成多部,并且通过串行或者并行的方式去达到它最终想要实现的这个目的。 那可以看到在 l two 这里呢,我其实还分了 a 和 b, a 就是 我们现在熟知的一些 call code, codic, c, o, i, cursor 之类的工具。那么 b 呢,其实是这些工具为自己家的系统做的一些拓展,比如说 cloud md 和 call hooks, 那这些东西其实都会对于我们的 cloud code 有 一定的限制能力和一定的增强效果,但是它们是依附于这个工具而存在的。如果你把 cloud 点 m d 这个东西放到 codex 里面,那其实它就是一个废文件,没有任何的用。同理 cursor rules 呢,其实也是去增强了这个 cursor 这个工具。 那到这里为止呢,其实我们就有了一个初步的 agent, 但是我们依旧有问题,如果 agent 在 执行任务的过程中,在某一步失败了,这个时候我们应该如何去处理呢? 如果说没有底下的 l 三、 l 四、 l 五,那其实最简单的处理方式就是我们会尝试去重头做一遍,但是第一这个肯定是不高效的, 第二呢,这可能会有一些不好的负面效果。打一个比方,如果在执行任务的过程中,我需要在腾讯云上面去创建一个资源, 然后呢,我发现这次任务调度失败了,我就从头来过,我就又新建了一个资源,那这个时候呢,其实我就有多余的资源被建出来了,我需要同时去为几个资源买单,一定是不合理的,所以解决这个的方式呢,就是我们需要去引入一些状态机的概念, 来记录说我们当前已经做到了哪一步。这样子,当我们发现有任务失败的时候,我们只需要从最新的节点去做就好了,这里呢就会有我们的 l 三和 l 四。 先聊一下这个 l 三, l 三解决这个问题的方式呢,就比较简单,它给了你框架,告诉你说只要你使用我的框架,你就可以非常快的把一些 look 的 概念和一些状态机的概念都加到你自己的 agent 中。 但是前提是你需要自己去写这一部分的代码,且你需要自己去实现你的运行时,那 l 四相比 l 三呢,其实就更加的干脆了。代表人物就是这个 openclaw 和我们的 hermes agent, 你 其实不需要去写任何一行代码, 你只需要去把这个东西安装下来,在本地跑一下就可以了,它自动呢就帮你实现了多一整编排持久化,以及这些状态机的所有东西。 到这一步为止呢,其实 agent 能力已经非常强了,但依旧有一个痛点,就是这个东西需要我们自己部署在我们自己的机子上。 如果大家记得的话,前段时间其实 mac mini 的 价格是疯涨的,原因就是因为当 open cloud 这样子的工具出来之后,大家都想要去有一个可以部署的地方。 那我之前其实也反复地提到过,因为像 open cloud 这样的工具在安全性上不是非常的可靠,所以呢,大家又不想要在自己已有的电脑上去部署,那就会出现这种疯狂去买 mac mini 的 热潮,那么 cloud manage 的 agents 出现呢?其实从某种程度上就解决了这个问题。 你现在也不用自己去部署了,所有的东西呢,都会在 anthropic 的 云端跑,你只需要去告诉这个 agent 它需要去解决什么,任务其实就完成了, 那么最终在所有东西之上呢,其实就是我们的 application。 那 这就是我自己总结出来的七层架构。接下来我会再和大家聊一下,我们怎么去选择最适合我们的层级,以及在这个层级中怎么去选择最适合我们的工具。下期见。

大家好,我是学了两年半大模型,把 a 证从啥都不懂得精通,我是怎么做到的?首先你要做的第一件事就是把网上那些杂乱无章的课程丢掉,真的想学就按文达大佬这个学习路线走, 只要你不是三分钟热度,一个月的时间就能从小白心结成 a 证的工程师。建议先收藏,避免以后想学找不到,让你少走弯路。 第一周,打基础,先从 control a 阵子核心理论搞懂核心组建,吃透大语言模型的规划模块、记忆模块和工具,以及这些基础概念。第二周,专攻 a 阵子工作原理和难点解决方案,拓展学习锐克 靠等经典 a 这样的范式。第三周,生化学习了解读整体系做的逻辑,再学习 prom 调优技巧,让你的 a 站更精准的理解你想要的结果。第四周,操练实战,结合前面所学知识,自己动手完成几个小项目,你就能真正把技术切入实际,业务 生之掌心不在话下。如果你看到这里还不知道从何开始,小队这里整理了大魔性 a 站学习路线以及配套视频教程与 pdf 实战项目,需要的留个学习,我将无偿双手奉上。

嗨,伙伴们,最近老有人问我,我不是程序员,能不能成为 engine 工程师?我的答案是,能,而且会比程序员更容易,而且会有可能会做得更好。为啥?因为 ai engine 这玩意核心不是写代码,而是要求你会指挥这些 engine 去干活。 程序员很容易陷入到自己写的那个思维状态里面,反而是那些不懂代码的人,更容易 把 ai 当成是同事来指挥和使用。今天我们就来聊一聊普通人如何成为一个 engine 工程师。我总结了一套三步走的做法,现在分享给大家。 第一步,别从写代码开始,而是先从需求开始。很多人的第一误区是,我要学习 engine, 得先学 python, 得先搭建好具体的环境。其实是错了, engine 的 本质是帮你干活的人。 比如说你雇了一个实习生,你会先让他去学习编程语言吗?其实是不会的,你会先告诉他,你帮我做这件事,那件事。那所以第一步呢,是把你日常的工作拆成可被安置执行的任务。 举个例子,每周你要整理会议纪要,以前是你自己录音写总结,现在你可以拆成 一交给 ai 来将录音转成文字。二、用 ai 提取关键的决策信息。 三、用 ai 来将这些决策信息呢生成代办事项。第四,你再通过人工的方式审查一遍这些代办事项的合理过程,拆完了你才知道你的实习生是需要干什么具体的活。 那这里有个建议,就是你现在可以拿出一张纸,写下你每周重复要做的五件事,然后问自己哪些可以让 ai 帮我做。 第二步,选对工具,从那些开箱即用的工具里面开始着手,不要一上来就去搞那种像 opencloud 啊, defi 这种需要去私有化部署的这种呃 engine, 比如说有一个很好的工具,就是字节出品的扣子,它的中文非常友好,而且模板非常多,非常适合像做客服啊,内容生成啊,以及做一些简单的任务,通过拖拖拽拽就能够生成一个 boat。 所以 我的建议是从扣子开始花一个周末搭一个 boat, 比如说帮我查查天气,帮我整理一下上周的周报,帮我规划一下 行程等等,等你上手了,再去考虑一些像 open cloud 这种龙虾级别自定义玩法特别多的这种呃 engine。 第三步,学会调教,而不是去编程。这是最核心的一步。普通人做 engine 不是 去写代码,而是要学会去写提示词和调参数。给 engine 定一个人设,不要说 帮我整理会议纪要,要说你是一个专业的会议纪要员,擅长从对话中提取关键决策和怠慢事项。现在给你一段会议录英文字, 巴拉巴拉巴拉给 angel 示范,你可以给他一个你觉得满意的输出让利说以后都按照这个格式来给 angel 反馈 他干的好不好。不要说不对,这里要说这里不对,应该是怎么样子?下次请注意,很多 engine 工具支持记忆的功能,你教他了一次,他下次就会记住了。 你把 engine 当成是一个实习生来带,你不会去骂实习生,你怎么这么笨,对吧?你会告诉他这个应该怎么做?其实对 ai engine 工程师就做三件事, 第一件事,把现有的工作拆成一小一块可执行的任务。第二件事,选一个开箱即用的工具,比如说扣子,从搭建简单的工作流开始。 第三件事,像带实习生一样去调教这个 engine。 所以 别怕,你不是在学习编程,而是在学习怎么样成为一个老板。今天的分享就是这些,明天见。

很多人觉得 ai 不好用,是模型不行。放心,无论是啥模型,都比你我的智商要高。问题是出在你一边想让它像员工一样干活,一边又把它当聊天对象在用。我现在每次新建一个 ai agent, 都会默认先发五份文件, 不是为了满足我也想拥有一个听之任之的牛马的幻想,而是新 ai agent 就 像一个刚入职的清华员工,光有智商但不知道要干什么,所以第一份文件叫 user md。 如果 ai 连帮谁都搞不清楚,他不知道我的语言片号,不知道我的输出片号,不知道我真的想让他承担什么角色。那越努力越容易帮倒忙,所以先别着急让 ai 做事。先来段自我介绍,我的经验是越详细越好,让他知道他到底是在为谁工作。然后我又发现,知道我是谁还是不够, 因为有很多长期背景、稳定规则以及明确的判断。如果每次开新的 ai a 准都要我从头再讲一遍,那我根本不是在用 ai, 而是 ai 用我。 所以 opencl 得每天更新 memory md, 让 ai 继承长期上下文,而不是每次都从零理解我。再后来,我发现更大的问题来了, ai 即使知道我是谁,也记住了我的长期背景,它还是会在关键判断上跑偏。于是我又让 opencl 猜出了 mission, md 不是 为了写愿景口号,而是把所有 ai agent 共同要服务的总目标盯死, 让它做的就不再是一个任务,而是在同一个目标下面判断每一件事。但我很快又发现,只有总目标还是太 太假大空了。 ai 可能还是不知道我当前最重要的业务在现实生活中是怎么跑的?比如说平台是什么?账号是什么?收入在哪个阶段?流程卡在哪?瓶颈是什么? 所以又有了 project overview md, 这步开始, ai 不 仅仅能够懂我,还真的开始懂我的业务。最后当这些都慢慢稳定了,我才碰到最现实的问题 以后,我还会继续建新的 ai agent, 难道每一次新建都得从头解释吗?所以才有了最后一层 agent share md, 它解决不是信息本身,而是如何让新的 ai agent 快 速上岗。这五份东西表面上看只是文档,但本质上不是。它们其实是把我和 ai 的 写作 从聊天一步步升级成系统的过程。如果你还在给 ai 重复下指令,那你其实不是在用 ai, 而是 ai 用你。你想让 ai 一 接进来就能干活,你就不能只跟他聊天。你得先让他把这五份文件给消化了,让他瞬间知道你是谁,你的业务是什么?他该如何替你工作。

当你把这些问题考虑完之后呢,接下来还有很多的概念需要让你来去解决,比如说模型呢,它只有预测和分析能力, 朋友们一定要记住这一点啊,大家不要被现在很多网上的这种自媒体博主所误导,现在很多人其实只要就是这个用过 ai 的 都在上来说 ai 相关的,这个其实是不严谨的,因为模型它本身只有预测和分析能力,它不能够真正的去自己干活, 对吧?所以呢,我们一般标准化的模式都是模型去做规划,去做这个分析,包括呢去做一些什么预测之类的,做完之后他会分析出他会输出标准的结构, 然后呢这个标准结构再给到谁?给到对应的工具啊?给到对应的工具来去调用,最后完成完完成最终的这个任务。 我举个例子大家就懂了,比如说你现在要让模型去读取你本地电脑上面的某一个文件,同学们来想啊,分析一下这个事情,模型能不能做, 它不能,为什么呢?因为模型它不能够去读取你的文件,所以呢,像我刚才说的,比如说你让豆包来分析你桌面的一个叫做和一点 m d 的 文件,然后呢续写 内容,好,你就说我这一段提示词他能不能执行,他肯定没办法做。那如果我现在问大家,你怎么样才能够让他做这件事情?这个时候其实就考虑到你的 ai agent 开发的思维了,第一步肯定是先借助模型来分析,本地来分析,接下来啊,就是如果要实现 这个功能的话,需要拆解哪几个步骤,哪几个步骤好,我举个例子啊,比如说第一步,我们先要去读取桌面文件,桌面文件,然后呢提取 桌面文件,中间就是我们说的这个合一点 md, 文件中间的核心内容好,然后呢再去分析这个文件文件内容所写的内容的一些这个 主题等等啊。再然后呢,续写模型,续写,写完之后再需要干嘛?再需要把结果写入到合一点 md, 或者叫追加到啊,追加 好,这个思路大家能不能理解?可以理解的同学在评论区扣个一,今天到的同学很多啊,所以大家跟上我的思路,我先把前面这些基础给大家讲清楚,之后呢,我们一步一步来推进。所以真正你这一条指令 在干活的时候,他是需要做这样几步,至少啊至少是这样几步。第一,读取桌面文件,这是模型发现啊,模型发现需要读取桌面文件,那这个时候模型他不具备读取的能力怎么办呢?他就需要调用 对应的 read file 的 工具,也就说我们说的这个 tool 工具,他调这个工具好,然后呢再从核心的 这个合一点 md 的 这个文件里面去读取内容,这个读取内容其实我因为我们前面已经读完了,所以它在分析文件内容的时候,这个是完全没问题的啊,分析主题包括模型续写这些其实都是模型所有的能力。 好,那么接下来再到最后一步,结果追加到合一点 md, 中间,这个时候模型不具备这个能力啊,怎么办呢?那模型这个时候它会发现需要去调用 write fail 或者叫 append fail 这个工具来完成,所以呢,真正平常大家看到的那些工具啊,它都是在模型的基础上去做了封装的。不管是你用的 openclo, 还是用的 codex, 用的 cloud code, 它其实都是在模型的基础上去做了大量的工具,读文件,写文件,执行 bash、 脚本各种,才能够真正去实现这样系统级的操作。 好,所以那么接下来我给大家抛个问题,我们问一下大家, openclaw 能不能直接操作桌面上的软件?大家觉得能的同学打一,觉得不能同学打二,觉得能的同学打一,觉得不能同学打二, 打一的同学要要拎出来编打一下啊。我前面这里说了,模型他不能够直接去做事情,他只能分析事情和规划事情,对吧?那规划完以后,谁来做工具来做? 工具来做?所以呢,你不管是 open cloud malice 还是 codex, 还是 cloud code 这些各种智能题,它其实核心有一个模型层的调度,然后呢,再去通过这些工具来完成你的文件读写,帮你写代码,帮你干嘛?都是需要去通过工具来完成的啊。所以呢,答案是二啊,不能答案是这个。 那么我们了解到这一层之后呢,我们再回头来看,我们有 read file 工具,有 append file 工具,这还只是个简单的事例,我们接下来再往后再去延伸一点。第六点是什么呢?我需要去反,就是 review 一下,或者叫呃用中文来去描述呢?其实就是我们来去检检查一下啊,检查一下这个文件 呃写的怎么样?或者这个内容续写的怎么样,你看这一步其实一样,一样是模型继续再去完成,完成这个事情啊,那如果他发现还有优化空间的话, 他可能还需要去进一步,往往前往前去提取内容,来去压缩内容,来去续写,再给他追加,所以这个时候就从从一个从前到后的恋诗调用变成了还他在不停的去反思,就跟我们去写文章一样,我写一版之后,我我来看一下写的好不好, 写的不好怎么办呢?我再优化,优化之后我再看写的好不好还是不行,再去优化再写,再优化再写,所以这个是非常符合不管是你在工作学习还是生活中最主要的一个观点呢,就是什么呢?干,中学 就是不管你要去做什么,那就大胆去干,干了之后干部干的不好,那没关系啊,回头再来去优化,优化之后继续干,再优化,继续干,再优化,这就是智能体的开发的一个核心思想,这个核心思想呢,我们把它叫做 agent up, 这个就叫 agent 的 up, 大家不要把模型开那个智能体开发想的太高深了,他其实就是通过模型不断的去尝试,不断去试错,不断去做事情,做完之后最终做到最后的一版 啊,就是这样一个模式。好,那么所以呢,我们发现这个中间虽然我今天讲的比较轻松,但是真正你要去写这个代码的话,里面很复杂,不管是从模型层的选择上面,还是在工具的调用上面,还是在工具的调度上面,都很复杂啊,那我把这些问题呢给它列出来。

有很多人问我怎么成为一个 ai agent 的 工程师,现在很多人嘴上喊我要转 ai, 结果每天干的事却是收藏一堆教程,刷一堆概念,看一堆 l m, 从入门到精通,然后继续焦虑,继续拖延,继续投简历,没回音。 但真正把工资拉上去的人,往往干的很简单,那就是跟着商业项目做出一个能跑能用能落地的 agent。 ai agent 工程师岗位今年真的属于窗口期,拉满, 你会发现公司问的越来越少,是你会不会训练模型,问的越来越多的反而是你能不能把大模型接到业务里,能不能让他自己调用工具,能不能跑流程做决策,出结果还能稳定交付, 听起来很高端对吧?但我跟你讲,我就是机械转 agent 的, 结果把 agent 这条路跑通之后,简历直接写满,最后成功入职五十 k 大 模型工作,最近还发了五个月的年终奖。很多友友私聊我问, agent 的 基础一般能做吗?要学多久?要学到什么程度? 这个视频我直接把我当时走通的路线给你讲明白,你照这个节奏去做,基本不会偏。先说我当时踩过的坑吧,我原本也是一团乱, 今天学点提示词,明天学点 luncheon, 后天看点 rap, 学完感觉自己懂了,真要做东西又啥也做不出来,怎么成为 agent 工程师?我建议你别一上来就立式,我要从 python 基础学起,那种路线太慢了,你学三个月可能还在纠结语法,你可以按照我下面的办法来做。 第一,把大模型能用搞定。你先别管什么框架什么工程化,先做一件事能稳定调用一个模型,让它按你的格式输出结果。很多人卡在第一步是因为一直在纠结用哪家模型最好,参数怎么选。其实你先用一个能用的就行, 你要的是跑通练路,不是做学术研究。这一步你要练的核心其实就两个,一个是 api 调用,你得知道怎么传入 prompt, 怎么拿到返回,怎么做流式输出,怎么处理错误。 另一个是提示词控制,别把提示词当作文写,你要学的是让它可控。比如你要它输出 jason, 要它只按某些规则答,要它遇到不确定就说不知道,你能把输出控制住,后面做 agent 才不会崩。 第二,让模型会用工具。 agent 之所以值钱,就值在它不是只会说,而是会做 工具这块,你可以先从最常见的三个练起,查找函数调用、代码执行或者接口调用。我举个例子,比如说你做一个资料问答 agent, 他 要先去你的文档库里搜,再把答案整理出来,还要标注引用来源,不能瞎编。再比如,你做一个数据分析 agent, 用户丢一份表,他能自己判断用什么方法分析,写出代码跑出结果,再把结论用人话解释清楚,你会发现,一旦模型能调用工具,他就从聊天变成同事,这就是差别。 第三,把 agent 做成能交付的系统。很多人到这一步开始掉链子,因为 demo 能跑,但一上强度就不稳定,你要开始考虑上下文怎么管理,长对话怎么做记忆知识库怎么更新解锁,怎么避免召回,垃圾模型输出怎么校验,失败了怎么重试,怎么做日制怎么做权限? 这些听着像工程问题对吧?没错,这就是公司愿意给五十 k 的 原因。 agent 工程师不是玩具工程师,是能把玩具变成生产力的,这一步最重要的就是跟着大项目来一步步做。如果你还是不知道怎么开始 agent, 我 建议你直接跟着 agent, 从入门到实战开始学就行。 你自己亲自做过一遍,印象也更深刻。你看别人代码看懂和自己写出来是完全不一样的概念。第四,怎么拿到 offer? 你 简历里别写熟悉大模型,了解 agent 这种话跟没写一样, 你要写的是你做了什么系统,他怎么工作,你解决了什么问题,你用了哪些关键机制,你怎么保证稳定性?面试官其实很懒,他只想快速判断你能不能上手干活。 你可以这样表达,实现了一个支持工具调用的 agent, 具备任务规划解锁、增强输出叫验能力,支持多轮对话与上下文管理,在某某场景下,将人工处理时间从 x 降到 y。 这种句子一出来,基本就能知道你是干过活的人。当然,面试要想更稳妥,最好还是知道面试官问啥问题。 agent 全套面试题也给大家准备好,听完课程后可以找老师领取。 最后,我想说的是,如果你现在的状态是想做但不知道从哪开始,项目看了一堆但拼不起来,投了很多但没消息,那你真的别硬扛着焦虑了。焦虑不会长心,只会让你一直停在原地。有人带着你按步骤做,速度会比你自己乱摸快太多。 现在还有免费的资料包,能领就先领,别等你想学的时候资源没了再后悔。别再准备了,直接开干,先把第一个能用的版本做出来,你会发现后面所有学习都会变得特别有目标, fighting! 爽!

agent 从屁都不懂到精通,我是怎么做到的?首先你要做的第一件事就是把网上那些杂乱无章的课程丢掉,真的想学就按这个学习路线走,只要不是三分钟热度, 一个月的时间就能从小白进阶成 agent 工程师。第一周,打基础,先掌握 ai agent 核心理论架构,搞懂核心组建,吃透大语言模型,深挖规划模块、记忆模块工具调用及这些基础概念。第二周,吃透 agent 的 工作原理和难点解决方案,拓展学习 react 等经典 agent 的 范式, 掌握不同范式的适用场景与落地要点。第三周,强化学习,了解多智能体写作的逻辑,掌握 prompt 调优技巧,让你的 agent 更精准的输出你想要的结果。 第四周,进行实战,结合所学知识,自己动手完成几个大模型项目,跟着走下来,你就已经半只脚踏进这道门了。最后,我已经把学习路线以及配套视频教程、实战项目原码都整理好了,留个学习就可抱走。

给大家普及一下一个月转型 agent 需要达到的强度,如果你年龄在四十五岁以下,那么恭喜你,只要不是三分钟热度,完全能从小白蜕变成 agent 的 工程师。接下来告诉你一条最快的学习路线,建 议收藏,避免以后走弯路。第一周,打基础,先啃透 agent 核心理论,搞懂核心组建,吃透大语言模型、规划模块、戏艺模块和工具集这些基础概念。第二周,专攻 agent 的 工作原理和难点解决方案,拓展学习 react 等经典 agent 的 范式。 第三周,生化学习,了解多智能体写作的逻辑,再学学 prompt 调优技巧,让你的 agent 更精准的理解你想要的结果。第四周,练实战,结合前面所学知识,自己动手完成几个小项目,掌握这些足够让你胜任百分之九十以上的 ai 岗位。 如果你还不知道从何开始,我这里整理了大模型及 agent 的 学习路线以及配套视频教程,实战项目,留下学习双手奉上。 二零二六年最火的概念就是 ai agent, 你 会看到很多人只需要一句话, ai 就 能帮他完美的完成任务, 而我们是不是还停留在只能和 ai 文字聊天的时代呢?今天我们将通过对 ai agent 的 基本概念的了解,带你讲解一下如何去使用我们的 agent 来强化我们的效率最高呢?能节省我们百分之五十的时间占用。我们先来看一下 第一部分呢,我们会带你了解一下 ai agent 它到底是什么?那它有没有什么特色呢?第二部分,我们会带你了解一下我们现在的大模型,它发展到了一个什么样的程度,它是怎么样让我们的智能体变得真正智能可用的? 那第三部分我们会带你了解一下现在 agent 技术的框架和工程实践到底是怎么做的,有了这些知识,你也能搭建出自己的 ai 工作流。最后我们会带你了解一下,如果说你想学习或者是从事智能体相关工作,你需要哪些必备的技能?好,我们先来看一下, 那么智能体它到底是什么呢?相信大家呢最近也听到过 openclaw 这个东西啊,它是一个呢小龙虾的一个图标,它说呢是一个真正可以做到任何事情的 ai, 但是实际上它就是我们很火的概念,就是智能体。 智能体的定义,它说是可以观察周遭的环境,并且做出行动来达到目的。那这里我们就来给大家拆解一下。 那大家听说 ai agent, 相信很多人呢都会认为这个 agent 它难道不是一个代理的意思吗?那为什么在中文中我们称它为智能体呢?实际上我们就是为了强调它是独立的和自主的。 为什么我们这么说呢?我们现在只需要给我们的 agent 一 条指令,那它就能自己去规划整个任务的流程,完全不需要人类去介入。 而且最重要的是什么呢?当他发现他自己缺乏一些知识,无法完成任务的时候,他还可以自主地通过工具或者是去联网搜索来提升自己的能力。 好,我们接下来看一下我们的 ai agent 它到底需要哪些前提条件。那么第一个前提条件就是我们的大模型,它得足够的智能,它才能成为智能体。那我们来看一下最近的大模型,它到底发展成什么样了? 首先呢我们称之为超级大脑,那么随着我们大模型的进步呢,你会发现他现在知道的知识非常的多,而且丰富,最重要的是他的响应速度变得非常的快速了。 而且你会发现在我们二四年初的时候,我们的 ai 他 只能去给我们进行一些文本创作,创作或者是代码的编辑,你会发现当你问他一些复杂的数学问题的时候,他还是会犯错误。但是随着我们大模型的发展,现在他已经可以自动的拆解任务, 分成简单的步骤,然后逐步完成,即使你问他一些数学计算问题,他也能给你满意的回答了。那么我们现在多模态感知为什么是如此重要呢? 因为在传统的 ai 对 话中,我们只能和 ai 发送文字,我们也只能接收 ai 给我们生成的文字内容,那显然是不能满足我们的需求的。有了多模态的模型,我们就可以通过文字语音生成语音,甚至是生成视频。 那有了我们多模态的这样一个特性,我们发现我们大模型呢现在就可以和人进行自然的交互了。那什么是自然的交互呢?我们可以看一下右侧这张图片啊,这里呢就是我们最火的这个 cloud bot 啊,它的一个对话演示, 你会发现我们和 ai 聊天的时候,就像 ai 和我们现在这个现实生活中的通讯录中的好友进行聊天是一样的, 我们只需要呢打开我们的通讯软件,跟 ai 说我们的需求,它现在呢就可以直接地为我们进行处理,对吧?比如说这里说让我们的 ai 帮它生成一个 word 文档,那么 ai 呢就可以直接进行处理, 那我们多模态有什么优势呢?比如说我现在呢遇到了一个问题,我完全可以把这个问题直接截图,然后截图把图片发送给我们的 ai, 我 们就不再需要用文字去描述这些困难的问题了。 ai 呢可以直接看懂图片,然后为我们生成答案, 那我们现在了解了我们大模型,获得了这些技能的提升,那么我们接下来来去看一下,我们大模型距离智能体还需要走哪一个步骤? 那如何才能够建一个智能体呢?这里呢我们就为大家拆解了智能体三大核心架构。首先呢就是感知模块,那作为一个智能体,他能独立的完成任务,那他肯定就需要对外界的环境进行感知,这里呢就是由我们刚刚说到的多模态来完成的。 好,那我们我们来看一下大脑模块,那既然它能接收到外界的消息,那它呢就必须进行思考决策,对吧?和规划。看一下我们的图片, 我们的 agent 右边这个部分就是 planning 部分,这里呢就包含了我们核心的一些部件,比如说 reflection, 它能进行反思,它能进行自我批判,对吧? 还能进行的思维。练什么意思呢?就是练式思考,我们现在呢就像我们点一下大模型的深度思考按钮,他就会开始呢,把这个任务啊分解成一步一步的,首先他要做什么?然后接下来要做什么,这就是练式思考, 那有了这些模块呢,我们的这个大脑模块就构建完成了,看一下我们的行动模块,那行动模块我们如果说只让大模型在我们电脑里进行对话的话,那看一下我们左侧呢,就为他准备了一些工具。 那通过让我们大模型在行动的阶段,使用我们用代码给它编写的一些工具,比如说当它遇到困难的计算问题时,可以使用我们给它编写的 calculator 这样一个计算器的代码。 那如果说呢,它现在缺少一些知识,需要进行联网搜索的时候,就需要用到我们给它准备的 search 工具,它就可以联网搜索。那如果它在编写代码的时候需要检查这个代码它是不是正确的,就需要使用到我们的 code interceptor, 也就是我们的代码解释器的工具。 有了这个工具呢,大模型就能真正的做出行动了,比如说点外卖这种任务,那大模型呢就会先进行思考,那思考什么呢?用户说给我点一杯咖啡,那他就会思考说用户呢平时的习惯是什么样的,对吧?比如说用户喜欢什么样的咖啡种类, 然后呢,当他完成这些步骤之后,他选择了一个咖啡之后,那他是不是就需要使用工具,使用我们给他编辑的这样一个工具进行下单这个操作呢?是吧? 那有了整体的这个架构之后,我们发现呢,现在 ai 已经有点达到我们一开始提到的可以自主地规划决策,进行行动这样一个智能体的形态了。 但是注意我还有一个模块没有讲解,那就是记忆模块,那为什么我们需要记忆呢?那大模型的记忆到底是怎么实现的呢?我们来看一下 ai 的 对话管理。那在开始之前,先来问大家一个问题,那大家认为我们平时在和 ai 聊天的时候,我们跟 ai 说的话,它每次呢都能记住我们之前说了什么,那它到底是不是有一个 ai 专门为我们服务呢?只对接我们自己呢?其实不是的, 每一次呢, ai 都只能看到现在的对话,它是看不到之前的对话的,对吧?它每一次呢都是以一个陌生的新的 ai 来为你服务的, 那你说他怎么能够每一次换一个新的 ai 为我服务,他还能记住这些记忆呢?还能给我的感觉好像一个专业的 ai 一 直为我进行服务呢,实际上就是我们的 ai 对 话管理。 那 ai 众所周知,对吧?我们有一个叫什么 context window, 叫上下文窗口,那上下文窗口是什么呢?其实这里面就包含了我们和 ai 所有的对话, 对吧?还有呢,我们大模型公司其实呢会在这个上下文窗口中编写一些指令,比如说他会跟模型说说,你现在呢是我们 open ai 公司的一个 ai, 那 你的核心任务呢?就是解答用户的问题,对吧?只不过呢这些被隐藏起来了,我们也看不到。那如果说 我们说这个上下文窗口,它是一个面积有限的黑板,那整个窗口大家很简单就能想到这个窗口呢?它肯定是容量有限的,这是毋庸置疑的。 那如果说我一直和 ai 进行对话,一直和 ai 进行对话,那当我们的对话达到几万字,甚至是几十万字的时候,那这块窗口满了大模型,是不是就会忘掉我之前跟他讲的一些事情呢?答案是会的, 那我们怎么做呢?可以看一下我们的工程化手段。第一个呢就是我们的 csonpunt, 叫我们称之为人设注入,实际上呢它的翻译就是我们系统提示词, 那系统提示词是干嘛的呢?就是我们刚刚讲到的,我们需要呢在整个的这个上下文窗口的顶端,对吧?我们把它一直放着一句话,那这一句话呢是不会随着我们这个对话的这个流程的进行,然后被删除的,它是永远不会忘记的,那这句话呢,我们就把它锁定在这个窗口的顶端, 核心的任务我们就放在这句话里,比如说你是一个,呃,资深的这个健身专家,那你的目标呢?是对用户的这个需求进行分析,给出一些健身的建议,那我们就让这个人设,让他一直保持在我们的上下文窗口中, 那接下来就遇到问题了,那我们跟他和他对话的轮数过多之后,我们发现呢,这个窗口已经要满了,我们要怎么做呢?这里就提到了我们的记忆减脂, 那这个时候呢,我们就需要去压缩我们的历史记录,然后呢剔除一些无聊的,就是跟 ai 进行一些寒暄的对话,然后保留一些关键的信息,那这个过程是怎么做的呢?其实也非常简单,当我们发现我们和用户对话,用户和 ai 的 对话轮数过多之后,我们的窗口马上要满了,对吧? 这个时候我们把整个窗口中所有的对话,我们给他交给另一个 ai, 让他总结一下,说,你来总结一下我们用户和 ai 的 所有的对话,并帮助我提取出重要的信息。这个时候 ai 就 在后台 提取出了我们对话中一些重要的信息,比如说用户叫什么啊?用户呢喜欢做什么事情,那这些呢就会被保留在我们的上下文窗口中,然后呢其他的无用的信息呢就会被删掉,然后呢我们用户就可以继续和大模型对话了。 好了解了我们对话管理之后,那大家会发现其实这个记忆呢,它本身并不是非常长期的记忆,对吧?这个记忆呢就是我们的短期记忆的一个形态,那如果有一些非常长期的记忆,我们要怎么进行处理呢?可以看一下我们 ai 的 知识来源和记忆管理。 那么左侧呢我们演示的过程,实际上呢是我们的 reg 流程,那 reg 它的全称呢叫解锁增强生成, 它其实呢就是我们现在的 ai agent 用来管理一些用户的长期记忆常用的手段,而且呢它还可以解决我们的 ai 知识来源不足的问题,那它是怎么做的呢?其实非常简单, 我们呢把用户之前的一些历史记录,一些购物的记录,或者是用户和我们发生的所有的对话,我们呢都把它存储到我们这个知识库中。 然后呢再把我们 ai 需要用到的一些知识,比如说企业的私有的知识也存储在我们的知识库中。当我们的用户进行提问的时候,我们把用户的问题给它转化成像量,然后呢 去到我们这个向量之库中进行一个查找,那找出来相关的片段之后呢,我们就把相关的资料,比如说用户的习惯,用户的记录,对吧?和我们这个 企业中的一些私有资料,我们把它和我们用户提出的问题拼接在一起,我们再交给大模型进行回答,那大模型每一次就能答得准了。实际上呢,这就是我们 ray 技术解锁增强生成的它的一个详细的原理,那如果想要深入了解呢?我们后期还会继续讲解, 那我们来看一下右侧,那右侧呢,我们就说 openclip 啊,最近非常火的 openclip, 那 它的记忆是怎么实现的呢?它也有它的方式,就是以一个 markdown 文件的形式存存在的, 那它是怎么做的呢?比如说我现在呢,把所有的和用户之间的发生的这个记忆,我都通过一个记事本,实际上 markdown 呢,和我们平时编写的这个 word 啊,这些文字记录啊是没有区别的, 那它呢都写在这里,对吧?那写在这里之后呢,我们发现我们人就可以直接读取,我们可以看到 ai 记住了什么,而且呢我们还可以直接改,对吧?比如说我们现在呢有隐私需求的业务,这个时候呢我们就需要修改这个片段,我们就可以直接更改。 那有了这种知识来源的处理和我们的记忆管理之后,现在我们的大模型就真正的能了解我们用户的习惯来为我们进行服务了。好,我们最后来看一下我们的总结页面, 那我们本节课程就为大家介绍了我们大元模型,他变得足够强大之后,他成为了超级大脑。那通过我们刚刚给他讲解的说,通过多模态的方式啊,可以感知到外界的环境,通过他的这个深度思考他就能进行决策,通过我们给他提供的工具他就能进行行动了。 那他的核心特征,其实我们的智能体就这几个核心特征。第首先呢就是他具备独立自主性,他不需要别人一步一步教他该怎么做,而且呢他有目标导向性,那他做所有的事情最终的目的就是为了完成任务, 那他有环境感知能力,这是毋庸置疑的,他能读取啊,我们的一些传感器,听到我们用户给他的一些语音,看到我们用户传给他的视频,甚至呢是看到我们现在电脑桌面上的啊整个环境的情况, 然后呢它能对此进行反应,作出行动,可以使用我们编辑好的代码工具,对吧?还能进行联网搜索。

今天看完软件工程教父马丁关于约束工程的一篇文章,我感觉我对 agent 的 理解又深了一层,给大家分享一下。很多人还在玩提示词,真正的高手已经在做约束工程, 核心公式只有一句,智能体等于模型加约束,约束就是模型之外所有规范、教验、控制逻辑,事前引导,防止出错,事后传感自动修正。 未来程序员根本不是手写代码,而是设计约束引导 ai, 这就是 ai 时代软件架构师的真正定位。

agent 从屁都不懂到精通,我是怎么做到的?首先你要做的第一件事就是把网上那些杂乱无章的课程丢掉,真的想学就按这个学习路线走,只要不是三分钟热度, 一个月的时间就能从小白进阶成 agent 工程师。第一周,打基础,先掌握 ai agent 核心理论架构,搞懂核心组建,吃透大语言模型,深挖规划模块、记忆模块工具调用及这些基础概念。第二周,吃透 agent 的 工作原理和难点解决方案,拓展学习 react 等经典 agent 的 范式, 掌握不同范式的适用场景与落地要点。第三周,强化学习,了解多智能体写作的逻辑,掌握 prompt 调优技巧,让你的 agent 更精准的输出你想要的结果。 第四周,进行实战,结合所学知识,自己动手完成几个大模型项目,跟着走下来,你就已经半只脚踏进这道门了。最后,我已经把学习路线以及配套视频教程、实战项目原码都整理好了,留个学习就可抱走。