今天这份 j d, 我 直接帮你们扒干净岗位,叫 ai 应用工程师。你别被那一堆 rag agent、 prompt、 context engineering 这些词糊住,我先给你讲结论,这不是在招工程师,这是在招一个 ai 全能打工人加试验田负责人。 先说第一点,为什么这份 j d 写这么长这么全?因为公司自己也没想清楚他们写什么。从零到一,做原型,搭 r a g, 做 prompt, cool, 搞 agent, 做培训跟模型,你看着是不是很全面?我帮你翻译一下。公司现在没有成熟 ai 体系,也没有技术负责人, 他们想找一个人把这摊子事从零接起来,所以怎么办?把所有可能用到的技能全写上,赌一个什么都会一点的人。这种 j d 的 本质就是四个字,需求混乱。 第二点,这家公司真正想要你干嘛?我们逐条翻译,快速构建 ai 应用原型业务,天天来提需求,你自己接,自己做,自己扛, 从零到一,开发并移交工程化脏活你干,成果别人接,你基本没机会深耕,为业务团队提供培训,你不仅写代码,还得当讲师,客服、售后 跟踪、最新模型能力,没人给你方向,你自己试错,公司不背锅。总结一句话,他们要的不是工程师,是一个能自己打仗的 ai 项目部。第三点,你来了之后,真正必须干成的三件事是什么? 记住,不是 j d 写的那些花活,是你活不活得下去的核心。第一,你必须能独立搭一个完整的 r a g 系统,从数据清洗向量化剪辑到生成全链路,你得能跑通。第二, 你必须能用 devi 或 n 八 n 把 ai 流程自动化,公司不要 demo, 要能跑的东西。第三,你必须会算成本,不是技术问题,是钱的问题。什么时候用 gpt 四什么时候用便宜模型。你要自己判断一句话,花最少的钱,做最像样的效果。 第四点,我把这些黑话直接翻译给你听。 rag 知识库系统,做个能回答公司内部问题的机器人 context engineer, 想办法省钱,还别让 ai 太蠢。 prompt 库,写一堆模板,让业务复制粘贴,用 ai agent 工作流,用工具把多个 ai 步骤串起来自动干活。别再觉得这些词高级了,本质全是执行活。 最后我给你一句实话,这份工作适合什么人?喜欢折腾,不怕杂活,能自学能自驱能抗压的人,你会很快成长,但也会很累。
粉丝1.0万获赞4.9万

今天教大家怎么调用大模型 api, 学会了你也能自己做一个 ai 助手。想要调用大模型,首先得知道一件事,这些模型参数动不动就几百上千亿,咱们普通电脑根本跑不动。 所以现在主流的做法是让模型厂商把模型部署在他们服务器上,我们通过网络请求去调用,按使用量付。且 这里有两个核心概念, api 是 接口 api key 就是 你的身份证,拿着它,厂商才知道是谁在调用,该扣谁的钱。 目前提供大模型 api 的 服务商很多,基本流程都一样,注册账号,创建 key, 充值调用。区别主要在模型能力和价格上。我这教程统一用 deep seek, 原因很简单,能力够用,创建 key 方便,价格还便宜。 而且你放心,学完这套教程,所有例子加起来可能就花几块钱。接下来演示怎么创建 key。 首先打开 deep 开发者平台,在左侧菜单找到 api keys, 点击创建, 随便起个名字,点确认,就会得到一串 s k 开头的字母串,这就是你的 api key。 注意,这个 key 就 等于你的账号密码,别人拿到就能花你的钱,一定要保管好,不要提交到 github。 好 t 有 了。现在说接口格式,目前主流就两种, openai 的 chat completion 格式和 andropic 的 messages 格式。 先看 open a i 格式,发一个 curl 请求 base 下划线 url 是 api 点, deep seek 点 com 斜杠 v 斜杠叉,斜杠 completion 认证用 bear token 的 方式 返回的 jsl 里,模型回答在 choice 下面的 message content 里,这里就是他回复的你。好,很高兴见到你。 再看 anthropic 格式,注意这里 base 下划线 url 多了 anthropic 认证,改用 xip ikey 请求头还需要指定版本号返回格式不一样了,回答在 content 下面的 text 里不是 trace 了,字断名也不太一样。 虽然格式看起来不一样,但本质都是发消息收回复。现在模型厂商都会同时支持两种格式,你换一家只需要改变下划线 url 和 key 业务代码一行不用动。

今天我将展示如何将 cloud code 与 jama 四结合使用。然而,除了 jama, 您可以使用任何可用的本地模型, 例如 quan code next 或 quan 三点五。首先,我想强调,我并不认为本地模型可以完全替代像 jama n 或 cloud 这样的付费 l l m, 而是作为它们的补充品。例如,我可以将任务委派给本地模型,比如将一个大问题分解成较小的子任务。 或者例如,上周我与 cloud 合作为一个功能创建了详细的实施计划,然后根据那个计划将实际实施任务交给本地模型。好吧,我假设你已经对 cloud code 有 了很好的了解,所以我不会用永长的描述来让你感到无聊。如果没有,所有内容在他们的网站上都有详细解释。我想强调的是, 理解 cloud code 是 什么,以及它与普通聊天机器人的区别的关键是短语 a jint coding tool。 所以,如果你还没有安装 cloud code, 可以 通过终端中的一条命令来安装它。安装好了,现在您只需刷新查找可执行程序的目录,这样您就可以在系统的任何地方运行 cloud code。 到这个时候,一切基本上都准备好了。已运行 cloud code, 不 过因为我想和本地的 jam 四模型一起使用, 还有一些配置需要完成才能运行该模型。我将使用 l m studio, 但您可以使用任何类似的工具, 只要他提供 a p i。 顺便说一下,评论中一个常见的问题是,为什么我使用 l m studio 而不是奥了吗?实际上,我两者都在使用,但最近我更常使用 l m studio。 我 喜欢他提供的设置数量和本地 a p i 服务器的设计方式。好的,让我检查一下访问本地 l m 的 a p i 服务器是否正在运行。这个服务器是 l m 所有的部分。一切看起来不错,正在运行。现在我需要进行两个关键配置,以便让我在 cloud code 中使用我自己计算机上的模型二, 而不是使用来自 antropic 的 付费模型。首先,我需要设置基础 url 环境变量,使其指向我的本地 api 服务器。其次,我需要设置一个变量用于存储访问该 api 的 令牌。太好了,现在我们可以启动 cloud code, 它接受的参数之一是它应该使用的模型名称。 首先,我将尝试带有七点五 b 参数的肩膀模型。当然,这个模型对于严肃的开发任务来说相当小,但我很好奇它能做什么。我将它的名称作为参数传递并运行。好的 cloud code 正在启动,由于这是安装后的第一次运行,它让我选择一个颜色主题。

我今天一条视频,直接把 ai 的 所有黑话给你翻译成人话。从 l m 开始,其实你就是在雇一个实习生,实习生对这个实习生的脑子特别好使,那个脑子叫 l i m, 就是 大圆模型,可以理解为他的大脑。你跟他说话,他听得懂,会思考,能回答,那 talk 是 什么? talk 就是 他的工资条啊,每说一个字,他要回一个字,这都是要算钱的。 是按你看到的汉字算是他内部有一套翻译规则,把你说的话翻译成他能理解的数字片段。所以说的越多,聊的越长,工资就越高。我跟他聊久了,他能记得住吗?这就是 contact 上下文,也就是他的记忆力。你每次发消息,他系统都会把之前的所有的聊天记录全部转发给他,再看一遍,他才能结合历史记录跟你聊。那你刚说完帮我改刚才那段话,他问你那段话,这个时候就失忆了,因为没有上下文的记忆,能记多少呢? ctrl 上下文窗口就是他脑容量,脑容量越大,能带的聊天的容量就越多,聊的越久,越不容易失忆。脑容量小的,聊几句就忘了,让他只会动嘴皮子。所以你要给他配兔工具,也就是他的手脚,光会聊天没有用。你想让他做这点来配上工具吧,就像你让他盯盯着你点,先给他一把锤子。配备了工具,相当于有了手脚,他才能感知外界,开始主动干活,而不是只会动嘴。 但不同平台工具不一样吧。对,这就是 m c p 的 作用,你可以理解为普通话标准。以前每个平台各说各的方言,工具,换个平台就得重新开发,现在大家都按 m c p 这个统一标准做工具,就像所有人都在说普通话,走到哪都能交流,工具拿到哪个平台都能用。那 agent 又是什么? agent 又是个实习生生成的项目经理了。普 通实习生你指一步,他动一步, agent 不 一样,他拿到目标后是会自己规划,自己拆分任务,自己调用工具,直到把问题解决。比如你跟他说帮我策划一场活动,那种写方案,查场地 预算,发邮件全部都给你包了。那 a 建的 skill 呢? skill 就是 sop 操作手册,把常用技能写成一本固定格式的说明书, a 建的参照你的经验书就知道,第一步要调用什么工具,第二步用填什么参数,第三步输什么结果。不用你每次都口述一样的话,他直接按手册,这些还能帮你省脱口,也就说省工资。所以总的逻辑就是雇了个实习生 进入他的大脑,按字数发工资,让他记住是脑容量够大,给他配了手脚,然后让大家都学会说普通话,升一升自己能干活的项目经理,再给他一本操作手册啊。

装一台大模型推理服务器, c p u a m d 霄龙七五三二三二核心六十四,现成两颗,内存三星六四 g d d 二四 e c c 两条总容量一百二十八 g 硬盘一个英跳一点九二 t u 二,高速 s s d 机加 m c f 二四 g p u 服务器主板 二优侧吹热导管散热器两个,一个西捷八 t 企业级硬盘显卡,英伟达 rtx 四零九零原版二四 g 显存两张长城两千六百瓦模组电源 四 u 八盘位热插拔服务器机箱。

兄弟们,今天我用一张知识地图,把 ai 圈最核心的黑话一次性给你讲透,帮你直接开窍。 先说大语言模型,你可以把它理解成为 ai 界的全能学霸,它啃完了大量的书籍,还有互联网文字,既能思考又会推理,但是没办法干活, chat、 gpt、 dsp、 豆包都是这一个路数。 再聊聊 token, 这是 ai 消化信息的最小颗粒,英文单词大约是一个,汉字是零点五到一之间,图片被切成了视卷小方块,声音被切成了时间片段,视频呢,则按真处理。本质上, ai 把所有信息切碎,才能读懂 你跟 ai 的 每一句话,叫做 prompt 提示词吗?问题提得越准确,得到的答案就越惊喜。 ai 能记住多少对话,取决于上下文窗口。顶尖模型呢,能装下一百二十八 k 甚至两百万头克,相当于把整部资质通线塞进脑子里,并且随时调取。 说到能力边界,多模态模型可以同步处理文字、图像、音频和视频, g p、 d 四 v 就是 代表。而 deepsea 目前主要聚焦在图文理解能力上。 api 就是 把 ai 能力接入到各种产品的管道。 m c p 模型上下文协议就是像 ai 世界的 usb 接口,统一了不同系统间的这个接入的标准。 back 是 什么呢?解锁增强生成,让 ai 先取翻资料再开口作答,大幅减少了一本正经说废话的这个概率。 agent 智能体就是更进一步了,它就能自主地拆解任务目标,调用各种工具和技能组合,就是个真正的执行者。 最后是 cot 思维链,要求 ai 把推理的过程一步一步摆出来,就像是做数学题,写解析步骤过程透明,答案才靠谱嘛。 这些概念环环相扣,从基础认识到落地应用,构成了你进入 ai 时代最完整的一套体系框架。想要这份知识图谱的评论区回复知识我发给你。

大家好,欢迎来到今天的分享。在二零二六年,大语言模型已经成为驱动创新的核心引擎,但如何选择合适的计费模式,直接决定了我们项目的成本和扩展性。今天我们将深入剖析按流量计费与套餐计费的核心区别,并为您提供最新的模型选型与成本优化指南。 本次分享将分为四个部分,首先我们会解析两种核心的计费模式,接着通过深度对比和决策模型,帮助大家找到最适合自己的方案。然后我们会介绍二零二六年值得关注的主流模型。最后,分享一些实用的成本优化技巧。 在深入探讨计费模式之前,我们必须先理解一个核心概念, token。 简单来说, token 就是 ai 模型处理信息的最小单位,你可以把它想象成文字的原子。我们输入的每一个字,模型输出的每一句话,都会被拆分成 token 来计算费用。特别要注意的是,模型生成内容的成本远高于理解内容, 所以输出托根的价格通常更贵。第一种计费模式是按流量计费,就像我们用自来水一样,用多少水付多少钱。它的优点是灵活启动成本低,非常适合项目刚开始的时候。但缺点也很明显,单价最高,而且当你的用量突然变大时,账单可能会让你大吃一惊。 第二种是套餐计费,更适合企业用户,它主要分两种,一种是席位订阅,就像买会员,先付一笔固定费用,获得高级权限,然后再按用量付费。另一种是预留吞吐量,你可以把它理解为包下一条专用高速公路, 保证你随时都有稳定快速的服务,但需要预付费用。为了更直观的理解这三种模式,我们来看这个对比矩阵。从成本结构、可预测性、单价灵活性等多个维度进行比较。可以看到,按流量计费最灵活,但成本不可控。预留吞吐量成本最低且性能最好,但前期投入大且不灵活。 习未订阅则介于两者之间,是成长型业务的平衡之选。那么,到底什么时候该从按量计费转向套餐呢?这里有个成本效益平衡点公式, 简单来说,就是计算出一个 token 使用量的临界点,当你的月用量超过这个点,套餐就更划算。反之,按量计费更经济。比如这个例子,月用量超过二十亿, token 套餐才开始显现优势。 为了让决策更简单,我们可以遵循这个流程图。首先看你的业务阶段,如果是初创期,果断选择按流量计费。如果业务已经规模化,再看用量是否稳定。如果对延迟要求极高,就选预留吞吐量。 如果需要企业级安全管理,就选习卫。订阅这个疗程图可以帮助大家快速找到自己的最佳路径。了解了计费模式,我们再来看看二零二六年市面上有哪些主流模型。 这张页面汇总了各大厂商的旗舰和自旗舰模型,包括它们的性能、评分、价格和核心优势。可以看到, clogs 四点七在推理能力上目前处于行业顶尖水平,适合处理复杂逻辑任务。 而 gpt 五点四则凭借其完善的生态系统和 api 集成能力,依然是企业级应用的首选。 同时,像通用千万 max 和 g p t 四 o mini 这样的模型在保持不错性能的同时,拥有极高的性价比,适合大规模业务部署。而拉玛四在 grok 的 支持下提供了极致的速度体验。那么到底哪个好用呢?这不仅仅是性能问题,我们从开发者体验、可信和社区支持三个维度来评估。 open i 的 文档和社区支持最好能让你快速上手。 astropica 的 可信行业领先,适合企业级应用, google 在 多模态方面又是明显, 而 gork 和 mr 则以其独特的优势在特定场景下表现出色。为了让大家更方便的选择,我们按场景进行了推荐。如果你需要写复杂代码,首选 cloud 四点七。如果是做通用聊天机器人 gpt, 五点四是全能选手处理长文档 gemna 二点五, flash 的 超长上下文式优势。而对于需要极速响应的实时应用, gork 上的 luma 四是最佳选择。 每个场景我们都给出了首选和性价比替代方案。最后我们来谈谈如何省钱成本优化的第一步是优化模型选择,不要用大炮打轮子,简单的任务用便宜的模型就够了。同时也要学会优化你的 prompt, 让指令更简洁。要求模型输出结构化内容,并限制他的回答长度,这些都能直接减少投屏消耗。更进一步的优化可以利用平台提供的高级功能,比如上下文缓存。对于重复使用的固定内容,可以节省百分之九十的成本。对于非实时任务,使用批量处理功能可以享受半价优惠。 在架构层面,构建一个多提供商的智能路由系统,是实现成本与性能最佳平衡的终极方案。我的分享到此结束,希望能帮助大家更好的理解大语言模型的计费模式,并做出明智的选择。感谢大家点赞支持!

假如你从二六年六月开始转型大模型应用开发,多久能上岸?只要你不是三分钟热度,三个月足够让你转成为 ai 领域高手。接下来告诉你一条最快的学习路线,建议收藏,避免以后走弯路。第一阶段,死磕基础, 把 python 基础和简单的 api 调用吃透,千万别小看这些基础,这是和模型打交道的根本。第二阶段,掌握两大框架和 lambendix, 一个用于构建 agent 逻辑框架,另一个用于构建外部数据缩影。 三大技能是指 r a g, agent 模型微调,这三项技能直接对应了当前 ai 岗位的核心需求。最后阶段,实战项目选择常见的大模型应用场景,结合前面所学知识做二到三个项目,如 r a g, 医疗问答 agent、 智能客服、 股票分析,掌握这些足够让你胜任百分之九十以上的 ai 岗位。如果你还不知道从何开始,这里整理了大模型系统学习路线以及配套视频教程。实战项目,留下大模型暴走。 本期视频带大家深度解析 ai 常见术语。首先我们要先打好地基,核心就是 n n, prompt, context 和 memory。 接着我们进入第二章能力扩展,我会重点攻克 r g 和方身 calling, 简单说就是教 ai 怎么查资料,怎么调用外部工具,还有 m c p 协议,这一直是行业的热点。搞懂了它,你的项目瞬间就能连接各种的数据库和 api, 去面试绝对是个加分项。然后来到这个形态进化和流程控制,这也是很多小白最容易晕的地方。 workflow、 skills 和 agent 有 什么区别啊? long chain 又要怎么用呢?我会把它们都串起来。学完这一章,你就知道怎么把一个只会聊天的 ai 变成一个能真正干活、能执行复杂任务的超级员工。最后,我们要探讨一下 agent 的 终极形态和未来的技术红利在哪?那你在这个快速变化的时代,找 找到那个最值得投入的甜蜜点。好,那我们就正式进入第一章。这一张的标题叫做基石构建。为什么叫基石呢?因为我们要讲的这四个词, liam, i m, prom、 context 和这个 memory 是 整个 ai 应用世界最 底层的概念。后面所有那些听起来很厉害的东西,比如说什么 agent 呀,还有 r g 呀,其实都是在这些基础之上搭起来的。所以我们先把这几个最基础的概念搞明白,后面的内容你就会发现,哎,原来都是这么一回事儿。嗯,那在讲具体的概念之前,我们先快速看一下背景。大家看这张图 是不是有点眼花缭乱?这里面密密麻麻的全是各种大模型的名字, gpt 啦,拉玛呀,还有千问等等。你们不需要去记每一个名字,这张图就告诉我们一件事,从二零一九年到现在二零二六年,大模型的发展速度是爆炸式的。 你看,从最早的 gpt 三,到后来的叉 gpt, 再到现在的 gpt 四、拉玛三,几乎每隔几个月就有新的更强大的模型出现。这种快速的迭代,就是我们今天能讨论所有这些应用的前提。可以说我们正处在一个技术浪潮的中心。好, 背景了解完,我们再看一下这个浪潮的核心 l o m 它到底是个什么东西?我们来聊一下 s i 人民的本质。其实在最开始,语 言模型干的事特别简单,就是文字接龙,你给他床前明月,他就能给你接上光,就这么简单。但是很有意思的事情发生了,当模型的参数规模越来越大,数据越过越多,达到一个临界点之后,他突然就开窍了,能理解指令,能推理了, 甚至能写代码了。这种现象,学术界管它叫涌现,而涌现日后的大模型,我们就称之为 l l m, 也就是大语言模型。虽然它看起来智能,但是我们得清醒地认识到它的本质。大家可以看下面这个图, 我们可以把它想象成一个关系,我们用户是老板, l m 呢,是我们的员工。这个员工啊,他能力很强,但是有个非常核心的限制,他只能够一问一答,不能够主动追问。你给他一个任务,他做完就完了,不会说老板。各地方呢,我不太明白,你能详细再说一下吗?而且 他无论表现的多么聪明,他最底层的工作方式啊,依然是在预测下一个词。这点非常重要,是我们理解后面所有问题的关键。那么 面对这样一个一次性的超级员工,我们该怎么用才能把它的价值最大化呢?这就引出了我们下一个话题。既然 l l m 只能一问一答,那我们作为老板,就得想办法把每一次提问的效率提到最高。那具体又怎么体效呢?首先,我们得学会更好的下达指令。我给 l m 的 每一次提问,专业术语叫做 prompt, 也 也就是提示词一个高。这样的提示词其实可以分为两个部分,一部分呢是 context, 就是 上下文,相当于你给员工布置任务时的背景信息。比如说,我们现在呀,要为一个年轻用户群体做推广,就是 context。 那 另一部分呢,是 instruction, 就是具体的指令。比如,嗯,请根据这个背景写三条广告语,你看他就把背景和指令分清楚, a n m 的 回答质量会高很多。这算是第一个技巧。但很快我们又遇到了新的问题,刚才我们也说了,来完他不能够连续的互动,聊完一句他就失忆了,这在实际使用中非常的不方便,对吧?那怎么办? 工程师们想出了一个非常巧妙的办法,既然他记不住,那我们就帮他呗,把之前的对话,把之前的对话历史全部打包 在进下一次提问的 context 里面。比如说,你第一轮,你问他北京天气怎么样,他回答了第二轮,你想问,那上海呢?你就得把第一轮的问答也一起发给他,变成第一轮北京天气怎么样? 回答晴天。第二轮,那上海呢?这样一来, let them。 看到完整的对话历史,他就能够假装自己还记得之前的内容。这一部分被特意保留下来的对话历史,他有一个新的名字,叫做 memory 记忆。所以你看, memory 本质不是什么神秘的技术,它就是一段特殊的,包含了历史对话的一个 context。 甚至为了节省空间,我们还可以让 n l m 自己把涌长的历史对话去总结成几句话,再放进 memory 里面,这就是更进阶的用法了。好了,到这里关于 n l m 是 什么 form? 怎么用? context 和 memory 又是怎么回事儿?我们就全部拆解完了。你会发现这些概念其实并不复杂,核心都是为了解决 a l m 自身的一些局限性,接下来我们就可以在这些基石之上进行一些能力的扩展了。这一章我们要讲的这些,其实都是在给 a l m 装手装脚, 让他从一个只会聊天的大脑变成一个能动手办事的员工。什么意思呢?我们先看一个问题, l m 有 个特别致命的短板,就是他不上网,你问他今天北京天气怎么样,或者昨天苹果公司股价多少,他要么瞎编,要么告诉你我的知识,截止到某年某月某日,为什么? 因为他训练完就断网了,脑子里装的全都是旧数据。那怎么办呢?很简单,让他去查查的话呢,有两种主流的方式, 一种叫做 search, 就是 搜索,你可以理解成写个小程序,代替人去谷歌或百度搜一下,然后把结果喂给 l m m。 比如说你问最近有什么新发布的手机程序,自动去科技网站抓几条新闻,再让 l m 总结给你听。这个过程呢, nm 它本身没有变,只是多了一个外挂搜索引擎。第二种方法是 r r g 解锁增强生成。听起来很高大上,其实逻辑也是一样的,只不过呢,不是搜全网,而是搜你自己手里的文档或数据库。比如说你们公司的内部的产品手册啦, 还有客服记录以及合同模板等等,你把它们存进向量数据库里,当用户提问时,系统先语义匹配,找到相关的段落,在塞进 prompt 里,给 给这个 a n m。 你 看,不管是 search 还是 r g, 核心思路都是一样的,把外部信息搬进 context 里,让 n n m 基于最新最准的数据回答问题,这对我们实际工作意味着什么?举个例子,如果你是个电商运营,用 r g。 接入商品库和促销的规则, n n m 就 能够实时回答这款衣服打折后多少钱, 库存还有多少,而不是靠记忆瞎猜。不过呢,我们说的这个 search 和 i r z 虽然有用,但是有一个问题就是还得靠人来触发。比如你想查天气,你得先告诉 lan, 你 去查一下天气,然后他说我需要调用天气, a p i, 你 再手动执行,这太麻烦了,对吧?于是有人想了个办法,干脆写一个中间程序,专门负责 t i m 来跑腿。这个程序就叫做 agent 智能体。再看这个流程图,用户不再直接跟 a m 对 话,而是交给我们的 agent。 agent 像是一个管家,他知道什么时候该让 a m 思考,知道什么时候该调用工具,比如说搜索工具、 打数据库的工具,还有发邮件的工具, l m 负责动脑, toos 负责动手,人就负责传话加调度。早期的一些 agent, 可能就是多加了几行 prompt 而已,后来慢慢发展成独立的程序模块。那本质是什么呢?就是一个自动化的协调器,它减少了人类反复干预的次数,让整个流程更加顺畅。想象一下, 只需要说一句,帮我订一张明天飞上海的机票, agent 就 能自动调用航班查询笔架、支付接口,最后把确认单发给你,全程都不需要你插手,这就是 agent 的 价值。好了, 现在有了 agent, 也有了好多工具,但新问题又来了,大家沟通容易乱套啊。这里其实有两个不同层面的问题,需要两个不同的解决方案,它们是方声、 calling 和 mcp, 大家千万不要把它们混为一谈。首先看左边方神拷领函数调用,这是大模型自身的一种能力,你想啊,模型是个大脑,光想没用得,能够把想法变成程序能听懂的指令。方神拷领就是规定 l m 必须按照特定的格式输出, 通常呢是 jackson。 这就有点像是前后端约定接口文档一样,前端不能随便传数据,后端也不能随意返回格式。方神拷领就是 l m 和 a j 之间的 api 器约,解决的是沟通混乱的问题。但是 每接一个新工具,比如你要查数据库,要读文件,工程师都得专门写一堆代码去适配,特别麻烦,而且工具之间数据不通。这时候右边的 m c p 就 起作用了。 m c p 全称是模型上下文协议, 不是模型的能力,它是一个通用的连接协议,你可以把它想象成 ai 界的 usb 接口。它定义了两个核心操作,第一个是托尔斯,告诉 agent 我 现在有哪些工具可以给你用。然后第二个呢,是托尔斯 call, agent 说我要调用那个叫做 getweather 的 工具,嗯,参数是北京,那托尔斯就可以执行并且返回结果。有了 mcp, 只要工具的开发商遵循这个协议,做一个。嗯, mc server, 任何支持 mcp 的 模型或应用都能够直接插上,用不用重复开发? 更重要的是, m c p 还能够传递上下文信息,比如说把用户之前的对话历史、当前的任务背景一起传给工具,让工具做出更智能的响应。所以啊, m c p 解决的是工具藕合的问题,让工具变得可插拔、可扩展、 可空想。所以呢,方胜拎是 a m 对 agent 说的标准口令,确保意图不被误解。那 m c p 是 agent 对 兔子发的标准公单, 确保工具能被统一调度,两者配合,才能让整个系统从各自为战变成协同作战。我们前面讲的这些都不是为了炫技,而是为了让 ai 真正落地,变成我们能用的生产力工具。 ok, 我 们解决了 ai 能干活的问题。 接下来第三章,我们会讲到交互形式的演变, long chain, workflow、 skills, 还有 sub agent。 不要被这些词给吓到, 其实它们都是为了解决一个共同问题,当任务变得复杂的时候,如何让它干得稳、管得住?先看上面这几个图标,左边是命令行 c i l i, 中间是编程工具 id, 右边是现在流行的通用的桌面助手。我们可以明显地感受到, ai 的 外表越来越好看,入口呢,也越来越低。以前你得会敲代码才能够用,现在点个图标说句话就能搞定。像 call、 code 尔巧巧、 minus 这些产品,底层架构其实都差不多,但用户体验天差地别。但是无论这个界面有多漂亮, 他们都有一个统一的致命缺点,面对复杂的长流程的时候,极其的不稳定。举例子,比如说,你想让他把一份英文的 pdf 翻译成中文,再转成 markdown 存起来,这听起来简单, 但中间涉及提取、翻译、格式化、保存几个步骤。如果全靠 agent 自己发挥,他可能第一步就选错工具,或者是翻译一半忘了格式要求。最要命的是,他每做一次都要重新推理整个流程,非常的浪费, tock 成本很高,这里有个很关键的洞察。其实呢,提取 pdf 和保存 markdown 这两步啊,完全是确定性的,根本就不需要 ai 插手,写几个固定的脚本就能搞定,又快又稳。只有中间这个翻译的这个环节需要 ai 的 智能。所以呢,我们的思路应该是,该固定的固定, 该智能的智能,别让 ai 去干那些他不擅长也没有必要干的脏活累活。具体怎么做呢?这就引出了流程固化的三个眼镜阶段。为了避免 a 制的每次都自由发挥,人们尝试了三种办法。第一种,纯代码,这是最彻底的方案,直接把整个流程写成代码,完全不让中间智能体插手。 优点是最稳定,缺点是没有灵活性,改了需求就要改代码。第二种是朗颤,这是一个专门为程序员设计的框架,他把 prompt 记忆工具都封装成了组建,你可以像搭乐高一样, 用代码把它们串起来,这可比纯手写代码方便多了,但是呢,还是得懂编程。那第三种, workflow 工作流,这是照顾非程序员发明的一个第一代码方式,你在界面上拖拖拽拽连连线就能把流程画出来,门槛极低,跌误人员也能用。听起来很完美,对吧?但是这里有个新的瓶颈, 就是排列组合的爆炸。你想,如果输入格式有这三种输出呢?又有这三种,你得画多少个工作流?三乘三等于九个,如果再加几个选项,比如说是否压缩,是否加水印, 那组合数直接爆炸,为所有可能的排列组合去画工作流,既不现实,维护起来也是噩梦。而且啊,如果你在代码里面写一堆的 excel, 来判断用户想要哪一种流程,又会破坏那一种,我说一句话,你就懂得一个无缝的体验。所以呢,我们需要一种更聪明的方式,既能附用能力,又不需要预设所有的流程。这就是我们要讲的最近非常非常火的概念, skills 技能 use, 它是一种标准化的能力封装单元。大家看这个图,当用户下达一个执行任务的 指令的时候,系统不是让 a 阵从零开始响,而是先去加载一个对应的 skill 点 md 文件夹,这个文件夹里面有什么呢?在下面这个代码块必须有一个 skill 点 md, 这里面写着这个技能的核心元数据,它是干嘛的?需要什么输入? 产出什么?有哪些流程限制?这就好比给 agent 发了一本操作手册,还可以有 script, 放一些可执行的 python 或者是 bash 脚本,比如说刚才说的提取 pdf 这种确定性的操作就放在这里。还有呢, references 和 assets, 放参考文档、模板、 图片等静态资源, agent 在 执行的时候可以随时查看。这样的好处是什么呢?好处就是不管是谁开发的这个 skills, 只要符合这个结构, agent 都能看懂,能调用。通过 skill 点 m d, 我 们可以告诉 agent, 在 这个任务里,你只能做这三件事,别的千万别乱碰。而且呢, skills 是 很灵活可复用的,今天做翻译用这个 skill, 明天做总结,还用这个 skill, 不 用重复开发。简单来说, skill 就是 把确定的流程和必要的约束打包成一个插件, agent 拿到任务之后,先插上对应的插件,然后在插件划定的圈子里面发挥智能,这就实现了灵活性和可控性的一个完美平衡。不过,即使有了 scale, 当任务特别大、特别复杂的时候,会出现一个上下文爆炸的问题。大家看左边的图,如果所有事情,比如说写代码、修 bug、 查资料、做分析,都塞进主 a 阵的一个上下文窗口里,很快就会挤爆模型,记不住前面的信息,注意力分散, 甚至会把不同任务的线索搞混。怎么解呢?当然是分而治之,引入 sub agent 子智能体,把大任务拆解成小任务,每一个小任务都交给一个独立的 sub agent 去处理。比如说主 agent 负责统计,他说这个项目需要代码审查、调试, 然后呢,还需要数据分析和网页的调研,然后他召唤出这四个子智能体,每个子智能体都有自己独立的 sub agent contacts 子上下文。 sub agent 的 本质是什么呢?注意,它并不是创造了四个新的大脑,它仅仅是做了一个上下文的分区,就像是你在浏览器打开了四个标签页,每个标签页跑不同的网页,互不干扰,关掉一个,其他的还在。这样做的核心目的只有一个, 那就是确保子智能体它的上下文不会污染主智能体,实现信息隔离,调试时的报错日制,不会干扰写代码的思路,调研时的海量网页内容,它不会挤占核心任务的内存,这样一来,无论任务多么复杂, 系统都能保持清晰稳定且高效。好,那我们第三章的核心思想就是不要试图用一个超级大脑解决所有问题,而是要构建一个分工明确、各司其职的一个协助系统。最后我们就来拨开所有技术外壳,回答两个终极问题, agent 到底是什么? 以及它最终会变成什么样?先看这一张终极 pk 表,左边这个红色箭头很重要,从上到下是从刚性稳定到柔性灵活的光谱。首先,纯代码在最上面,它是完全写死,固定逻辑 步都不能错。优点呢是最稳定,缺点是毫无灵活性,改一个需求就得重写。然后呢是 workflow, 通过拖拽格式化,边看流程,业务人员也能够上手。但是他有一个致命伤,一旦遇到如果用户要 a 格式就走这一条路, 要 b 格式就走这一条路的这种分支流程图就会变得像蜘蛛网一样乱。未来他可能会被封装成基础的能力包, 逐渐被边缘化。第三个是 skills, 这是目前最适合普通人的方案,既有预设脚本,保证稳定性,又留给 agent 的 一定的自由发挥的空间。但我认为啊,它只是一个过度产物,因为怎么说呢,它的结构还是太过于 人工设计感,未来会被更直觉的方式取代。那最底下是纯 agent, 完全交给大模型自由发挥。听起来好像很酷,实则最不可控,最费钱,每一次执行都像开盲盒车啃,消耗还巨大。所以你看, 没有完美的方案,只有当前阶段最适合的选择。而我们的目标就是找到那个既稳又灵的甜蜜点。那既然这么多方案都有,更有优劣,我们能不能问自己一个更根本的问题,这些技术的背后到底有没有一个统一的本质?现在我们抛开所有框架、工具和协议, agent 的 本质到底是什么? 答案可能让你惊讶, agent 其实就是我们和大模型之间的一个提示词的包装器,你看左边,它自动帮你 夹上下文。呃,搜索网络,查知识库、读技能文档,这些都是为给大模型更多的背景,让他别瞎猜。那右边更关键,他把那些确定性的逻辑外包给了传统的程序,比如说,如果文件是 pdf, 就 调 o c r r 引擎,如果是 word, 就 直接解析。像这种 excel, 根本就不需要 ai 参与,交给代码跑得更快更准。所以 ag 呢,并不是一个全能大脑,而是一个聪明的管家,他知道什么时候该自己思考,什么时候该喊程序员写的脚本来帮忙。最后一句点睛之笔, ag 呢,是由不需要智能的部分构成的。什么意思啊?意思是 真正有价值的地方,恰恰是那些不用问大模型的地方。我们用固定程序解决重复劳动,让大模型只专注于他擅长的创造性的部分。最终的目标从来都不是炫技,而是两个朴素的愿望, 就是节省人类时间,降低使用的门槛。那你想想,为什么 a 阵一定会进化?它的驱动力来自哪里?我们来看这个天平,左边是技术优雅性和 token 成本,右边呢,是用户的便利性。结果很明显,便利性碾压一切。过去我们总纠结这个架构够不够优雅, 这次调用花了多少 token。 但现实是,只要用户觉得好用,哪怕背后是一团乱麻的代码,哪怕一天要烧掉几百美元的 token, 市场也会买单。而且呢, tokyo 成本正在快速下降,今天你觉得很贵的推理费用,明天可能就微不足道了。想象一下,当你能在本地的笔记本电脑上跑一个媲美 gpt 四的模型的时候, tokyo 这个词本身都会消失。就像我们现在不会说我的硬盘用了多少 kb 吧,只会说还剩多少 g。 还有一个很重要的规律,叫做 便利性至上定律。我们参考 spring boot 和 uv 的 经历, rain boot 出现之前,甲方开发要配一堆的车命,同样的,在 uv 出现之前,拍洒虚拟环境的管理让人头秃。它们都不是技术上最先进的,但都是最容易用的。所以啊, 任何技术无论多么精妙,只要让用户多点一次鼠标,多记一个命令,就会被淘汰。最后,我们来聊一下那个最近刷屏的名字, open cloud。 它凭什么这么火呢?难道它的技术比 cloud code 更先进吗?其实扒开底层来看, 它和 cloud code 在 技术上几乎没有本质区别。那它的赢在哪呢?赢在它做对了三件事,却彻底改变了用户体验。第一,你不用打开复杂的 id, 直接在各种社交软件里面就能指挥它。第二,它支持定时任务,它能像秘书一样每天早上八点自动发邮箱, 而不是只会被动地问答。第三,格式化 skill 管理,你可以像装手机的阿皮一样,给他一键添加新功能。就是这三点,第一次让普通人觉得,哇,这不是一个冷冰冰的代码工具,而是一个能真正帮我干活的一个智能体。所以 基于 opencloe 成功,我们可以大胆预测 agent 的 终极形态,未来一定会出现打包好的超级 agent, 到时候所有复杂的 m c p 协议配置, sub agent 的 分工调度,通通的都会被隐藏在后台,用户根本不需要知道背后发生了什么, 只需要说一句,帮我安排一下,下周我要出差,剩下的全都交给 agent, agent 会走到这一步,零配置,开箱即用,越用越懂你。这不是科幻,这是正在发生的现实。 ok, 这期视频就到这里,我们下期再见。

ai 写代码,越花哨的技术战,越容易把模型带偏。 jacob young 这篇文章的判断很直接, 一致性会复利,大模型会放大项目里的混乱也会放大生态里的共识。同一个后端任务, javascript 可能有十几套主流写法, python 也一样,包管理,易补框架系统依赖,经常先把选择题铺满。对人类来说,这是维护成本。 对编码 a 进特来说,这是训练语料里的造声。语料里同一件事有太多答案,模型推理时就更像在抽签。文章最推崇的是 go, 理由不是情怀, 是低方叉。 go f m t goite, gopos 加上一套很强的标准库,把默认路径压得很窄。写 h t t p 服务,读文件,并发,抓取处理错误。 大多数时候都有一个非常普通的写法,普通在 ai 编程里反而是优势。模型不需要猜今天该用哪个框架,也不用在五种保管里之间犹豫。并发模型也更简单, groupin 和 channel 在 语料里反复出现,模式很稳定。 ras 当然强,但借用检查器会把 agent 的 试错成本拉高。 c 和 c 加加更难。因为公开代码里混着几十年的内存坑,所以这篇文章真正的建议是 给 agent 的。 选语言时别只看上限,要看中位数输出。做 c l i 后端服务 agent 的 编排。这种非视觉软件 go 可能就是更省头肯更少反攻的选择。下一次让 ai 开新项目,先问一个问题,这个生态里普通答案够不够稳定?

你觉得大语言模型发展到尽头了吗?为了搞明白这个问题,我梳理了从二零一九年的 g p t 二一直到二零二六年的 deepsea v 四,共六十七个核心开源模型的架构变化。我发现,这个 transformer 架构的底座似乎已经没有多少新花样可以玩了。同时呢,模型与模型间的差距也在逐渐缩小。 比如说,你有没有感觉,似乎好像好久没有遇到一个让你感觉像当时 g p t 四那样震惊的模型了?那这是否意味着语言模型走到头了呢?今后的架构创新还有新的机会突破吗?更进一步讲, ai 的 发展是否已经到瓶颈了呢? 今天这期视频,我就从上帝视角带你看懂近三年来核心架构的眼界。放心,没有任何复杂的公式,我会用最清晰、最直白、最不啰嗦、最不废话、最不绕弯子的语言给你彻底讲明白。我们开始吧。 自拆的 gpt 出现后到现在已经三年多了,所有我们熟知的大模型都只是 transfoam 架构的一个分支而已。所以呢, transfoam 仍然是个绕不开的话题, 而如果你还不熟悉它,也没有关系。我给你个最简单但却很准确的简化版本,输入和输出都是文字,也就是 token 开头呢?有个编码器,就是把每个文字都转换成计算中的向量。末尾有个解码器,就是反过来把计算机中的向量转换成文字,完成预测下一个词这样的任务。 中间就是对这些向量进行各种乱七八糟的计算,其中注意力层就是向量间的加权求和,目的呢,是让每个词都包含其他上下文的信息。前馈神经网络层就是给每个 token 的 向量做个非限行变换,这一步就是最终能计算出下个词是什么的关键步骤,就这么简单。 你说这破玩意能撑这么多年?没错,那接下来我们就一起来看看这些年人们都在这个破玩意上缝了多少针吧。 先看编码器这部分,在原始的汉字封面架构中分成 token binding 和 position 绑定两部分。这里的位置编码就是在原向量的基础上,根据不同的词的位置再加上一个新的向量。 那具体加的这个向量是什么? transformer, 原论文中是取个固定的值,具体说呢,是通过正余弦函数算出一组值,那这种方式称为固定位置编码,但是后来被一种叫做旋转位置编码的技术给淘汰掉了,这种方式呢,可以让向量间计算点击时得到一些友好的位置特性。 再后来呢,又有人发明了对旋转位置编码的扩展方法,让人目的是可以支持更长的上下文位置计算。甚至呢,还有人提出了一种叫 nope, 即没有位置编码的一种位置编码方式,而且呢,还证明了一些场景的有效性。看到了吧,就这么一个位置编码的创新,基本就被挖干净了呀, 实际的应用呢,也基本是事件线收束了。好了,我宣布,位置编码死。回到这里,再看个更夸张的,有的时候我们为了稳定训练,需要把向量控制在一个可控的范围内,同时呢,要保证他们之间相对的差距不变, 比如说原来是这个样子,那把均值控制为零,方差控制为一,就变成了这个样子。这种把数据变换到一个更稳定的范围的方法叫做归一化。 在 transformers 原始论文中,具体的归一化方法叫 layer norm, 即层归一化。而现在大模型更常用的一种叫法叫 rms norm, 更适合当代大模型的训练。还没完,这只是具体计算算法的不同。而这个归一化层呢,还可以安插在模型中的各种位置, 比如说安插在注意力层之前叫做 pre nom, 安插在注意力层之后叫做 post nom。 那 还可以,前面也来一个,后面也来一个。还没完。那接下来我们还会讲到残差连接,那这个 post nom 还可以像这样安插在残差连接之前,也可以像这样安插在残差连接之后。 哎呀我的天呐,这样组合起来可就老多了。但是不好意思,所有这些组合都被咱们伟大的人类玩过了, 还没完。这个归一化操作可不仅仅是作用于词向量,还可以作用在注意力层里面的这个 q k v 向量上。那用在 q 向量上就叫做 q null, 用在 k 向量上叫做 k null, 用在 v 上又叫 v null, 然后还可以同时作用在 q k 上,叫做 q k null, 同时作用在 k v 上叫做 k v null。 啊,不好意思,这些组合也全都被玩完了,那你还能想到其他改动的点吗?归一化词, 来看看下个倒霉鬼是谁吧。这俩大哥,咱们先别动,刚刚我们不是提到了个残差链接吗?在原始的 transform 实现中,就是一个简单的加法操作,这么多年来也没人敢动这里。 但是后来咱们的字节 deepsea kimi 分 别提出了 h c m h c attention receipt, 让这个所有人都觉得是个默认的,肯定是正确的部分也被动了刀子。当然了,这块还比较新,目前还处于探索阶段,玩的花样呢,也十分有限。残差连接死 呃,接下来就剩这俩大哥了,让我们先给这个占地面积最大的 f f 口瓢了, f f n 层动刀吧! 这个 f f n 层其实就是一个普通的全连接神经网络,属于是深度学习入门级别的结构了,只不过在大模型这里面就占地面积特别大了,这里的每条线都可以表示一个参数,那如果它特别大的话,就很占地, 怎么办呢?答案很简单,变小点就好喽。那我们这样,先把这个大的 f f n 拆成两个小的 f n, 最后呢,增加一个可训练的路由层, 每个 token 的 计算只路由到其中一个 f 分 上,这样呢,就能保证总参数量仍然是很多,但是推理时只激活少量的参数,做到了一种平衡。那这里的每个小 f 分 的网络又叫做 expert 专家,整个结构呢,构成的就叫做混合专家模型 m o e 呃,后来 deep seek 又对这个网络进行了再次优化,比如说把专家拆分的更细,引入了共享专家等等,起了个新的名字,很粗暴,就叫做 deep seek m o e。 那现在啊,你在很多模型名字上看到类似什么 a 多少多少 b, 这种写法就是 m o e 架构,表示总参数量是三百九十七 b, 每次呢,只激活十 b 十七 b 的 意思,不好意思,又嘴瓢了。 现在的大模型基本上都 m o e 化了,只是专家数和激活比例各有各的配法。那为此呢,人们还发明了个新词,把之前所有参数都参与计算的模型叫做诞死稠密模型,现在只激活部分参数的叫 sparse 稀疏模型还其实就是 m o e 死 好了,就剩下这个最经典的注意力层了,是 transformer 架构的一个精髓,而且呢,人们在这上画的功夫可以说是恐怖如斯,我就没见过这么卷的。有 transformer 原始论文中的 mha, 以及后来改良的 mqa gqa, 还有 deepsea 研发的 mla, 然后还有稀疏类型的,比如说 deep seek 的 dsa, swa, csa, hca 等等,然后以及把注意力改成现行的,比如说 kimi 的 kda gate down to night lighting attention, 还有现在呃,最新的曼巴模型,这些全都是注意力极致的改良。 虽然看着眼花缭乱,但本质上解决的问题却非常简单,我一说你就懂了。其实这个注意力层最大的问题就是每个 token 向量都需要和其他向量来一次计算。呃,说 token 烧向量烧的就是这玩意儿。 那有一种办法是仍然是每个 token 之间都算一次,但是计算量相对减少一点,比如说想办法把向量缩短啊等等,这就是 m q a g q a m l a 所努力的方向,数量没变,但是难度降低了。 另一种办法呢,是计算的数量减少,比如说只计算一个固定窗口内的头肯,或者呢,通过某种办法挑选一部分头肯进行计算,这就是 dsa, swa, csa, hca 思想的核心,也叫做稀疏注意力类型。 那还有另一种更极端的办法,就是直接把注意力机制的复杂度变成限行增长,比如说 k, d, a, delta, night, lightning, namba 都属于这种。那由于它实在太另类了,所以说人们把传统注意力和这种限行注意力混合使用的方式又叫做混合注意力。 hebert attention, 呃,这块暂时就没有那么统一了,现在是百花齐放,谁也不知道哪个更好。但是也是由于实在太卷了,能创新的点早就被挖干净了, attention 死。 总结一下,位置编码归一化,残差连接 f, f n 注意力,整个架构已经没有多少可以动刀子的地方了。当然呢,这期视频有点标题党 严谨点说是我觉得现在的语言模型领域,单纯依靠继续优化传送门架构而带来模型能力上线的突破,那这条路的空间已经不大了。 从一年一度的福啊不斯坦福报告中也可以看出,开元模型和闭元模型的差距在不断缩小,各厂商之间的差距也在不断缩小。这其实很好理解,假如大模型的发展是现行的,那他们的差距应该是保持不变的。 假如是指数型的,他们的差距反而应该是越拉越大。只有发展是逐渐放缓的,差距才会逐渐缩小。同时呢,这也和我们的体感是差不多的,能大幅提升性能的简单手段真的是已经越来越少了。那从更宏观的视角,我找到了 ai 发展的三个定律, skill level, 就是 我们说的大力出奇迹,但是现在互联网的数据基本上已经被咱们人类挖干净了,算力和模型规模呢,也很难在短时间内提升,所以说遇到了瓶颈。 peter lesson 告诉我们,从长期来看,我们人类人为在模型架构层面设计的一些小巧思呀,在更大的模型面前,反而是阻碍,更狠一点说,就是人类的自以为是阻碍了模型的学习速度。 尤其呢,是在现在,大模型架构已经被人们弄了这么多刀了,即便是有新的想法,在这个定律面前,也可能是一种富有化。莫拉维克辩论就是说对人类很简单的对机器很难,反过来,对机器很简单的,对人类反而很难。比如说机器在算术方面就秒杀人类,但是你让他缝个衣服试试,这就是世纪难题了。 便是在语言模型中,这个问题依然存在,整个底层的这个 transformer 架构其实并不一定是正确的。当然了,基于这些考虑,人们也早就在尝试其他的做法了,比如说多模态和世界模型,只不过现在有一些多模态,它只是做了一个模态对齐,最终呢,还是在利用大语言模型的便利。 世界模型那就更模糊了,边界和定义都不清晰。这个呢,我可以找时间单独出一期视频好好聊聊,这里混乱的很。 呃,不知道你看到这里有什么感受呢?那这里的话,我也在视频最后稍稍叠个假哈,就是,虽然可能已经没有用了, 就是视频中我之前有各种什么这个死了,那个死了,其实并不是对技术的不尊重哈,我恰恰是想用这种方式呢,就是给大家形象的展示一下现在呃大模型的一个架构变迁。 其实我们每天接触的新名词可能有很多啊,加上每一次一个新的技术出现的时候,总会带来一些嗯,过度的宣传吧。但是本期视频的话,你就会发现,呃归根结底的话,其实也就是一堆一些就是固定的套路,反过来调过去的去改,很少有完全出乎意料的一些花样。 那我们我觉得我们不应该高估单个技术的贡献,同时呢,也不应该低估呃技术的量变产生质变的一个过程。所以说如果觉得这期视频有帮到你的话,求个小小的三连哦。 等后面再出现什么新技术的时候,你可以回看一下呃,这期视频,从上帝视角重新审视一下,或许你能很快判断出这些新技术的地位和影响吧。好,感谢大家。

想象一下这个让人窒息的场景,你去面一个现在最火的 ai 岗位,满怀信心地跟面试官说,哎,我会吊大模型 a p i 写提示词儿也贼溜。结果人家微微一笑,直接甩出一个问题,那你能详细说说 agent 的 底层执行逻辑,还有 r e g。 的 召回率吗? 瞬间懵了对吧?残酷的现实是,现在这技术狂飙的时代,光会跟 ai 聊天可远远不够了。欢迎来到今天的深度讲解。今天咱们就来硬核破解,直接掀开 ai 那 个神秘的黑盒儿。 说真的,你每天都在跟 ai 愉快地聊天儿,但你真的懂它底层是怎么转的吗?像什么 tokens、 r a g、 agents 这些高频出现的吓人术语,听着是不是有点头大? 其实完全没必要怕,今天我就给渴望进阶的你交个底儿,咱们把这些会测的专业黑化一次性全拆解明吧!咱们要从最微观的数据单元开始,一步步搭起一个完整的有技术深度的 ai 世界观,全是干货!准备好了吗? 咱们先快速过一下今天的路线图,第一,核心引擎大模型和 tokens。 第二,记忆中疏上下文和 r a g。 第三,精准控制提示词工程。第四,现实桥梁外部工具。最后,终极形态 ai agent 智能体 好了,直接进入第一部分,核心引擎大语言模型与 tokens 现代大模型。这股神话的风,其实得追溯到二零一七年的 transformer 架构。咱们抛开那些让人头晕的数学公式不说,大模型到底是怎么思考的? 其实它的底层逻辑极其朴素,本质上,这就只是一场疯狂加速的文字接龙游戏。 你想啊,当你问他你喜欢什么水果,他可不是在脑子里一口气把整句话憋出来,他是去猜,去预测下一个概率最高的词。 比如他先吐出一个我字,然后最关键的来了,他不会停,他会把这个我字抓回来,跟你的问题拼在一起,再去猜下一个词,喜欢这个循环,就这么一直疯狂重复,直到他说出一个特殊的停止符号。 这就是为什么你看它回复的时候,字总是一个一个往外蹦的,这叫流势输出。但这里有个大矛盾呐, 大模型本质上是个狂算矩阵的超级计算器,它只认得数字,根本不认识咱们人类的文字。那咋沟通就得靠 tokenizer, 也就是分词器了。其实就四步,首先把人类的句子切成碎块儿,这些小碎块儿就是 token。 第二步,给每个 token 发个身份证号,也就是一串 id 数字。第三步,把这些数字塞进模型里去,进行超复杂的数学推演,算出下一个数字。最后再把这串冷冰冰的数字点扣,翻译回咱们能看懂的文字。 所以你看,在这个过程里, ai 彻头彻尾都只是在数字世界里冲浪。那你可能要问了,这个 token 到底有多大? 这绝对是个重灾区级别的误区。很多人以为一个 token 就是 一个单词,其实根本不是一对一的。记住,这个非常实用的干货比例,平均算下来,一个 token 大 约等于零点七五个英文单词,或者能装下一点五到两个汉字。 所以下次如果在公司有人跟你吹牛说,哎,我们这个模型一次能处理一百万个 token, 你 马上就能在心里默默拿这个比例算一下,精准搞清楚它到底能塞进多少页的中文商业报告了。 明白了引擎,咱们看第二部分,记忆中书上下文框与 r a g 大 模型本身呐,其实就像是只有七秒记忆的金鱼,聊完就忘,那它怎么能跟你顺畅地聊一整天呢? 秘诀就在上下文窗口,也就是 context window, 它就像是 ai 的 临时工作台,每一次注意是每一次你发新消息过去,后台都会自动把系统规则、你们之前的全部聊天记录,再加上你最新的问题,一股脑儿全摊在这个工作台上让它看。 不过呢,这工作台面积是有限的,就算现在有的模型吹自己有一百万的上下文,你要沾把几千页的说明书全塞进去,不仅贵得离谱,还随时可能把窗口撑爆,直接让模型荡机。 那怎么搞定这个致命的记忆瓶颈?这就轮到现在的当红炸子机出炒了。 r a g 技术,也就是减射增强生成, 你可以把它当成一个绝顶聪明的图书馆员。当你提问的时候, r a g 绝对不会傻乎乎地把一整座图书馆搬给模型。 它是先去书海里精准搜出跟你问题最最相关的那么几个片段,然后只把这几个关键片段放到 ai 的 工作台上。你看,这么一搞,既完美绕开了窗口大小的限制,又给公司省下了一大笔算理费,简直是一石二鸟。 接着看第三部分,精准控制提示词工程。想精准拿捏 ai, 你 得先分清两种截然不同的提示词,一种是 user prompt 用户提示词就是你天天在对话框里敲的具体任务,比如最简单的三加五等于几, 但这玩意儿不是最厉害的,真正强大的是藏在后台的 system prompt 系统提示词,它才是设定模型、底层人设和行事底线的大 boss。 比如对发者会在后台悄悄下令,你现在是个极具耐心的老师,必须一步步引导学生思考,绝对绝对不能直接给答案。 那你说,当一个小白用户跑去问三加五,碰上这么严格的后台规则,会发生啥化学反应? 面对三加五大模型,在系统提示词的死死压制下,绝对不会直接脱口而出那个八,相反,他会乖乖按照规则给你来一段循循善诱的辅导。你看啊,你手里有三个苹果,又捡起来五个,数一数,现在一共有几个呀? 看到了没?只要把这两个一组合,咱们就能毫不费力的精准操控 ai 的 行为了。第四部分,现实桥梁外部工具调用 说实在的,目前的 ai 即使有个挺可怜的致命伤,他被死死关在一个小黑盒子里,根本不知道外面的花花世界今天是几号,有没有下雨。 为了让他睁眼看世界,我们必须给他外挂各种 tools, 也就是工具。不过这里有个全行行业最大的误会,千万别踩坑。很多人真以为是大模型,自己跑去查了天气错,大错特错。当你问天气的时候, ai 只是在脑子里转了一下,吐出了一行代码,说, a, 我 要用天气工具。真正去跑腿干活的是充当中间人的那个平台,平台去掉接口,拿到了比如二十五度这样纯数字的原始数据,再扔回给黑河里的 ai。 最后, ai 再把这冷冰冰的数据润色,包装成一句贴心的人话告诉你, 记住啊, ai 只负责动嘴,平台才是真正动手去干的那个。可是问题又来了, 现在市面上有 open ai, 有 谷歌,各种平台五花八门,规矩全部一样,苦逼的开发者为了写一个天气工具,居然得改三遍代码,这谁受得了? 所以,革命性的 m c p 诞生了,也就是模型上下文协议。这名字听着挺学术,但你直接把它理解成 ai 界的 type c 接口就行了。 只要全行业都认这个统一标准,开发者写一次代码,这工具就能像 u 盘一样插在任何大魔镜平台上,无缝运转。这一下子,直接让 ai 生态的扩展速度原地起飞了。最后第五部分,终极自主 ai agents 智能体 聊到这儿啊,咱们可就不是再聊那种你问一句他答一句的被动聊天机器人了。到底啥才是真正的 agent 智能体? 他是一个有自主能动性的超级助理,他最牛的地方在于,当你给他丢过去一个巨大甚至有点模糊的目标之后,哪怕你完全不管他,他自己也会动脑子,把这个大目标一点点拆解成可以立刻落地执行的微小步骤。 咱们来跑一遍这个自主闭环就懂了。假设你随口给他一句,今天天气要是好,就帮我找个附近的公园散步。首先,他第一步会去 think, 也就是思考,等等,我得先弄清楚老百姓的人在哪儿啊。接着第二步, execute 执行,他去调用定位工具和天气工具, 拿到好天气的结果后,进入第三步,继续执行,去地图上搜附近的公园。最后第四步, observe 观察,他会把前面拿到的一堆零碎信息在脑子里做个深度整合,最后给你掏出一份完美的周末出行计划, 思考、执行,再观察。这套循环就是 agent 能够自我规划的终极灵魂。当然了,能力越大,越得管好它,对吧?怎么保证这个自己会干活的机器能完美贴合你个人的工作习惯和排版强迫症呢? 总不能每次都把规矩重新念叨一遍吧?这时候就得给他配上 agent skills 这东西听着玄乎,其实特朴素,往往就是一个存在你电脑里的 mark 当文件,它就相当于这位超级 ai 员工的员工手册。 这手册里死死规定了它的身份定位,遇到下雨必须提醒带伞的标准工作流,还有最后交报告必须列出要点的排版格式。有了这套机制, ai 才算真正变成了维尼试图的数字分身。 好了,深呼吸一下,咱们把刚才啃下来的干货死死焊在脑子里,自下而上捋一遍。 最底层,我们有了最核心的计算引擎,大模型和基础数据单元 tokens 往上一层,上下文框口和 r a g 解锁组成了它的记忆和外脑。再接着,我们用外部工具和通用的 m c p 协议给它搭起了脱模物理世界的桥梁。 而在整个金字塔的最顶尖,是能够自主规划的 agent 大 脑,以及用 skills 定制的行为准则。这就是一整套现代 ai 技术的完整世界观。 揭开这个黑和尚的重重迷雾之后,现在的你已经稳稳站在了技术的制高点上。 最后,我想留给你一个极具挑战性的问题,既然你已经彻底搞懂了 ai 大 脑背后这些迷人的机械原理,那么踩着这条全新的技术底座,你打算亲动手构建的第一个真账,属于你的自主智能体会是什么呢? 大胆去创造吧!这里是深度讲解,我是你们的讲解员,期待下次再带大家硬核拆解,我们下期见!

别再给大模型大炮轰蚊子了,这款 mcp 路由工具能帮你省下百分之八十的 api 账单。 开发 ai agent 的 兄弟们还在用 cloud opus 或者 gpt 四去做总结,格式化 jason 和提取 pi i 吗?这也太奢侈了! 最近挖到一个宝藏开源项目, zero gpu router, 它是一个专门为 ai agent 设计的智能任务分流器,核心逻辑非常简单粗暴,让你的大模型如 cloud code 继续专注高难度的逻辑推理。而把像摘要生成零样本分类、 敏感信息脱敏 p i i jason 提取这些琐碎机械的脏活累活,自动通过 m c p model context protocol 协议路由给轻量级的端测小模型,比如 t 五 small dbrta 等去处理。亮点 真经济,小模型成本只有顶级大模型的几十分之一,每次调用还会返回具体的 savings usd 帮你记账,免运维,拿来急用,完美适配生态无缝对接 opencloud 和最近大火的 cloud code。

你知道吗?你平时用的掐指 gdp 豆包,表面上看起来是一个 ai 应用聊天,但是真正的稳稳的接触你问题的,并且给你最直接最不绕弯的方式回答的是它背后的 l l m。 那 么什么是 l l m 呢? 它的英文名叫 large language model, 翻译过来就叫大语言模型,它专门处理语言,也能生成语言。那么一个这么好用的大语言模型是怎么来的呢?通常它不是一步训练出来的,大致会经过预训练,再做监督微调,最后做强化学习。那么我们本期就来说说这个预训练是怎么来训练的。 你可以想象一个画面,我们的模型刚开始就是一个空白的大脑,他没有读过网页,没有读过书,没有读过代码,也不知道一句话后面通常应该接什么。因此我们预训练要做的事情就是让我们这个空白的大脑看大量的文本,从文本里面学习到语言的规律和知识的模式。 为了直观的和大家讲清楚,那么我们就把它拆成三部分,就是我们的数据, talkin, 还有我们的训练这三部分。那么第一步我们就先来找数据模型,要学习语言就得看到足够多的文本,那这些文本是从哪来的呢?最常见的就是我们从网上的公开网页先把网页信息抓取下来,然后得到原始的文本。 但网页不是我们的课本,它里面有大量的广告、垃圾信息,还有违规内容,同时也充斥了大量重复的页面,这些东西我们是不能直接拿去训练的, 所以我们就要先清洗过滤到不合适的网页,然后从我们的 html 里面提取到真正的文字,然后再删掉重复的网页。最后我们将敏感信息,例如我们的手机号,地址之类的信息过滤掉。 清洗完之后呢,虽然说得到的不是完美的知识点,但他会变得相对干净。质量更高的训练文本。收集到高质量的训练文本之后,我们才能进行下一步, 那么下一步呢,就是把文字变成我们模型能够计算的数字。为什么要变成数字呢?就是因为我们计算机读不懂文字,他只认识数字。最基础的做法呢,就是先用我们 utf、 杠八之类的编码把我们的文字变成字节,比如这里的 hello, 我 们把 h 变成七十二, e 呢变成幺零幺, 依次类推,把我们这 hello 这个单词的五个字母变成五个字节。但是问题也随之而来,如果我们只按一个一个字节的来处理,我们的文本就会被切的很碎,而且我们的语料越大,我们的续列也就越长。 随之而来呢,就是我们的训练成本也是水涨船高。所以我们在进行真正的训练之前,我就会进行 tokenizer, 也就是我们的分词。分词,我们一般用 bpe 这类常见的分词思路,它要解决的不是给我们计算机翻译成他可以读懂的语言问题, 而是把我们的文本切成更合适的 token。 那 么一轮 bp 我 们可以这样来理解,我们要先统计哪些相邻片段经常总是一起出现,然后我们再把高频片段组合成一个 token, 就 比如我们这里的深合度,它经常连在一起,那我们就给它合成深度, 然后我们的学和习呢,也是经常连在一起的,我们给它组成学习,这样呢,我们四个字节用分词的方式呢,就给他压缩成了两个 token, 然后呢,我们将相同的事情重复多轮,最后我们就会得到 token 词表。那么常见的 token 词表规模大概是在几万到十万 token 不 等。 好处呢,就是让我们的训练变得更短了,让我们的计算变得更可控,得到了高质量的训练。文本也对我们的文本进行了分词。最后一步就到了我们的训练, 给我们模型一段上下文,让他预测下一个 token 的 概率分布,比如我们输入今天天气,我们的模型就要估计出来后面可能接的是什么。这里需要我们注意的是,他给出的不是一个答案,而是所有可能的 token 的 分布概率。就比如这里很好,可能占百分之五十的概率,不错呢,百分之三十, 然后噪光呢是百分之十,其他的 top 呢,加起来只有百分之十的概率,这些完整的分布加在一起是等于一。那么这些概率是怎么来的呢?没错,靠的就是我们这里神经网络的计算, 我们可以把神经网络理解成一个很复杂的函数,也可以把它想象成我们第一节台上的旋钮,但是我们这里的旋钮非常多, 可能有十亿,百亿甚至更多。一开始呢,这些旋钮都是乱的,所以模型给出的输出也是混乱的,但是我们的真实语料会告诉他输出的正确目标,这目标也就是我们上文后实际出现的下一个逃坑。比如我们真实语料写的是今天天气很好, 如果呢模型没有把很好的概率调高,那么就说明他预测错了。接下来我们就根据这个误差更新参数,让我们模型下一次的回答更加贴近我们的真实文本,这样一步步把我们正确答案的概率就调高了,那么显然这种预测是会重复无数次的。 模型就在我们这个过程中学到了语言的规律和知识的模式。在训练结束后,我们就得到了 best model, 但是当我们普通使用这个 bios model 的 时候,他是不会一边回答一边继续训练的,因为我们的 bios model 已经把他的神经网络参数固定下来了,并不会像训练一样根据我们的误差逐渐调整我们的神经网络参数。这时候他给出的答案就是基于他神经网络此时的参数给出来的他觉得最正确的答案, 所以在我们后面生成文本时,他用的就还是我们这一套固定的能力。那我们这里看一段上下文,比如说深度学习我们的模型,就要估测下一个 token 的 分布概率呢,正在可以或者是已经,然后正在的概率是最高的, 我们就生成了下一个 talkin, 就是 正在,然后我们把正在拼回上下文,继续向后预测,就这样不断的循环,直到我们的模型完成作答。所以我们的预训练也就是三件事情,那么第一步就是找到我们的数据,并且清洗它,把网上抓来的文本整理成我们能用的训练语料。 那么第二件事情呢,就是把我们处理过后的文本变成我们的 talkin, 也就变成我们模型能够处理的数字训练。那最后一步才是进行我们的训练预测。 我们用海量上下文和下一个 talk 的 目标不断地练习我们神经网络的参数,最终训练出来一个能够根据此时上下文推断出下一个正确 talk 的 模型。 最后我们要记住这一句话,预训练不是让我们的模型被答案,而是让我们的模型根据上下文学会预测下一个 talk 的 分布概率。那么到这里我们的视频也就结束了。如果你觉得本期视频对你有所帮助,那么就请你点个代码,下一期我将继续为你带来监督微调。

记住这个系统,新的 l l m 学习教程在 github 已经拿下了三十点七 k 的 新标。项目由 ai 领域大佬组织 day to will 打造,它能带你从零到一手搓一个二百一十五 m 参数的 mini 大 模型。项目会带你从 n l p 的 基本研究方法出发, 根据 l l m 的 思路及原理逐层深入,总共有七个章节,每个章节都都是详细的图文教程,并且配套了原代码,非常适合大学生、研究人员以及 l l m 爱好者就非常不错。

hello, 大家,最近我在学习大模型的一些底层原理,然后呢,为了加深自己的印象,我想用复述的形式跟大家分享一下我学到的内容。大家有没有发现 ai 圈有一个词,它出现的频率特别高, l l m, 我 一开始的时候我也是一脸懵啊,那它到底是什么呢? l l m 的 英文全称叫 lord language model, 翻译成中文呢,就叫大语言模型,听起来特别高级啊,但是其实你可以把它理解成一个读过海量文字的超级学霸,他读过书籍、新闻、网页、论文和大量的对话。 在 ai 正式回答问题之前呢,就已经经历过了一个疯狂学习的阶段,这个过程叫做预训练,后期我会专门出一期来讲, 因为他读过的内容远远超过普通人一辈子能看到的内容,所以呢,当你问他问题的时候,他会根据学过的内容给出合理的答案。那第二部分,为什么叫大语言模型?其实呢,也就是三个部分组成。第一个字呢,是大,代表着他学习过的数据多, 参数也特别多啊,你可以理解成他脑容量特别大,那参数是什么呢?参数呢,其实就是 ai 大 脑的经验值。语言,那语言这两个字代表着他擅长处理文字,比如说聊天、写作、总结、翻译,这些其实都属于语言能力。 那模型呢,你可以简单理解成经过训练以后的 ai 大 脑,所以组合起来它就叫做大语言模型。第三部分, l l m 和我们常见的那些 ai 的 关系,很多人以为啊,豆包、元宝、 chpt, cloud 等等这些就是 ai, 但是严格上来说呢,它们是 ai 产品, 而真正负责回答问题的都是它们背后的 l l m。 你 可以理解成啊, app 是 外壳,那 l l m 呢,是大脑, 所以你看到的大多数的 ai 产品,本质上它背后都是在调用某一个 l l m。 那 第四部分, l l m 是 怎样工作的呢? 这里其实有一个很多人第一次听都会觉得很震惊的事情,其实 ai 并不是像人一样真正理解你,它的核心工作呢,就是在猜猜下一个最有可能出现的词。我们举个例子哈,当你手机在聊天框输入今天天气的时候,输入法会去猜后面几个字,不错, 很好,停了, l l m 也是在做类似的事情。区别在于呢,你的输入法只学过几万句话,而 l l m 的 话,它是读过整个互联网, 所以你给他一句开头啊,他能猜下一个词,然后不断去重复,就形成了一段完整的回答。最后我们一句话总结一下啊, l l m 呢,就是大语言模型。 那平时呢,你使用的豆包啊、元宝啊、叉、 g b t 啊 cloud, 它背后都有自己的 l l m 在 工作,而后面你经常会听到的一些 agent 啊, m c p 啊,也都是围绕 l l m 展开的。

hi, 有 没有听过这些说法?是不是一头雾水?没关系,花两分钟带你用最通俗的语言,搞清楚这几个常见的 ai 术语, 不要被吓到。 l n m 其实就是 large language model 的 首字母缩写,你肯定听过它另外一个名字,大语言模型。我们常见的 deep seek、 豆包、千问、 chart、 gpt 都是 l l m, 大 就大在超大参数、超大数据的支撑 语言,是在于它专攻自然文本,所以 l a m 可以 通俗理解为一个读了全世界海量书本人的资料,超级会听懂人话,还能自己写文字的超级智能聊天大脑。 如果说大元模型是一个会认字、聊天、写字的大脑,那多模态模型就是什么都能看懂的全能 ai。 文字、图片、声音、视频,每一种都是一个模态。 使用多模态模型,你给他任何一种介制内容,发段文字,拍张照片,发段语音,传个视频,他都能看明白。可以通俗理解为 ai 模态里的全能学霸,看书、看图、听声音全都会。常有人问到这个词的意思,专业上将它解释为 ai 的 最小文字单位。 目前官方部的规范域名叫做词源,我们可以理解为 ai, 他 不认识完整的字和句子,他需要把我们的内容切成一小段一小段,这每个一小段就是一个词源头衔。 而考虑到应用场景上 token 多少决定我们需要消耗的相关费用,我个人会跟人解释时,把它类比为手机的流量情景,再赋予它一个算量的含义。词源就是 ai 世界里通用算法单位,我们输入内容的长短与 ai 反馈答案的长短, 最终都会以算量多少来合算,所以我认为 token 就是 像 ai 的 专属流量,既能帮助 ai 读懂文字,也是我们衡量我们使用 ai 多少的重要标准。 aj 就是 ai 智能体,普通的大模型只能被动接受指令,你说一步,他做一步,但 ai aj 你 主要说出最终的目标和要求,不用拆分细节反复提醒,他会自己理清步骤,先分析要做哪些事,再按顺序一步一步执行,还 能主动调用各类工具辅助完成。简单总结,普通 ai 是 聪明,但摸鱼的员工要去催促,而 ai aj 更像是一个自带思路的专属小助理,具备独立思考和自主办事的能力。 最近半年爆火的小龙虾就是一种 ai agent, 个人认为它也会是未来一个伟大的趋势与起点。以上的解释欢迎讨论,还有哪些希望突出了解的,咱们评论区见。

一分钟搞懂一个知识点,今天来聊一聊 ilm。 ilm, 中文叫大语言模型,英文全称是 large language model。 现在很多 ai 产品,比如聊天机器人、 ai 写作、 ai 编程,背后核心技术基本都是 ilm。 你可以把 l l m 理解成一个读过海量文字的超级语言大脑,他在训练阶段会学习互联网上大量的书籍、文章、代码和对话,通过不断预测下一个词最可能是什么, 慢慢掌握人类语言的规律。比如你说今天天气,很大多数人都会接好或者热, 而 l l m 做的事情其实也是一种超大规模的文字预测,只不过它学习的数据量非常惊人,所以它不仅能聊天,还能写文章、翻译、总结、写代码,甚至回答复杂问题。很多人觉得 ai 像是在思考, 但实际上, l l m 本质上是通过概率计算,找到最符合上下文的内容输出。它并不像人类真正拥有意识,而是因为训练数据足够庞大, 表现得越来越像人在交流。那为什么 l m 会突然爆发?关键有三个原因,数据更多了,算力更强了,模型规模更大了。当参数量达到几十亿甚至上万亿后, ai 的 语言理解能力就出现了明显跃升。 所以简单来说, l l m 就是 让 ai 学会理解和生成语言的核心技术,也是这一轮 ai 革命最重要的基础。