训练一个大模型可能要烧掉几千万,但这只是一次性的,真正的无底洞其实是模型上线后的推理成本。 你看像 deepsea 或者是拉马三这种巨无霸用户,每发一条消息,后台的钻率就在疯狂燃烧。如果你不懂推理优化的底层逻辑,你的服务可能刚上线显存就爆了,颜值高的用户想摔手机, 怎么让大模型跑得像 f 一 赛车一样快,还能像五菱宏光一样省油呢?这背后的门道今天我们一次性讲清楚, 我们主要是分四个部分来拆解大模型推理流程中最核心的股价。首先,我们会快速的过一遍现在的行业现状,这不是废话哦,你看懂了当前新模型的趋势,你才知道为什么现在推理优化变成了各个大厂的必争之地。 然后我们会打开模型的黑盒,看清楚 prefill 和 decode 这两个阶段到底是怎么运转的,这是你理解后面所有优化手段的基础。 接着我会介绍一个核心技术, heavy catch, 我 会用最直观的方式讲透它的原理,特别是那个经典的面试题,为什么只缓存 k 和 v 不 缓存 q 这部分,搞懂了技术原理这一块你基本就通关了。最后,我们会站在架构师的视角来做一次瓶颈分析,看看现在的推力引擎到底卡在什么地方,瓶颈在哪,逻辑很清楚对吧? 行,那我们不废话,直接进入第一部分。为什么现在推理优化这件事情变得这么迫切了?大家可以看这张图,这密密麻麻的像地铁线路图一样的,就是我们这几年经历的大模型的爆炸式增长, 当然这还只是更新到了二零二四年的数据。回想一下,可能就在两三年前,我们还在玩 g p 三,或者是刚开始接触 bot 那 个时代的模型。但是你看现在,不管是开源的拉玛系列,从一到三,还是我们国产的千问、 deepsea、 文星一言,这些优秀的模型真的是每个月甚至每周都在推陈出新。 而且这里有个很明显的趋势,我们做工程的同学肯定肯定是深有体会,模型是越来越胖了,以前我们跑个 demo, 可能七币十三币的餐数量显存随便挤挤就够了,但现在呢?斑马三到了四百零五币,甚至还有万亿参数级别的模型。 这就好比我们以前搬家,一张小皮卡就能拉走,现在我们面对的是一整栋楼的物资,那辆小车肯定是拉不动了, 对我们推理引擎的吞吐量绝对是一个巨大的考验。除了模型变大,我们用模型的方式也变了。我们再看下面这张图, 以前我们觉得大模型就是个 chatbot, 聊聊天嘛。但现在我们已经把它塞到了汽车里做座舱助手,塞到金融系统里面做风控,甚至在教育领域做辅导。特别是这里提到两个技术点,我们可以重点关注一下,因为它直接影响了我们后面要讲的推理瓶颈。第一个是 r a g, 也就是解锁增强生成, 这个大家应该很熟悉了,对吧?简单说就是我们为了让模型回答的更准确,会先把一大堆的企业文档知识库扔给他,让他先读完再回答。那就像考试的时候做阅读理解,文章越长,你读得越慢, r r g, 直接导致了我们输入的 prom 的 特别长,也就是 context wiggle, 上下文窗口被撑得很大, 对显存的占用是极其恐怖的。第二个呢,是多模态,现在不光是处理文字,纹身图、纹身视频早就已经普及了, 我们处理的数据不仅仅有 token, 还有像素,计算复杂度又是另一个量级。所以我们现在的处境是,模型越来越大,输入的上下文越来越长,应用场景对延迟的要求还越来越高。那么面对这么大的压力,那模型是怎么把这一堆数据给吃进去,再一个字一个字吐出来的呢? 这就涉及到我们下一章要讲的核心, free 和 decod 的 流程来,我们接着往下看。刚开始接触大模型的朋友,可能会有一个误区,觉得我问他一个问题,比如说你是谁? 是不是想好了一整句话,然后啪的一下全扔给我?其实完全不是,那模型在推理的时候,更像是在玩一个成语接龙或者是文字接龙的游戏,学术上我们管它叫做自回归。大家看这张图,当我问他 who are you 的 时候, 模型先憋出了一个词, i am, 然后关键来了,他会把 i am 这个新词立刻的拼到原来的问题后面,变成了 who are you i am。 再拿着这一长串去想下一个词,小谭每想出一个词,就把它给加进去,再去想下一个,让他觉得自己说完了,或者是撞到了一个停止符。 好了解了这个接龙的本质,我们就能把整个推理过程非常清晰地切成两刀,这一刀下去就把推理分成了两个性格完全不同的阶段, prefill 阶段,也就是预填充。 这是我们刚才把问题丢给模型的那一瞬间,比如说我丢给他一万次的 prompt, 这时候模型是很爽的,为什么?因为这一万个字是现成的,它不需要等, 可以一次性把这一万个字全都吃进去进行计算,利用 gpu 强大的算力,轰的一下算出第一个 token。 所以 在这个阶段,我们的 gpu 是 在全速运转的,算力的非常高,就像我们考试前去突击复习,一目十行,效率极高,这就是所谓的计算密集型。 然后痛苦的是,这个 d 扣的阶段来了,也就是生成了第一个字之后,我们要开始写后面的小作文了。这时候呢,因为是接龙,你必须等上一个字出来了,你才能算出下一个字, 所以他只能串形,一个接一个往外蹦,就导致了一个很尴尬的局面,哪怕你显卡再强,我也只能等你。而且随着你生成的字越来越多,上下文越来越长,但是每次却只能产出那么一点点 一个 token, 这就像挤牙膏一样,费了半天劲,只挤出了一点点。在这个阶段,我们的瓶颈往往就不在算力上了,而是在内存待宽上, 也就是数据搬运太慢了。那这时候就引出了一个巨大的问题,如果每次我们生成新词,都要把前面所有的历史记录重新给算一遍,那这效率得多低啊?所以为了解决这个问题,后面的工程师们搞出了一个神器,叫做 kivatch, 这个东西到底神在哪里呢?我们可以看这张图,如果我们不优化生成第三个 token 的 时候,我们就要算 t 零、 t 一、 t 二的注意力,等生成第四个 token, 我 们又得把 t 零到 t 三给算一遍。就像什么呢?就像你背书,每读一个新单词,都要从文章第一个词重新读起,这谁受得了啊? 所以这里的荣誉计算是非常恐怖的。那怎么办呢?我们就很自然地会想到以前读过的内容,我们能不能把它给背下来,把它存起来呢?这就是 carry catch 的 核心思想。 具体是这么做的,首先在 prefill 阶段,我们第一次把整段话读进去的时候,就已经把每个 token 的 k 和 v 这两个特征向量算出来了,这时候别扔,我们把它存到显存里,这就是 catch。 然后到了第扣的阶段,比如说,我们现在要生成第五个 token, 我 们只需要计算当前这个新 token 的 q、 k、 v。 重点来了,我们直接去显存里,把之前存好的 t 零到 t 四的 k 和 v 拿出来,跟新的拼在一起。 这时候我们就相当于只做了增量计算,不用每次都从盘古开天辟开始算了。这时候呢,很多细心的朋友可能会问一个问题,这也是面试里面经常被问到的,哎, attention 公式里面不是有 q、 k、 v 两这三个东西吗?为什么你只缓存 k 和 v, 把 q 给扔了, 看不起 q 吗?其实不是看不起 q, 而是 q 的 性质决定的。我们来打个比方,在注意力里面, q, query 代表的是我们当前的关注点或视线,当你读到文章的第一百个字,你的视线 q 是 聚焦在第一百个字上面的,你想知道这个字跟前面九十九个字有什么关系? 当你读到了第一百零一个字,你的视线就变了,变成了第一百零一个字。所以 q 啊,每一步都是在变的,它是当下的需求,写下来没有用, 因为下一秒你就不用它了。但是 k 和 v 不 一样,它们代表的是前面那九十九个字本身的内容和特征。不管你是读到第一百个字还是第两百个字,文章前面那段话的内容是不会变的,对吧? 既然内容不变,它对应的 k 和 v 就 永远固定在那里。所以我们就只要把 k 和 v 给存下来,无论你后面什么时候回头看,都能够直接用,这就是 k v catch 的 精髓,用显存空间换取了宝贵的计算时间。 好,我们终于来到最后一部分,这也是我们在做推理优化的时候,最容易掉进去的坑。刚才我们说了, carry catch 就 像一个外挂,帮我们省去了重复计算。但是啊,凡事都有代价, carry catch 的 代价就是吃显存, 而且吃相非常难看。首先是容量爆炸,大家想象一下,如果我们的 prompt 很 长,比如你要分析一本几百页的小说,那个 carry cash 的 体积是会限性增长的,甚至有时候装饰 cash 这样的显存比模型本身的权重还要大。这就像你买了个大房子, 结果家具没占多少地,全是快递盒子给堆满了。其次呢,是碎片化,因为我们不知道模型会突出多少个字,所以呢,我们没法提前给他画一块整齐的内存,这就导致了显存里全是这一块那一块的碎片利用率极低, 这也是为什么后来会有 price attention 这些技术来救场。那除了显存容量,其实还有一个更隐蔽的瓶颈。我们可以来看一下这一张经典的 roofline model 图。这张图看着复杂,其实道理很简单,告诉我们你的程序跑得慢,到底是因为算得慢,还是因为搬得慢呢? 我们可以来看一下这个红色的三角形区域。这个是 prefill 阶段,这个阶段因为我们是一次性计算很多 token, 我 们的 gpu 算力是被打满的, 这时候我们是 compute bond, 计算受限,也就是说你想快就得买更贵的卡堆,更强的算力。但是我们可以看这个黄色的方形区域啊,这是 decode 的 阶段。在这个阶段呢,我们每次只生成一个 token, 计算量其实很小,但是我们要从显存里把那个庞大的 carry catch 搬运到计算核心里去。 就好像你开着一辆法拉利,你去送外卖,结果每送一单都要回仓库搬一吨重的货,说跑得再快也没有用,因为时间全花在了搬货上。这就是典型的 memory bond, 仿存受限。 我们看下面这个实验数据就更明显了,在 decore 的 阶段,哪怕你的 bash size 很 大,你的吞吐量也很难像 free 那 样直线飙升。因为贷宽那么宽,路就那么点窄,你车再多也得堵在路上。所以这给我们一个什么启示呢?如果我们是要选购推理用的芯片,或者是设计推理系统, 我们不能只盯着算力看。对于推理啊,尤其是长文们,推理显存贷宽和显存容量往往会比算力更重要, 这也是为什么现在的推理芯片都在拼命地卷 hbm 高带宽内存的原因。好,那今天我们这节课从大模型的需求爆发讲到了推理的两个核心阶段, prefill 和 decode。 解释了 carry catch 这个关键技术 之后,我们分析了钻力和显存的瓶颈。所以你看,搞懂了这些原理,再去看市面上那些花里胡哨的加速框架,其实也就没那么神秘了,对不对?好了,这期视频就到这里了,我们下期再见。
粉丝15.1万获赞32.0万

最近很多人都在问, deepsea 微四究竟何时发布?是不是要用华为芯片实现全面路去美化训练?那今天我们就拨开谣言,讲透这件事的核心真相。 先说结论, deepsea 微四的训练环节依旧采用英伟达 gpu, 华为升腾芯片仅负责推理,不参与训练,这不是企业选择,而是当前算力与技术的客观规律决定的。有人会疑惑,华为已经拿到微四版本做适配,难道不是要在华为芯片上跑全流程吗? 事实是,华为适配 v 四的核心目的是推理部署,而非模型训练。那训练和推理有啥本质区别? 举个例子,训练 ai 模型就像生孩子,这个过程需要极致精益的算力支撑,海量参数调试是从零到一,创造模型的核心环节, 无法替代,无法外包。而推理是模型训练完成后对外提供服务。就像养孩子,模型成型后,只需要芯片能稳定运行,响应需求,无需再进行原创性的参数计算。放到 deepsea 微四上,就是模型还在训练的产房里未完成,而华为已经在准备推理阶段的托管服务, 二者分工完全不同。很多人被误导,华为升腾九五零 p r 碾压英伟达, h 二零是不是就能替代训练? 这里有一个关键混淆点,华为赢的是 h 二零,而不是 h 一 百,更不是英伟达。最新的微软如比,我们来看一下核心算力对比,即便对标 h 一 百,深腾九五零 p r 的 推理算力仍有两到三倍的差距,去年算力的缺口更大。 如果对比,如比单卡推理训练显存待宽,全是鸿沟级的差距,放到大规模集群里,差距还会几何级数放大?更关键的是软件生态,英伟达、库达深耕 ai 训练十余年,全球框架工具全围绕着它搭建。 华为看,框架仍在完善阶段,硬件算力加软件生态的双重差距,让训练环节暂时无法切换到国产芯片。不是不想,是技术上暂时跑不动。 但是重点是推理环节采用国产芯片,战略价值远远高于训练环节。国产化训练是一次性的高投入行为,一款模型训练完成后,核心工作就转向服务用户, 而推理是持续性的海量需求,用户每一次提问、代码生成、内容总结都是一次推理调用,市场规模是训练环节的几十倍甚至上百倍。打个比方,训练是盖楼一次性完工,而推理是物业费,每天都需要持续性的支出。 当下 ai 行业的主流方向是智能体、多模态视频生成,全部都是推理驱动型应用,用户体量越大,推理芯片的需求就越旺盛。 如果 deepsea 微四能实现华为升腾芯片的推理适配,这将意味着国内的 ai 服务商、开发者都可以用国产芯片部署服务,摆脱外部芯片限制,同时大幅降低使用成本,这也是国内科技企业大规模布局升腾芯片的核心原因。 所以,所谓 deepsea 用华为芯片全链路训练的说法,只是脱离技术现实的主观期待技术发展,并非爽文剧情。当前的客观现实是,训练环节依赖英伟达高端算力,推理环节加速推进国产替代。 deepsea 的 选择不是妥协,而是基于技术规律的精准布局。 至于 deepsea 微四迟迟未发布的真正原因,这款万亿参数级模型的训练成本极高,团队在英伟达芯片上推进核心训练的同时,还要同步完成华为升腾的推理适配, 双线并行的研发压力才是发布延期的核心因素。那推理国产化全面落地,对国内 ai 产业究竟意味着什么?欢迎评论区聊聊。我是小朱,点赞关注,一起看懂 ai 时代规则,下期见!

你是不是经常听说 ai 的 模型训练和推理,但是感觉云里雾里,别划走,一分钟给你讲的明明白白。假设你的公司要开发一个产品,它能够完成猫和狗的识别,那么第一步你开发这个产品的过程 就是叫模型训练。我们需要把大量的成千上万的图片交给这个模型,去不断提高它的准确率, 这通常这个过程就是一个烧钱、烧时间和烧算力的过程。我们需要大规模的 gpu, 然后海量的数据喂给你的模型,去不断的去修正模型的参数,最终将识别率达到一个可用的范围, 这就是模型训练的阶段。那么终于你的模型的准确率达标了,能够 发布产品给客户使用,客户拿到他需要识别的图片扔给这个模型,模型返回告诉他这是一只猫还是一个狗,这整个使用的过程我们就叫模型推理。现在你明白了 模型推理和模型训练之间的区别和联系了吗?总结来说,训练阶段是需要烧钱、烧算力、烧数据的一个大规模计算的过程,推理阶段就是最终这个产品完成之后交付给客户使用的一个过程。

相信大家都听说了啊, deepsea 四呢已经发布了,晚上不是炸裂就是失望啊,模型呢,是用来用的,不是用来吹的。那今天呢,我不说别的,来点干货, 我们专门针对推理能力啊,结合了目前国内比较火的九个模型,然后来评测一下使用的题目呢,也不是网上大家看到的这种评测题啊,我们就拿一个特别实际的数学问题啊,这是一个初中七年级非常简单的一个问题, 这个题目呢,我把它打在屏幕上,大家感兴趣的可以截一下屏,自己试着做一做。这是一个关于国际象棋棋盘上白格子能标记相邻黑格子,最少标记多少个白格子能覆盖所有黑格子的问题。 为了方便大模型处理,我把这个图形的网格呢,转化为由一和零分别代表黑和白的数字矩阵。 好的,我写了一个页面,专门去调取九个热门的大模型。那基本上呢,都是遵循官方接口优先,不做任何提示词处理,直接给题目看最终的答案。处理的过程呢,也为了防止干扰,我们是跑完了一个,再跑一个, 整个跑一轮呢,大概需要花费两到三个小时的时间,所以我只跑了三轮。这个结果呢,出奇的一致, 但是因为第一轮忘了录屏,所以大家看到的只有后两次的这个测试结果。首先呢,我们看一下速度,大家可以看实际中间的这个运行过程,这个速度呢,我没有做任何的加速,它就是原来的速度。 然后大家可以看一下最终的结果啊, deepsea 呢,有两个模型啊,一个 flash, 一个 pro, 它都成功的计算出来了啊,三次,结果里面呢,只有 flash, 其中有一次计算错了,算出来一个九, 但是其余的次数呢,都是完全正确的。 pro 呢?三次啊,三次都成功了。实测下来,正如 deepsea 所说的那样,这一次的 flash 和 pro 呢,根本不是大家理解上的它们之间有代差的这种关系,而是它们的推理能力其实是旗鼓相当的, flash 更快,但也消耗了更多的 token。 当然 flash 是 非常非常便宜的,所以算下来呢,大家平时如果是去解决日常工作,那其实 flash 就 足够了。看到这儿呢,你就会理解,为什么发布会之后,小龙虾呢,立马就把 deepsea flash 这个模型列为了默认模型。 其余的 kimi 二点六啊,对了一次,但是这个对呢,其实是懵对了啊,大家其实可以看一下,这句话呢,是自己说的,回答出来是因为时间不够了,他懵了,一个也没有去做任何叫验,所以后面的执行过程当中呢,他都错了。千问 plus 三点六啊,对了一次, 这一次比较意外的是 minx 的 m 二点七和 g l m 的 五点一,还有千问三点六,三十五, b 三次都中断了, 没有办法完成整个的推理。我看了一下,原因都是因为达到了输出上限,那每个模型呢,都有一个 input 的 最大上下文的上限,其实呢,还有一个很重要的参数,就是输出的最大 token。 平时大家做小任务可能感觉不出来,但是如果你是写程序写代码,那你就会有很明显的感觉。有的时候呢,任务做着做着,突然任务就中断了,这还真不是因为你的 agent 不 给力,很多时候呢,都是因为这个上下文达到最大限制而中断了。不知道大家有没有跟我一样的遇到过 mini max m 二点七最大输出一百二十八 k token。 但是在实测的过程当中,我还注意到一个细节, minx 的 最大 token 数啊,它这个千次呢,不是按照计算机通常的幺零二四为一千来去计算的, 它是按照整一千这个数字来去计算的,这个就有点鸡贼了,这相当于每标记一千个 token, 它就会比别人少二十四个,这很重要吗?其实也很重要,因为它跟我们计算费用是相关的。 那说到最后呢,我们看一下跑完整个任务,大家各自花了多少钱,我测试以后才发现啊,最离谱的其实是豆包 c 的 这个模型, 它的单价是非常昂贵的,而且它是按照 token 数量分段来去计算的,还分了三段,那这个任务算下来大概接近一百三十九块钱每百万 token。 当然这个算法呢,我是按照整个任务输入,输出都平摊了, 如果按照输出来看的话,它更加的夸张,豆包 c 的 模型百万托尼需要一百四十四块钱。 那看到这里呢,我比较纳闷的是,如果你是真正的深入去使用大模型的时候,你就绝对不会评价说 deepsea 微四让我们多么的失望,因为我看到的是一个非常认真踏实去做事的模型, 它的发布从来都不像其他模型一样去说自己有多么的遥遥领先,有多么突破,编程又是第一啥呢? 很多不明真相的群众呢,他可能只会听别人说,而别人呢,有可能是凭感觉说,最后呢,一窝蜂的去抢 codeplay, 不知道大家有没有跟我一样的感受啊?使用这些大模型有一个很大很大的体会,就是国产模型跟国外模型去 pk 的 时候, 往往觉得跑分呢都很高,也很接近,那为什么做出来的最后的结果会差距很大呢?其实本质就在这里, deepsea 绝对是一家非常值得尊重的企业,在如此浮夸的环境里面,还能说出不忧于欲,不口于非,率道而行,端然正己的话。 在发布之前呢,大家各种猜测,人员离职的质疑,之后又有很多人在说失望,也有捧之为国之重器,这些东西呢,在这句话的面前都显得尤其的渺小。最后,我把今天 测试的所有的代码和结果都放到粉丝群了,大家感兴趣的可以去取,如果大家还对什么模型感兴趣,可以评论区聊一聊,我们再给大家测一测。

训练一个大模型可能要烧掉几千万,但这只是一次性的,真正的无底洞其实是模型上线后的推理成本。 你看像 deep sea 或者是拉玛三这种巨无霸,用户每发一条消息,后台的算力就在疯狂燃烧。如果你不懂推理优化的底层逻辑, 你的服务可能刚上线显存就爆了,颜值高的用户想摔手机,怎么让大模型跑的像 f 一 赛车一样快,还能像五菱宏光一样省油呢?这背后的门道今天我们一次性讲清楚,我们主要是分四个部分来拆解大模型推理流程中最核心的股价。首先我们会快速的过一遍现在的行业现状,这不是废话哦, 你看懂了当前新模型的趋势,你才知道为什么现在推理优化变成了各个大厂的必争之地。然后我们会打开模型的黑盒,看清楚 prefill 和 decode 这两个阶段到底是怎么运转的,这是你理解后面所有优化手段的基础。接着我会介绍一个核心技术, heavy catch, 我 会用最直观的方式讲透它的原理, 特别是那个经典的面试题,为什么只缓存 k 和 v 不 缓存 q 这部分,搞懂了技术原理这一块你基本就通关了。最后,我们会站在架构师的视角来做一次瓶颈分析,看看现在的推理引擎到底卡在什么地方,瓶颈在哪,逻辑很清楚对吧?行,那我们不废话,直接进入第一部分。为什么现在推理优化这件事情变得这么迫切了? 大家可以看这张图,这密密麻麻的像地铁线路图一样的,就是我们这几年经历的大模型的爆炸式增长,当然这还只是更新到了二零二四年的数据。回想一下,可能就在两三年前,我们还在玩 g p 三,或者是刚开始接触 boss 那 个时代的模型。但是你看现在不管是开源的拉玛系列,从一到三, 还是我们国产的千问、 deepseek、 文心妍,这些优秀的模型真的是每个月甚至每周都在推陈出新。而且这里有个很明显的趋势,我们做工程的同学肯定肯定是深有体会,模型是越来越胖了,以前我们跑个 demo, 可能七币十三币的参数量显存随便挤挤就够了,但现在呢? 三码三到了四百零五币,甚至还有万亿参数级别的模型,导致了我们输入的 prom 的 特别长,也就是 context window 上下文窗口被撑得很大,对显存的占用是极其恐怖的。 第二个呢,是多模态,现在不光是处理文字,纹身图、纹身视频早就已经普及了,我们处理的数据不仅仅有 token, 还有像素,计算复杂度又是另一个量级。所以我们现在的处境是,模型越来越大,输入的上下文越来越长,应用场景对延迟的要求还越来越高。那么面对这么大的压力, 那模型是怎么把这一堆数据给吃进去,再一个字一个字吐出来的呢?这就涉及到我们下一张要讲的核心 freeview 和 decode 的 流程 来,我们接着往下看。刚开始接触大模型的朋友可能会有一个误区,觉得我问他一个问题,比如说你是谁?他是不是想好了一整句话,然后啪的一下全扔给我?其实完全不是,大模型在推理的时候更像是在玩一个成语接龙或者是文字接龙的游戏,学术上我们管它叫做自回归。大家看这张图, 当我问他 who are you 的 时候,模型先憋出了一个词, i am, 然后关键来了,他会把 i am 这个新词立刻的拼到原来的问题后面 变形。这就好比我们以前搬家,一辆小皮卡就能拉走,现在我们面对的是一整栋楼的物资,那辆小车肯定是拉不动了,这对我们推着引擎的吞吐量绝对是一个巨大的考验。除了模型变大,我们用模型的方式也变了。 我们再看下面这张图,以前我们觉得大模型就是个 chatbot, 聊聊天嘛。但现在我们已经把它塞到了汽车里做座舱助手,塞到金融系统里面做风控, 甚至在教育领域做辅导。特别是这里提到两个技术点,我们可以重点关注一下,因为它直接影响了我们后面要讲的推理瓶颈。第一个是 r a g, 也就是剪缩增强生成,这个大家应该很熟悉了,对吧? 简单说就是我们为了让模型回答的更准确,会先把一大堆的企业文档知识库扔给他,让他先读完再回答。那就像考试的时候做阅读理解,文章越长你读得越慢, r a g 直接导成了 who are you i am。 再拿着这一长串去想下一个词, 小谭每想出一个词就把它给加进去,再去想下一个,让他觉得自己说完了,或者是撞到了一个停止符。好了解了这个接龙的本质,我们就能把整个推理过程非常清晰的切成两刀,这一刀下去就把推理分成了两个性格完全不同的阶段, prefill、 预填充 和 decolor 的 解码。首先是 prefill 阶段,也就是预填充,这就是我们刚才把问题丢给模型的那一瞬间,比如说我丢给他一万次的 prompt, 这时候模型是很爽的, 为什么?因为这一万个字是现成的,它不需要等,可以一次性把这一万个字全都吃进去,不停地计算,利用 gpu 强大的算力,轰的一下算出第一个 token。 所以 在这个阶段,我们的 gpu 是 在全速运转的, 段位的利用率非常高,就像我们考试前去突击复习,一目十行,效率极高,这就是所谓的计算密集型。然后痛苦的是,这个 decode 的 阶段来了,也就是生成了第一个字之后,我们要开始写后面的小作文了。这时候呢,因为是接龙,你必须等上一个字出来了, 你才能算出下一个字,所以它只能串行,一个接一个往外蹦,就导致了一个很尴尬的局面,哪怕你显卡再强,我也只能等你。而且随着你生成的字越来越多,上下纹越来越长,而且每次回头看的负担也越来越重,但是每次却只能产出那么一点点 一个 token, 就 像挤牙膏一样,费了半天劲只挤出了一点点。在这个阶段,我们的瓶颈往往就不在算力上了,而是在内存贷宽上, 也就是数据搬运太慢了。那这时候就引出了一个巨大的问题,如果每次我们生成新词,都要把前面所有的历史记录重新给算一遍,那这效率得多低啊?所以为了解决这个问题,聪明的工程师们搞出了一个神器,叫做 carry catch。 这个东西到底神在哪里呢?我们可以看这张图,如果我们不优化生成第三个 token 的 时候,我们就要算 t 零、 t 一、 t 二的注意力,等生成第四个 token, 我 们又得把 t 零到 t 三给算一遍。就像什么呢?就像你背书,每读一个新单词,都要从文章第一个词重新读起, 这谁受得了啊?所以这里的荣誉计算是非常恐怖的。那怎么办呢?我们就很自然地会想到以前读过的内容,我们能不能把它给背下来,把它存起来呢?这就是 carry catch 的 核心思想。具体是这么做的,首先在 prefill 阶段, 我们第一次把整段话读进去的时候,就已经把每个 token 的 k 和 v 这两个特征向量算出来了,这时候别扔,我们把它存到显存里,这就是 catch。 然后到了递扣的阶段。比如说我们现在要生成第五个 token, 我 们只需要计算当前这个新 token 的 q、 k、 v。 重点来了,我们直接去显存里,把之前存好的 t 零到 t 四的 k 和 v 拿出来, 跟新的拼在一起。这时候我们就相当于只做了增量计算,不用每次都从盘股开天 d 开始算了。这时候呢,很多细心的朋友可能会问一个问题,这也是面试里面不是有 q、 k、 v 两这三个东西吗?为什么你只缓存 k 和 v, 把 q 给扔了, 你看不起 q 吗?其实不是看不起 q, 而是 q 的 性质决定的。我们来打个比方,在注意力里面, q query 代表的是我们当前的关注点或视线,当你读到文章的第一百个字, 你的视线 q 是 聚焦在第一百个字上面的,你想知道这个字跟前面九十九个字有什么关系?当你读到了第一百零一个字,你的视线就变了, 变成了第一百零一个字。所以 q 啊,每一步都是在变的,它是当下的需求,写下来没有用,因为下一秒你就不用它了。但是 k 和 v 不 一样,它们代表的是前面的九十九个字本身的内容和特征。不管你是读到第一百个字还是第两百个字,文章前面那段话的内容是不会变的,对吧? 内容不变,它对应的 k 和 v 就 永远固定在那里。所以我们就只要把 k 和 v 给存下来,无论你后面什么时候回头看,都能够直接用,这就是 k v catch 的 精髓,用显存空间换取了宝贵的计算时间。好,我们终于来到最后一部分, 这也是我们在做推理优化的时候最容易掉进去的坑。刚才我们说了, carry catch 就 像一个外挂,帮我们省去了重复计算。但是啊,凡事都有代价, carry catch 的 代价就是吃显存,而且吃相非常难看。首先是容量爆炸,大家想象一下,如果我们的 prompt 很 长,比如你要分析一本几百页的小说, 那个 carry cash 的 体积是会限性增长的。甚至有时候装饰 cash 这样的显存比模型本身的权重还要大。这就像你买了个大房子,结果家具没占多少地儿,全是快递盒子给堆满了。 其次呢,是碎片化,因为我们不知道模型会突出多少个字,所以呢,我们没法提前给它画一块整齐的内存,这就导致了显存里全是这一块,那一块的碎片利用率极低。这也是为什么后来会有 cash, attention 这些技术来救场。 除了显存容量,其实还有一个更隐蔽的瓶颈,我们可以来看一下这一张经典的 roofline model 图。这张图看着复杂,其实道理很简单,告诉我们你的程序跑得慢, 到底是因为算的慢,还是因为搬的慢呢?我们可以来看一下这个红色的三角形区域,这个是 prefill 阶段。 这个阶段因为我们是一次性并行计算很多 token, 我 们的 gpu 算力是被打满的,这时候我们是 compute bond, 计算受限,也就是说你想快就得买更贵的卡堆,更强的算力。但是我们可以看这个黄色的方形区域啊, 这是 decode 的 阶段。在这个阶段呢,我们每次只生成一个 token, 计算量其实很小,但是我们要从显存里把那个庞大的 carry catch 搬运到计算核心里去。 就是好像你开着一辆法拉利,你去送外卖,结果每送一单都要回仓库搬一吨重的货,所以跑得再快也没有用,因为时间全花在了搬货上。这就是典型的 memory bond 缓存受限。我们看下面这个实验数据就更明显了, 在 decore 的 阶段,哪怕你的 bash size 很 大,你的吞吐量也很难像 prefel 那 样直线飙升,因为贷宽那么宽,路就那么点窄,你车再多也得堵在路上。所以这给我们一个什么启示呢?如果我们是要选购推理用的芯片或者是设计推理系统,我们不能只盯着算力看。 对于推理啊,尤其是长文们,推理显存待宽和显存容量往往会比算力更重要,这也是为什么现在的推理芯片都在拼命地卷 hbm 高待宽内存的原因。好,那今天我们这节课从大模型的需求爆发讲到了推理的两个核心阶段, prefer 和 decode, 解释了 kevatch 这个关键技术, 最后我们分析了算力和显存的瓶颈,所以你看,搞懂了这些原理,再去看市面上那些花里胡哨的加速框架,其实也就没那么神秘了,对不对?好啦,这期视频就到这里了,我们下期再见。

模型的训练和推理有什么区别?训练就是学习需要大量数据投喂模型,不断的做练习题,背答案,最后学会了这个知识。 推理就是学完知识的你上场答题了。训练必须用 gpu, 推理的话看情况,复杂问题用 gpu, 简单问题也可以用 cpu, 或者再搭配下 npu。 关注我讲小学生都听得懂的 ai。

装一台大模型推理服务器, c p u a m d 霄龙七五三二三二核心六十四,现成两颗,内存三星六四 g d d 二四 e c c 两条总容量一百二十八 g 硬盘一个英跳一点九二 t u 二,高速 s s d 机加 m c f 二四 g p u 服务器主板 二优侧吹热导管散热器两个,一个西捷八 t 企业级硬盘显卡,英伟达 rtx 四零九零原版二四 g 显存两张长城两千六百瓦模组电源 四 u 八盘位热插拔服务器机箱。

amd 的 股价在过去一年里涨得超过三倍,与此同时,它的 pe, 也就是市盈率已经高得让很多人下不去手。涨幅那么夸张,估值又那么贵,很多人首先想到的自然是 ai 泡沫。 过去一年,资本市场几乎把所有和 ai 基础设施有关的公司都进行了重新定价,从 gpu 到存储,从光通信到电力冷却系统,只要一家公司沾上了 ai 股价,就很容易被炒到天上去。 那么作为全球最重要的半导体公司之一, amd 的 高估值到底是市场太疯狂,还是它背后真的发生了某种产业变化?这期视频我们就借 amd 这家公司来观察 ai 产业正在发生的新变化, 也看看带领 amd 完成逆风翻盘的苏博士是如何判断 ai 产业的下一个阶段的。 我们会重点回答三个问题,第一是市场为什么愿意给 amd 这么高的估值?它到底在定价什么? 第二是作为英伟达最重要的挑战者之一, amd 为什么能够抓住这一轮 ai 基础设施的爆发? 第三是如果 ai 数据中心的需求已经这么旺,存储成本又在疯狂上涨, amd 为什么没有继续压住 aipc 和端侧的 ai? 我们先来看第一个问题,如果你留意 amd 最新一季财报发布后的新闻,你会看到一个惊人的消息,五月五日财报发布后, amd 的 股价直接跳涨了百分之十八, 而当时 amd 的 pe 已经高达一百三十六。这个数字是什么意思呢?简单的来说,就是投资人愿意为 amd 每赚一美元的利润支付一百三十六美元的价格,这难道不是严重高估了吗? 很多人自然会想到, ai 泡沫如果只看市盈率,确实有一种高处不胜寒的感觉,但金融市场的定价永远不只是看现在,更重要的是看未来的增长预期。所以有一个关键指标叫 peg, 也就是市盈率。相对于盈利增长的比例,投资大师彼得林奇在投资成长股的时候,非常看重这项指标。在很多科技股的估值模型里,如果 peg 低于一, 往往意味着即便当前的市盈率很高,但如果未来利润增长足够快,这个估值就未必算贵,甚至可能仍然被低估。所以回头看,当时 amd 的 peg 其实只有零点八二。 这并不是说当时 amd 的 股价已经很便宜,但至少说明了一件事,市场并不是完全在凭情绪炒作,而是在给 amd 的 未来盈利增长定价。当然, pe 和 pe 都是动态指标,随着股价的变化,最新的 pe 已经上升到了一以上了。 这里真正重要的不是某一个数字,而是要看懂市场定价背后的逻辑。 amd 确实不便宜,但更关键的问题是,未来 ai 数据中心服务器、 cpu 和 gpu 业务的增长,能不能消化这个高估值? 我们可以先来看看他们最新发布的财报。 amd 在 二零二六年第一季度的总营收达到了一百零三亿美元,同比增长了百分之三十八,这个数字放在当前的经济环境下已经是非常亮眼了。 而真正的增长引擎是 amd 的 数据中心业务,数据中心营收同比增长了百分之五十七,直接做到了五十八亿美元。 对于一个已经这么大的业务体量来说,这种增速是非常罕见的。同时, amd 的 每股收益也达到了一点三七美元,远远超过了市场预期的一点二七美元。 如果说财报数据反映的是过去一个季度的成果,那么支撑 amd 高增长的则是一次非常反常识的上调。 amd 把服务器 cpu 的 t a m, 也就是总潜在市场规模直接上调了一倍。 在这次财报和之前的分析师大会上, amd 就 明确提到,他们原本预计到二零三零年,服务器 cpu 的 总潜在市场规模大约是六百亿美元,但现在他们把这个数字直接调整到了一千两百亿美元,年复合率超过百分之三十五。 问题就来了,既然大模型都在用 gpu 跑算力,为什么被很多人冷落的 cpu 反而会迎来这么猛烈的增长? 这里最关键的变化就是 ai 的 玩法已经变了。过去两三年, ai 行业最热门的是训练大模型,所谓训练,就是把大量互联网数据、文本、图像代码和各种数据喂给模型,让模型学会理解和生成内容。 这个阶段最依赖的是 gpu 那 种大规模并行计算能力。说的通俗一点就是大力出奇迹。但现在基础大模型正在逐渐成熟,行业开始进入了一个新的阶段,叫推理阶段,也就是 influence。 更进一步,它正演化出一个让所有科技巨头都非常兴奋的新形态,代理型 ai, 也就是 agent。 ai 这个词听起来很抽象,我们换一个很容易理解的方式。以前的 ai, 比如早期的大模型,我们问他一个问题,他就给一个答案,然后事情就结束了,他更像一个智能的百科全书。 但代理型 ai 就 不一样了,他不只是回答问题,而是像一个可以自我规划任务的实体员工。比如你是一家公司的老板,你可以让代理型 ai 去策划一场针对竞争对手新产品的营销反击战。 这个任务就不再是简单的问答了,它需要先分析竞争对手的新产品,抓取全网公开的数据,再生成营销文案。还要调用公司内部的财务数据库,结合预算、渠道和销售目标,最后形成一套可以执行的方案。 在这个过程中, ai 不是 只跑一次模型就结束了,而是要不断的拆任务、调用工具、查找数据,调用不同的模型,再把结果组合起来。 所以,如果说传统 ai 更像一个可以查询的智能百科全书,那么代理型 ai 就 像你雇了一整个实习生团队。这个时候, gpu 依然很重要,它就像那些聪明强壮、负责干苦力的实习生,擅长大规模和并行计算。但问题来了, 谁来拆解这些复杂任务?谁来协调不同模型之间的数据流转?谁来确保负责抓数据的模型把结果及时传给生成文案的模型?谁来决定下一步应该调用哪个工具,访问哪个数据库,执行哪个分支? 这时候总得有个项目经理,这就是 c p u 重新登场的原因。在代理型 ai 的 复杂调度过程中,你需要一个高效的项目经理,它需要有高主频、强逻辑控制能力,还要能处理复杂分支指令。这个角色正是 c p u 最擅长的。 gpu 的 特点是肌肉发达,适合按照既定轨道重复执行大量的并行任务。但如果 cpu 这个项目经理处理速度跟不上,你花几万美元买来的顶级 gpu 就 会在那里排队空转,无法充分利用。 过去在数据中心里,为了训练大模型,一个服务器机架上可能一个 cpu 带八个 gpu, 比例大概是一比八。 cpu 主要负责主节点, gpu 才是核心算力来源。但现在为了应对代理型 ai 带来的海量复杂调度任务, cpu 和 gpu 的 比例正迅速向一比一靠拢, 甚至在某些场景下,需要更多的 cpu, 这才是服务器 cpu 市场规模突然翻倍的底层逻辑。当你需要更多 cpu 去一对一匹配那些算力怪物的时候, cpu 的 需求量自然就会爆炸。 那么, amd 到底是如何抓住 ai 这波历史机遇的呢?我们先来看看 amd 现在手里到底有什么牌。 amd 在 财报里高调宣布即将推出第六代 epic 服务器处理器,代号是 venice, 基于先进制程和新的架构。 同时它们还有专为 ai 基础设施打造的相关 cpu 产品线,以及算力很强的 ai 四五零系列 gpu。 更夸张的是,财报里还提到, amd 和 metta 达成了一项高达六 g 瓦的超大规模 ai 算力合作。 六 g 瓦是一个非常恐怖的数字,差不多相当于好几座中型核电站满负荷的输出功率。这种规模的算力集群不只是电网的噩梦,更是半导体物理学的极限挑战。 为什么这么说?因为芯片制造是有物理极限的,我们天天听到三纳米、两纳米工艺,但芯片不是想做多小就能做多小的, 比如据说 m i 四五零这种芯片里就塞进了超过三千亿个晶体管。可以想象一下,如果想在一块硅晶圆上一次性光刻出一个包含三千亿个晶体管的巨大单体芯片, 那么只要在这个区域里有一粒肉眼看不见的微尘,或者一点点的金格缺陷,整块天价芯片就可能直接报废。从良率和制造成本来看,这几乎是一个物理学上无法成立的噩梦。 那么 amd 是 怎么把这种东西做出来的呢?答案就是小芯片技术,也就是 cheapla。 很多人喜欢把 cheapla 比作乐高积木。假如我们想造一座宏伟的乐高城堡,我们当然可以想象用一个巨大的模具一次性的浇铸出整座城堡, 但只要中间有一个气泡,整座城堡就废了。更现实的办法是,先制造一块质量很高的小积木,然后再把它们精准的拼接在一起。 a m d 的 思路就是这样,当先进制成越来越昂贵,晶体管越来越难以继续缩小的时候, a m d 没有选择死磕一块巨大的单体晶片,而是把芯片拆成一个个的小芯片,再通过先进封装把它们连接起来。这件事听起来很简单,但工程上其实非常困难。 以 m i 四五零这种芯片为例,它包含超过三千亿个晶体管,实际上是由大约二十多个小芯片组成的。问题在于,把它们物理上分开之后,数据怎么在这些小芯片之间高速流转?只要有一点点的延迟, ai 计算效率就可能大幅下降。 这就是先进封装真正体现工程价值的地方,比如二点五 d 和三 d 封装台机垫的 colos 技术,本质上就是在这些小芯片下面垫上一个极其精密的硅中介层。 我们可以把它理解成在乐高积木底下建一个超级高铁网络,数据在这个网络中的传输速度非常快, 以至于上乘软件运行时几乎感觉不到自己面对的是二十多块碎片拼起来的芯片,他会以为自己操作的仍然是一块完整的、拥有三千亿个晶体管的巨型晶片。 这其实是一种非常漂亮的工程欺骗,用系统设计和先进封装绕开了单颗芯片制造的物理限制。不过,光有绝妙的乐高图纸是不够的,如果没有顶级的代工厂来生产这些积木,再好的设计也落不了地。 这就引出了目前 ai 产业最大的痛点,那就是供应链瓶颈和产能。如果把这个问题放到更大的产业途径里, 我们就能理解苏博士为什么在这个敏感的节点宣布要在台湾投资约一百亿美元用于先进封装、 boros 测试以及锁定台积电的两纳米才能。这不是普通的投资,而是在关键的供应链环节上提前下注。 在接受天下杂志的访谈里,苏博士也提到了一个很有意思的细节,在这个供应链村庄里,大家既是竞争对手,也是并肩作战的合作伙伴。这种异敌异有的关系,说明了今天没有任何一家巨头可以独立制造出顶级的 ai 芯片。 你需要 amd 做设计,需要台机电的先进制造和先进封装,需要 hbm 厂商提供高宽带内存,还需要设备、材料、测试、基板、封装等一整套生态系统协助运转。 苏博士甚至每年会在台湾举办一场供应链晚宴,把整个供应链的大佬聚在一起,感谢这个紧密咬合的生态系统。这背后其实体现了半导体产业非常独特的一点,真正的竞争力并不只是来自单家公司,而是来自整个生态系统的协调能力。 所以早在二零一四年,苏志峰刚接任 amd ceo 的 时候,当时的 amd 还在生死边缘挣扎, 但他当时就做出了两个改变公司命运的长期赌注,第一个是坚定选择台积电作为先进制程的代工伙伴,第二个是全面压住 chiplet 小 芯片和先进封装。所以我们今天看到的爆发,其实是误导十年前种下的种子结出来的果实。 这也体现了科技行业一个核心真理,技术优势不是一夜之间出现的,它需要长期积累,需要持续下注,也需要在很长的时间里忍受不确定性。 最后,我们来聊聊跟我们普通人工作和生活息息相关的问题,那就是个人电脑,尤其是 aipc。 就上个季度而言, amd 的 客户端业务营收同比增长了百分之二十六,达到了二十九亿美元,尤其是 ryzen ai 系列产品在商业 pc 市场表现不错。 但他们同时也提到了一项风险,由于 hbn, 也就是高贷款内存以及相关组建的成本不断上涨, amd 预计二零二六年下半年游戏业务收入可能会比上半年下降超过百分之二十,连 pc 的 出货量也会受到影响。 既然 ai 数据中心的需求这么旺盛,存储和组建成本又在疯狂的上涨, amd 为什么没有减少 pc 业务的投入,反而还要继续压住 aipc 和端测 ai 呢? 而站在普通用户的角度,很多人也会有一个疑问,为什么我们需要在本地,也就是边缘端运行 ai 呢?现在的云端服务器不是已经足够强大了吗?上面插满了各种顶级的算力卡,我们可以直接连上网,用云端 ai 不 就可以了吗? 苏志峰特别强调了推动本地 ai 运算的三个核心原因,分别是隐私、成本和延迟。 隐私很好理解,无论是个人数据还是企业机密数据,我们都不可能把所有内容上传到云端,尤其是医疗、金融、企业内部文档,这些敏感数据本地处理会更加的安全。 第二个则是成本,每一次我们向云端模型提问的时候,背后都是巨型的服务器,在消耗昂贵的算力和电力。如果未来全球几十亿人每天都在云端运行代理型 ai, 成本会非常高,甚至难以持续。 所以科技巨头自然希望把一部分的算力分散到用户本地设备上,让电脑、手机、边缘设备分担一部分 ai 计算压力。 第三个则是延迟,这个问题在未来会决定很多应用的生死,比如机器人、自动驾驶、工业自动化这些物理世界里的 ai 应用, 如果数据在本地处理,反应时间可能是几毫秒,但如果数据先上传到云端,再传回来,可能就是几十毫秒甚至几百毫秒。 在聊天应用里,这点延迟或许只是卡了一下,但在自动驾驶和机器人场景里,几百毫秒的延迟可能就是完全不同的结果。所以本地 ai 不是 噱头,而是未来很多应用真正落地的刚需。 最后我们回到开头的问题, ai 行业经过了这么疯狂的增长之后,现在是不是已经有泡沫了?面对这个问题,苏博士在访谈里用一个棒球赛做比喻,他说,如果 ai 是 一场九局制的棒球赛,那么我们现在可能才刚刚打到第三局。 前两局大家主要是见数据中心训练基础大模型,而现在开启的第三局,未来五到十年的主题叫 ai everywhere, 也就是 ai 无处不在。这意味着 ai 不 止存在于云端大模型 也会进入 ai 应用、个人电脑、手机、机器人、汽车、工业设备以及各种边缘终端。所以从 amd 的 这次财报和苏斯峰博士的访谈里,我们可以得出一个结论,我们正处在一个关键的转折点, ai 行业正从单纯的算力比拼走向复杂的代理型 ai 落地。在这个过程中, cpu 和 gpu 的 协调、小芯片技术的突破,以及高度紧密的全球供应链生态,共同支撑起了 amd 眼中那个一千两百亿规模的服务器 cpu 市场。 amd 之所以能抓住这轮 ai 的 机会,并不是因为它临时追上了 ai 风口,而是来自长达十年多的布局。二零一四年的时候, a、 m、 d 还处在生死边缘,那个时候压住台积电,压住 chipla、 压住先进封装,并不是一个稳赢的选择。可十年之后,当 ai 基础设施进入爆发期, 这些长期选择就开始集中兑现。所以今天我们讨论的虽然是三千亿晶体管的怪物芯片,六 g 瓦级别的庞大算力,数百亿美元的,但真正驱动这些技术飞跃的, 最终依然是人的野心、勇气、远见和韧性。在一个 ai 几乎能做任何事的未来,人类敢于下那种十年赌注的判断力和信念,或许才是难以被替代的终极算力。这才是 amd 最值得研究的地方。

为什么大模型有时推理很强,有时又特别不稳定?他不是完全不会推理,而是很多推理能力并不是一个始终稳定可控的模块。 很多人用大模型时都会有一种割裂感,有时候他做题分析,拆步骤、写证明思路,看起来非常聪明,可换个题,加几个条件,把链条拉长一点,他又可能突然开始飘,开始漏,开始前后矛盾。于是很多人会困惑,他到底会不会推理? 更准确的答案其实是他不是完全不会推理,但他的推理表现往往带着很强的不稳定性。真正需要理解的不是他有没有推理能力,而是他的推理为什么时强时弱。 先把推理这个词讲清楚。很多人说的推理其实混在了一起,模式补全、步骤展开、逻辑约束和真正长链推导并不是一回事。我们平时一说模型会推理,其实可能指的是很多不同层面的东西。 有时候是他能把一个常见题型的思路写出来,有时候是他会列步骤,有时候是他能做一些条件组合,有时候则是要求他在很长的约束链里一直不出错。 这些能力不能全都混成一个词,因为像在推理,并不总等于稳定的进行长链逻辑推导。大模型很多时候特别擅长的是把推理过程表达的很像样,但这和他是否能在复杂约束下持续保持正确是两个层次的问题。推理感很强不等于推理,稳定性也很强。 为什么他有时会表现的很会推理?因为训练数据里本来就包含大量向推理的模式,模型很会把这些模式组织出来。大模型在训练中看过大量带有推理痕迹的文本,体检解释、问答证明、草稿、思路分解、教程说明、代码分析。他会从这些数据里学到很多什么问题通常怎么一步步展开的语言模式。 这意味着,当你给他一个熟悉类型的问题时,他往往能非常自然的调出一套看起来很像推理的表达结构。他知道什么地方该先定义问题,什么地方该列步骤,什么地方该写结论。这也是为什么他在很多标准题型上会给人很强的推理感。很多时候,他表现出的推理强来自他很会调动推理长什么样的模式, 那为什么这种能力又会突然不稳?因为模式向会帮助他走的很快。但一旦题目超出熟悉分布,稳定约束就会明显变难。模型在熟悉分布里的表现往往非常亮眼,可一旦题目变得更长、更绕、更多隐含条件、更多中间状态,或者问题形式稍微偏离常见模式,他就不再只是调用熟悉模板这么简单了。 此时,他必须在更常练路上稳定维护条件和中间结果,而这恰恰是容易出问题的地方。也就是说,模型在推理任务上的不稳定,很多时候不是因为他突然变笨, 而是因为他从模式顺手区进入了约束维护区。前者更像顺着一件模式去展开,后者则要求他在很多部里一直别丢条件,别走偏,别自相矛盾。他最不稳的时候,往往不是不会开始,而是中途维护不住。 为什么短练推理经常比长练推理稳的多?因为步骤一多,中间状态、条件约束和误差累积都会一起放大。短练推理通常只需要几步,模型只要抓住局部关系问题就能完成。 但长练推理不一样,他要求模型在很多步之间持续保持对前提条件、中间变量、例外情况和最终目标的跟踪。任何一步的小偏差都可能被后面不断放大。所以你会经常看到一种现象,模型前面几步都对,甚至还特别像样,结果到后面开始拐弯。 这不是前几步都白算了,而是长练任务会让误差累积变成核心问题。链条越长,稳定性要求就越高。短练看的是起步能力,长练更考验全程稳定性。 为什么他有时会自己把自己说服错?因为一旦某一部片了,后面可能会沿着错误前提继续合理化展开。大模型有一个很典型的特点,他特别擅长把当前局部继续组织的很顺。这个能力本来是优点,但一旦某个中间前提已经错了,后面他也可能继续沿着这个错误前提升成越来越像样,越来越自洽的后续内容。 于是你就会看到一种很迷惑的现象,他不是乱,而是错的很公正。前提一旦歪掉,后面会不断把这个歪掉的前提包装的更合理。这也是为什么推理类错误经常特别有欺骗性。模型很多时候不是不会往下推,而是会把错误前提也往下推的很像样。 那这是不是说明他根本不会推理?不是,更准确的说法是他有推理表现,但稳定性、可控性和鲁棒性还不够。像一个严格逻辑系统, 如果你说他完全不会推理,也不准确,因为他在很多任务上确实能完成条件组合、步骤拆解和一定程度的逻辑推导。问题不在于他一点不会,而在于这种能力并不像一个形式化逻辑引擎那样稳定可靠。所以更准确的表达是他有推理能力。但这种能力经常带着分布依赖、任务依赖和炼录长度依赖, 熟悉任务里会很亮眼,复杂约束下会明显掉文,理解这个层次才不会在神话和全盘否定之间来回摆。他不是没有推理,而是推理还远不是稳定。通用模块 为什么工程上会特别重视外部辅助推理?因为很多时候,行业并不指望模型单独稳定推完全链条,而是给他加脚手架。 一旦你知道模型推理的短板主要在长链稳定性、状态维护和误差累积上,就会很自然理解为什么工程上会喜欢给他加辅助。比如分布提示、结构化思维链、外部工具、代码执行器、搜索验证模块、任务拆分器。 这些东西本质上都在做同一件事,不要让模型一个人扛完整条链,而是把原本容易飘的部分拆开约束住验证掉。也就是说,行业很多增强方法并不是在证明模型不会推,而是在承认他的推理很强,但不够稳,所以要搭脚手架。真正的工程思路不是忙心模型能稳推到底,而是想办法帮他少飘。 所以,用户最该怎么理解模型会推理这句话,把它理解成一种真实存在但稳定性有限的能力,而不是一个永远可靠的逻辑引擎。说模型会推理并不等于说他像数学证明器那样稳定,也不等于说他一旦会某类题就能稳稳迁移到所有复杂任务。 更合理的理解方式是,他确实拥有一定程度的推理表现,而且在很多场景下已经很强,但这份能力带着明显边界。所以真正成熟的使用方式不是他会推理,所以我完全信他, 而是他可以先给我推理框架思路草稿后选答案,但关键推导链和关键结论还要验证,这样你既不会低估他,也不会把他误当成全自动可靠逻辑计。把模型当成强推理助手可以,但别直接把他当最终裁判。 最后总结,为什么大模型有时推理很强,有时又特别不稳定?因为大模型的推理表现一部分来自他对大量向推理文本的模式学习,另一部分则要看他能不能在当前任务里持续维护前提约束和中间状态。 前者让他在很多熟悉问题上显得很强,后者则决定了他在复杂链路里稳不稳。更完整一点说,第一,模型确实能表现出推理能力。第二,这种能力在熟悉分布和短链任务里通常更强。 第三,一旦链条变长,约束变多,稳定性问题就会明显暴露。第四,他很容易把错误前提也继续推得很像样。第五,所以工程上才会大量引入外部辅助和验证机制。所以,大模型不是不会推理, 而是他的推理能力还远没有稳定到可以被当成一个永远可靠的逻辑系统。模型推理最容易翻车的地方往往不是不会开始,而是没法在很长的炼炉里一直稳下去。我是未来木鱼伴,感谢观看。

为什么模型记不住你上下文?记忆和参数根本不是一回事!很多人把当前对话、长期记忆和模型参数混成一团了,但这其实是三层完全不同的东西。很多用户都会有一个很直观的困惑,我明明刚和模型聊了很多,他为什么一会就像忘了?或者为什么换个新绘画,他就像根本不认识我? 这个问题表面上看是在问他为什么记性不好,但本质上其实是在问模型的上下文、长期记忆和参数到底分别是什么?只要这三层没分清,你就会一直觉得大模型的记忆行为很迷。 先把最容易混的三层分开,上下文、长期记忆、参数更新根本不是一回事。第一层是上下文,也就是当前这一轮对话或当前这次请求里模型能看到的输入内容。 第二层是长期记忆,通常是产品层额外存下来的用户信息、偏好、历史摘要。第三层是参数,也就是模型训练后固定下来的内部权重。 这三层最容易被混在一起。很多人会以为我和他聊过,所以他记住了我,但很多时候,他只是暂时参考了当前窗口里的信息。也有人会以为他会不会下一次自动学会我的习惯,但普通使用过程通常不会实时改模型边界的第一步,你以为的一个记忆,其实通常至少是三种不同东西。 上下文到底是什么?它更像当前桌面上摊开的资料,而不是永久写进脑子里的东西。上下文最准确的理解方式是当前这一次推理时,模型能看到的输入。它可能包括你刚刚说的话、系统提示、附带文档、历史对话片段工具、返回结果等,只要这些内容还在当前窗口里,模型就可以继续参考它们。 但上下文的本质是临时可见,不是永久内化。你可以把它理解成桌面资料,只要材料还摊在桌上,他就能看。一旦桌面换了窗口切了,材料没再带进来,他就不会自动继续记的。也就是说,上下文更像临时工作记忆,而不是长期人格记忆。上下文是当前可见,不是永久写入。 参数又是什么?参数是训练阶段沉淀下来的内部能力,不会因为一次普通聊天就自动改写参数是模型内部那一大堆通过训练学出来的数字。他们决定模型整体的语言能力、风格倾向、模式偏好和很多基础行为。 参数是真正写进模型体内的东西,但他们不是在每次用户聊天时时变化的普通推理过程,本质上只是拿现有参数来算一次输出, 他不是边聊边重新训练模型。所以你今天告诉模型你喜欢什么风格,通常不会因为这一句话,就让底层参数永久改变。用户日常使用和模型再训练本来就是两个不同阶段。普通聊天是在用模型,不是在重新训练模型, 那长期记忆又是什么?很多产品里所谓的长期记忆,其实是系统层额外存储和召回的结果。如果一个 ai 产品看起来像真的记住了你,很多时候并不是模型参数自己变了,而是产品层在帮他记。 比如系统把你的偏好、身份信息、常见任务、习惯、历史摘要存到外部数据库里之后,在合适的时候再拿回来塞进模型当前上下文。所以很多记住你的体验本质上是系统能力,不是底模天然人格。 模型本身还是主要依赖当前看到的输入,但系统通过存储、剪索、摘要和再注入,让他看起来像有持续记忆。这种做法很常见,也最现实。很多长期记忆不是模型自己长出来的,而是系统帮他接上的。 为什么模型经常让人产生他好像记得我的错觉?因为他很会利用当前窗口里的信息,而且表达的像真的理解了你很久。只要你在当前对话里说过自己的偏好、背景和约束,模型通常就能比较好的继续沿用这些信息。他会把这些内容组织进后面的回答里,于是你会产生一种很强的感觉,他好像真的记住我了。 但很多时候,这只是当前上下文利用的很好,而不是长期记忆已经建立。模型很擅长把眼前可见的信息组织成连续的人设感,和上下文一致性,所以他会让临时记得表现的特别像长期记得。这就是错觉最容易产生的地方。他很多时候不是长期记住了你,而是短期参考的特别像长期记住。 为什么换个绘画,他就常常像不认识你了?因为新绘画如果没有把旧信息重新带进来,模型就失去了那个当前可见的你。 对模型来说,最重要的是当前这次推理能看到什么。如果开了一个新绘画,而系统又没有把你的历史偏好、摘要或记忆条目重新注入进去,那么模型面对的就是一张新的桌面,旧信息不在当前输入里,他自然就不会继续参考。 这也是为什么很多用户会觉得他昨天记得,今天忘了。其实不一定是他真的忘了,而是昨天那份关于你的信息还在窗口里,今天没有被带回来。模型记忆问题,很多时候不是生物学时遗忘,而是输入条件变了很多。忘了你,不是内部消失,而是当前没再看见。 真正要让模型记住你,工程上通常怎么做?核心做法是存选、召回、压缩、再注入,而不是指望模型自己天然长期记忆。 如果一个产品真的想让 ai 长期理解用户,他通常会做几件事,先把值得保留的信息存下来,再判断哪些信息在当前任务里真正相关,然后把这些内容压缩成合适形式,最后重新送进模型当前上下文。 也就是说,长期记忆不是一个神秘开关,而是一整套系统工程,里面会涉及用户画像、记忆、库存储、解锁策略、摘要、压缩、优先级判断和上下文注入。真正成熟的记住你,本质上不是单一模型能力,而是模型和外部记忆系统一起工作,长期记忆更像系统工程,不像模型天赋。 所以,用户最该改掉的误解是什么?别把当前会参考你误当成他已经永久记住你。很多人把大模型的记忆问题想的太像人,好像一旦聊过,他就应该长期认识你。 其实更准确的理解方式是,模型默认擅长的是利用当前上下文,而不是天然维持长期稳定记忆能不能持续记住,往往要看产品层有没有专门设计外部记忆系统, 所以真正成熟的预期应该是模型可以在当前任务里很好的接住你,但长期记忆通常需要额外系统支持,这样你既不会高估他,也不会对为什么他又忘了这件事反复困惑。默认状态下,大模型更像会参考当前资料,而不是会永久记住你。 最后总结,为什么模型记不住你?上下文记忆和参数根本不是一回事,因为很多人把上下文、长期记忆和参数混成了一件事。实际上,上下文是当前窗口里可见的信息,参数是训练阶段沉淀下来的内部能力,而长期记忆通常是产品系统额外做的存储和召回机制。 普通聊天不会实时改参数,所以模型默认不会像人一样边聊边形成永久记忆。更完整一点说,第一,上下文是临时可见,不是长期写入。第二,参数不会因为一次普通聊天就自动改写。第三,很多记住你的体验来自系统层外部记忆。 第四,新绘画看起来像忘了你,往往是因为就信息没再带进来。第五,真正长期稳定的记忆依赖的是模型加外部记忆系统的配合,所以模型记不住你。很多时候,不是他单纯没记性, 而是你把三层完全不同的机制混在了一起。很多人以为模型在长期记住你,其实很多时候它只是把当前上下文参考的特别像,真的记住了你。我是未来木鱼伴,感谢观看!

给大家普及一下,拿下大模型最正确的学习顺序,从新手到大模型大师,让你的大模型技术稳步进阶。第一阶段,打牢基础,掌握 python、 神经网络、 transformer 等相关核心知识。第二阶段,进阶,学习着重 r a g agent 和 line chain 这三个大模型最重要的模块。第三阶段,可以试着模型微调和私有化部署, 学完一定要练几个实战项目,可以彻底驾驭大模型,应对各种复杂任务。当你掌握相关技能后,无论是为工作赋能还是转行,都会有更好的发展。如果你还不知道怎么开始大模型系统学习路线以及配套视频教程等,一句学习双手奉上。 训练一个大模型可能要烧掉几千万,但这只是一次性的。真正的无底洞其实是模型上线后的推理成本。 像 deepsea 或者是拉马三这种巨无霸,用户每发一条消息,后台的算力就在疯狂燃烧。如果你不懂推理优化的底层逻辑,你的服务可能刚上线显存就爆了。颜值高的用户想摔手机,怎么让大模型跑得像 f 一 赛车一样快,还能像五菱宏光一样省油呢?这背后的门道 今天我们一次性讲清楚,我们主要是分四个部分来拆解大模型推理流程中最核心的股价。首先我们会快速的过一遍现在的行业现状,这不是废话哦,你 看懂了当前新模型的趋势,你才知道为什么现在推理优化变成了各个大厂的必争之地。然后我们会打开模型的黑盒,看清楚 prefill 和 decode 这两个阶段到底是怎么运转的,这是你理解后面所有优化手段的基础。接着我会介绍一个核心技术 heavy catch, 会用最直观的方式讲透它的原理。特别是那个经典的面试题,为什么只缓存 k 和 v, 不 缓存 q 这部分搞懂了,技术原理这一块你基本就通关了。最后,我们会站在架构师的视角来做一次瓶颈分析,看看现在的推力引擎到底卡在什么地方,瓶颈在哪,逻辑很清楚对吧?行,那我们不废话, 进入第一部分,为什么现在推理优化这件事情变得这么迫切了?大家可以看这张图,这密密麻麻的像地铁线路图一样的,就是我们这几年经历的大模型的爆炸式增长。当然,这还只是更新到了二零二四年的数据。回想一下,可能就在两三年前, 我们还在玩 g、 p 三,或者是刚开始接触 bot 那 个时代的模型。但是你看现在,不管是开源的拉玛系列,从一到三,还是我们国产的天问、 deepsea、 文星岩,这些优秀的模型,真的是每个月甚至每周都在推陈出新。而且这里有个很明显的趋势,我们做工程的同学肯定肯定是深有体会,模型是越来越胖了。以前我们跑个 demo, 可能 一 b 十三 b 的 参数量显存随便挤挤就够了,但现在呢?斑马三到了四百零五 b, 甚至还有万亿参数级别的模型。这就好比我们以前搬家,一辆小皮卡就能拉走,现在我们面对的是一整栋楼的物资,那辆小车肯定是拉不动了。这对我们推着引擎的吞吐量绝对是一个巨大的考验,除了模型变大, 我们用模型的方式也变了。我们再看下面这张图,以前我们觉得大模型就是个 chatbot, 聊聊天嘛。但现在我们已经把它塞到了汽车里做座舱助手,塞到金融系统里面做风控,甚至在教育领域做辅导。特别是这里提到两个技术点,我们可以重点关注一下,因为它直接影响了我们后面要讲的推理瓶颈。第一个是 r a g, 也是 是解锁增强生成,这个大家应该很熟悉了,对吧?简单说就是我们为了让模型回答更准确,会先把一大堆的企业文档知识库扔给他,让他先读完再回答。那就像考试的时候做阅读理解,文章越长,你读的越慢。 r i g 直接导致了我们输入的 prom 的 特别长,也就是 context window 上下文窗口被撑得很大,对显存的占用是极其恐怖的。第二个呢,是多模态,现在不光是处理文字,纹身图、纹身视频早就已经普及了,我们处理的数据不仅仅有 token, 还有像素, 计算复杂度又是另一个量级。所以我们现在的处境是,模型越来越大,输入的上下文越来越长,应用场景对延迟的要求还越来越高。那么面对这么大的压力, 那模型是怎么把这一堆数据给吃进去,再一个字一个字吐出来的呢?这就涉及到我们下一章要讲的核心, free feel 和 decode 的 流程来,我们接着往下看。刚开始接触大模型的朋友,可能会有一个误区,觉得我问他一个问题,比如说你是谁?他是不是想好了一整句话,然 然后啪的一下全扔给我。其实完全不是,那模型在推理的时候更像是在玩一个成语接龙或者是文字接龙的游戏,学术上我们管它叫做自回归。大家看这张图,当我问他 who are you 的 时候,模型先憋出了一个词, i am, 然后关键来了,他会把 i am 这个新词 立刻的拼到原来的问题后面,变成了 who are you i am。 再拿着这一长串去想下一个词,小谭没想出一个词,就把它给加进去,再去想下一个,让他觉得自己说完了,或者是撞到了一个停止符。 了解了这个接龙的本质,我们就能把整个推理过程非常清晰的切成两刀,这一刀下去,就把推理分成了两个性格完全不同的阶段, prefill、 预填充和 decode 的 解码。首先是 prefill 阶段,也就是预填充, 这就是我们刚才把问题丢给模型的那一瞬间,比如说我丢给他一万次的 prompt, 这时候模型是很爽的,为什么?因为这一万个字是现成的,它不需要等,可以一次性把这一万个字全都吃进去进行计算,利用 gpu 强大的算力,轰的一下 算出第一个 token。 所以 在这个阶段,我们的 g p u 是 在全速运转的,段位的利用率非常高,就像我们考试前去突击复习,一目值行,效率极高,这就是所谓的计算密集型。然后痛苦的是,这个 decore 的 阶段来了,也就是生成了第一个字之后,我们要开始写后面的小作文了。这时候呢, 因为是接龙,你必须等上一个字出来了,你才能算出下一个字,所以它只能串行,一个接一个往外蹦,就导致了一个很尴尬的局面,哪怕你显卡再强,我也只能等你。而且 你生成的字越来越多,上下纹越来越长,而且每次回头看的负担也越来越重,但是每次却只能产出那么一点点一个 token, 这就像挤牙膏一样,费了半天劲,只挤出了一点点。在这个阶段,我们的平 往往就不在算力上了,而是在内存贷宽上,也就是数据搬运太慢了。那这时候就引出了一个巨大的问题,如果每次我们生成新词,都要把前面所有的历史记录重新给算一遍,那这效率得多低啊?所以为了解决这个问题,后面的工程师们搞出了一个神器,叫做 carry catch。 这个东西到底神在哪里呢?我们可以看这张图,如果我们不优化 生成第三个 token 的 时候,我们就要算 t 零、 t 一 t 二的注意力,等生成第四个 token, 我 们又得把 t 零到 t 三给 算一遍,最像什么呢?像你背书,每读一个新单词,都要从文章第一个词重新读起,这谁受得了啊?所以这里的荣誉计算是非常恐怖的。那怎么办呢?我们就很自然的会想到以前读过的内容,我们能不能把它给背下来,把它存起来呢?这就是 carry catch 的 核心思想。具体是这么做的, 首先在 prefill 阶段,我们第一次把整段话读进去的时候,就已经把每个 token 的 k 和 v 这两个特征向量算出来了,这时候别扔,我们把它存到显存里,这就是 catch。 然后到了递扣的阶段,比如说我们现在要生成第五个 token, 我 们只需要计算当前这个新 token 的 q、 k、 v。 重点来了,我们直接去显存里,把之前存好的 t 零到 t 四的 k 和 v 拿出来,跟新的拼在一起。这时候我们就相当于只做了增量计算,不用每次都从盘股开 d、 n、 d 开始算了。这时候呢,很多 细心的朋友可能会问一个问题,这也是面试里面经常被问到的哎!而 tension 公式里面不是有 q 给扔了,你看不起 q 吗? 其实不是看不起 q, 而是 q 的 性质决定的。我们来打个比方,在注意力里面, q query 代表的是我们当前的关注点或视线。当你读到文章的第一百个字,你的视线 q 是 聚焦在第一百个字上面的,你想知道这个字跟前面九十九个字有什么关系?当你读到了第一百零一个字,你的视线就变了,变成了第一百零一个字。所以 q 啊,每一步都是在变的,它是当下的需求,写下来没有用,因为下一秒你就不用它了。但是 k 和 v 不 一样,它们代表的是前面那九 九个字本身的内容和特征。不管你是读到第一百个字还是第两百个字,文章前面那段话的内容是不会变的,对吧?既然内容不变,它对应的 k 和 v 就 永远固定在那里。所以我们就只要把 k 和 v 给存下来,无论你后面什么时候回头看,都 能够直接用,这就是 k v catch 的 精髓,用显存空间换取了宝贵的计算时间。好,我们终于来到最后一部分,这也是我们在做推理优化的时候最容易掉进去的坑。刚才我们说了, k v catch 就 像一个外挂,帮我们省去了重复计算。但是啊, 凡事都有代价, carry cash 的 代价就是吃显存,而且吃相非常难看。首先是容量爆炸,大家想象一下,如果我们的 prompt 很 长,比如你要分析一本几百页的小说,那个 carry cash 的 体积是会限性增长的,甚至有时候装饰 cash 这样的显存比模型本身的权重还要大。这就像你买了个大房子,结果 家具没占多少地,全是快递盒子给堆满了。其次呢,是碎片化,因为我们不知道模型会突出多少个字,所以呢,我们没法提前给他画一块整齐的内存,这就导致了显存里全是这一块,那一块的碎片利用率极低。这也是为什么后来会有 touch attention 这些技术来 来救场。那除了显存容量,其实还有一个更隐蔽的瓶颈。我们可以来看一下这一张经典的 roofline model 图。这张图看着复杂,其实道理很简单,告诉我们你的程序跑得慢,到底是因为算得慢,还是因为搬得慢呢?我们可以来看一下这个红色的三角形区域,这个是 prefill 阶段,这个阶段因为我们是一次性并行计算很多 token, 我 们的 gpu 算力是被打满的,这时候我们是 compute bond, 计算受限,也就是说 想快就得买更贵的卡,对,更强的算力。但是我们可以看这个黄色的方形区域啊,这是 decore 的 阶段。在这个阶段呢,我们每次只生成一个 token, 计算量其实很小,但是我们要从显存里把那个庞大的 carry catch 搬运到计算核心里去。就是好像你开着一辆法拉利,你去送外卖,结果每送一单都要回仓库搬一吨重的货, 跑得再快也没有用,因为时间全花在了班货上。这就是典型的 memory bound, 仿存受限。我们看下面这个实验数据就更明显了,在 decore 的 阶段,哪怕你的 bash size 很 大,你的吞吐量也很难像 prefill 那 样直线飙升,因为贷宽那么宽,路就那么点窄,你车再多也得堵在路上。所, 这给我们一个什么启示呢?如果我们是要选购推理用的芯片或者是设计推理系统,我们不能只盯着算力看。对于推理啊,尤其是常温们,推理显存内存和显存容量往往会比算力更重要,这也是为什么现在的它的推理芯片都在拼命的卷 hbm 高宽带内存的原因。好, 今天我们这节课从大模型的需求爆发讲到了这里的两个核心阶段, prefill 和 decode, 解释了 carry catch 这个关键技术。最后我们分析了算力和显存的瓶颈,所以你看,搞懂了这些原理,再去看市面上那些花里胡哨的加速框架,其实也就没那么神秘了,对不对?好了,这期视频就到这里了,我们下期再见!

传统机器人会看、不会想、会想不预判的问题解决了。哈喽,我是陈熙媛。今天分享的这篇论文直接把具身智能统一化了。以前模型训练就是感知、推理、世界,模行动作错别分开训练分开优化,最后靠接口硬连在一起, 一复杂就容易出错。北京人行发布的 palika unifil 的 巨身智能模型,把理解、推理、想象、行动整合成一个闭环,一套表征,一起优化, 同一个主干做推理,同一个生成计,一边想象未来场景,一边输出机器人动作,关键是统一之后反而更强,拿下双第一,真实机器人还能零样本搞定没见过的任务,这才是巨身智能该有的样子。

千万别再跟风炒 gpu 训练算力了,未来五年,算力行业最赚钱、最稳、体量最大的赛道,早就冠出奖了,很多普通人、小创业者还在盯着大厂玩的大模型训练。殊不知,真正的普惠红利遍地,现金流的机会,全在推理算力这 一波财富变局。看懂这一条,你就超过百分之九十的行业跟风者! 首先,算力行业正在迎来恐怖级增长,未来 ai 算力每年暴涨四到五倍,五年时间直接翻千倍。这不是虚头巴脑的概念炒作,是千行百业 ai 落地实打实的刚需。而最关键的分水岭在二零二五年彻底到来,推理算力需求正是反超训练算力。 记住这个黄金比例,未来训练和推理的需求比是一比三。简单说,训练是大厂的专属游戏,烧钱多,门槛极高,普通人根本碰不到。但推理不一样,各行各业的 ai 落地,日常交互、智能决策,全都需要推理算力支撑, 这是万亿级的平民红利赛道。随着大模型从奢侈品变成各行各业的标配,会形成一套强势增长闭环, ai 提效,行业需求爆发,算力持续扩容,算力彻底从科技概念变成了数字时代的硬通货, 核心生产资料。除此之外,算力行业彻底告别单芯片通吃的野蛮时代,分层赚钱的格局彻底定型。 高端训练核心推理靠 gpu npu 智能算力拿下日常商业数据处理,通用 cpu 算力稳稳守住基本盘。航天航空、生物医药这种高壁垒领域,超强算力独享红利。而工业车联网、互联网的实时场景、低时延的边缘,算力独占风口, 未来算力赚钱的核心逻辑不是比拼谁的芯片更强,而是谁的易购协调框架更适配场景、更省成本、效率更高训练定行业高度推理定市场规模,易购协调定赚钱格局。未来五年,普通人、创业者、中小企业的算力红利全部藏在这。

大家好,我是同济子豪兄,这期视频是巨深智能 v l a 的 保姆级教程,我将用 s o m 幺零幺开源机械臂和 l robo 的 框架,结合蚂蚁凌波最新开源的巨深智能机座大模型 l bot v l a, 带大家实现一个最简单的 v l a 样例场景。机械臂主动和人握手,探归之握, 人类伸手他就伸手,人类抽手他也抽手,还会和你优雅的挽留。贴贴,我和刘月写了一个详细的 la robot 保姆级飞书知识库,包含模仿、学习和 v l a 的 全部流程,包括购买机械币套件、组装校准机械币、 获取端口号、连接摄像头、摇操作、录制试教数据集。选择 v l a 模型后,训练、微调仿真验证、开环验证、真机推理。你可以用 mac 电脑、四零九零主机、英伟达、 jason sir、 英伟达 d g x spark 这些端侧算力本地推理 v l a 模型,让机械臂真的动起来干活儿。 全套流程使用了 robot 框架,兼容 act small vl a、 派零 lingbot、 vl a 这些主流 vl a 模型。这个 飞出知识库也被了 robot 官方 get up 推荐,那我们现在开始吧!最近 faker ai 人性机器人分拣快递的直播火爆全网。机器人的任务是把所有传送带上的包裹整理成标签朝下。 他在三十多个小时自主整理了几万件包裹,没有任何遥控和远程操作,就算遇到包裹堵塞、重叠、干扰,他也能像人一样从容丝滑完成任务,仿佛注入了灵魂。我最近两年也见过不少机器人自主干活的案例,从简单的抓取、放置、收纳物品、 加小龙虾下锅到柔性物体操作,比如叠毛巾、叠衣服,把笔收纳到笔筒里,再擦一擦桌子, 再到双臂写作的长系列任务。这些 demo 虽然仍然有点简陋甚至智障,但它们全都是机器人自主推理运行,而且具备主动纠错、抵抗干扰的能力。 巨身智能解锁了 ai, 接管物理世界,机器人操作万物的无限想象。巨身智能分为小脑和大脑两个流派,运动控制,小脑掌管机器人的下半身,也就是双腿。比如语数春晚的节目,机器人做出各种酷炫动作,还能自主稳定平衡 机器人马拉松速度,打破人类半马记录。这些都是小脑,可以看我之前做的语数春晚和一桩马拉松的机器视频。 操作物体的大脑掌管机器人的上半身,也就是双臂。比如我们现在说的机器人干活儿,大脑又分为两个流派,视觉语言动作大模型 v l a 和世界模型 word model。 两派的研究者都在疯狂烧钱, v l a 似乎更成熟一些。刚刚那些干活的 demo 都是用 v l a 实现的, 输入文字指令和摄像头画面。 v l a 模型实时输出机器人每个关节下一步的位置。各大聚生智能厂商都开源了自己的 v l a 大 模型,代表算法有 act small、 v l a 派零、 lingbot、 v l a。 世界模型。今年新出了一个世界行动模型 word action model, 大 有一统天下的趋势, 代表算法是蚂蚁凌波的 lingbot a a 和英伟达的 dream zero。 所以 像蚂蚁凌波这样的聚生智能公司,同时压住了 v l a 和世界模型 vr a 和大语言模型一样,也同样出现了 scaling law 智能涌现的现象。 limbot vr a 官网有一张图,反映了预训练数据越多,基座 vr a 模型就越智能。后训练微调之后,下游任务的成功率就越高,而且尚未达到饱和瓶颈。 预训练就好比 k 十二基础教育,告诉 ai 物理世界的鲜艳知识和基本规律,预训练的数据越多,质量越高,基座模型的地基就越稳固。 这就是为什么巨深本企公司都在砸巨资建树材基地。后训练微调就好比大学和职业教育,告诉 ai 每种活具体该怎么干。 linbot vr 一 的预训练机座模型,就是用九种本体、两万个小时的高质量真机数据训练而成的。 乐句 kuf 四 pro 北京国际中心开园的青龙星海图轮式双臂 r 一 pro 瑞尔曼双臂升降机前 r s。 二、智源精灵 g 一、 松林 a j l x 方舟无线 lift 二、 星海图 r e light 和双臂 frank。 我 们之前参加黑客松巅峰赛做的吹密机械臂就是用的松林的臂,叠衣服用的是星海图的臂,都是非常常见的本体。但作为一个穷学生,我只能买得起三 d 打印开源机械臂 s o m 幺零幺。我和刘月在同济 fablab 创客空间组装了一下午, 包含一条主臂和一条从臂,每条臂有五个关节自由度和一个夹爪自由度。从臂有一台腕部相机,总成本两千多块钱,非常便宜。跟犀利科技的客服说是子豪兄粉丝还能薅到代金券。 按照我的飞出知识库完成组装校准,获取端口号摇操作视角采集数据一条龙操作, 我和刘月为大家精心制作了三个高质量数据集,第一个是握手数据集,包含三十段视角轨迹。第二个是夹放砂糖橘数据集,机械臂把砂糖橘夹到前方的桌子上,包含四十段轨迹。第三个是机械臂炒酸奶数据集,用铲子把草莓丁和酸奶翻成糊糊,包含四十八条轨迹。 每条数据都包括从臂腕部的摄像头画面以及所有关节的运动轨迹。用哈根 face 和 lobo 的 官方的数据集格式化工具,可以直接打开查看。 这三个场景都只需要一台万部相机,道具也非常简单,很方便大家复现。万事俱备。下面就开始后训练。第一步,安装环境,创建并激活一个三点十二的康达虚拟环境,从 gitlab 拉取最新的 lingbot vla 代码库,运行 install 的 s h 脚本,安装依赖。 第二步,下载预训练模型权重文件,从哈根菲斯或者摩达社区下载 lingbot vla 四 b 大 概十七个 g, 以及三个依赖库大概两个 g。 第三步,准备数据集和机器人配置文件。首先需要把数据集转换成了 robert v 三点零格式,好在我们的两个数据集都直接是 v 三点零,可以直接跳过这一步。 然后需要准备 sos 幺零幺机械 b 的 配置文件,放在这个路径下,这个文件记录了关节夹爪、腕部摄像头的信息。 第四步,计算归一化统计值。得到一个 norm states json 文件,计算数据中每一个关节位置的均值标准差,过滤掉长尾异常的分位数值。这一步的意义,使 v l a 模型只管输出归一化的标准数值,不用管每台机械臂各自的校准偏差。 这个路径下是训练配置文件,包含了数据集路径、学习率、训练轮次这些配置。第五步,启动后训练微调,在巴卡 a 一 百级群上用握手数据集后训练微调十三个小时,得到新的模型全中文件,我 把全中文件上传到摩达社区,你可以直接下载和预训练模型大小差不多也是十七个 g。 第六步,开环测试,把数据中某一帧摄像头画面给新模型大小差不多也是十七个 g。 第六步,开环测试,把数据中某一帧大小差不多,也是十七个 g。 第六步,开环测试,把数据中某一帧大小差不多比较。 以第一条握手轨迹为例,黑线是人类视角的动作,红线是新模型预测出的动作,两者重合度很高,说明新模型还算比较靠谱。 之所以叫开环,是因为模型只能看到录制好的画面,看不到自己执行后真正的画面,缺少了真实反馈,误差也不会累积,所以叫开环, 只能大概看看模型是不是靠谱。凌波官方还开源了一套在 robo twin 二点零数据集上后训练的模型权重运行这个命令行,就能在仿真环境看到机器人的行为。比如把鞋放到鞋盒里,把三个方块叠成塔,效果也挺不错的。 最后一步,甄姬推理命令行中的 use compel 表示开启 toastercompel 模型编辑加速。 虽然育群脸模型的九种本体中不包含 s o m 幺零幺机械笔,但后训练微调之后,仍然能很好地泛化到没见过的新本体上,而且在不同光照背景条件下表现仍然非常出色。我们分别测试了四零九零主机、 英伟达 jackson sir、 英伟达 d g x spark 三种端侧算力。 nice 总结一下,我们实现了一个最简单的 v l a 聚生智能 demo, 机械臂握手,完整跑通了蚂蚁凌波开源的聚生大模型。拎包 t l a 后训练的全部流程, 包括组装并校准机械臂摇操作、录制数据集后训练、微调开环验证、甄姬推理,简直就是一篇完整的聚生智能毕业论文。 把这个 b s 赖跑通,你就会发现,机器人干活 v l a 大 模型这些高大上的黑科技,其实普通开发者花几千块钱也能付现。可以添加拎包的小助手申请备注写子豪兄粉丝加入我们的社群,一起玩具身智能!

听众朋友们,欢迎来到本期的 ai 情报局,我是阿哲, 大家好呀,我是小夏,最近身边好多朋友都在聊 ai 大 模型,一会说训练,一会说推理,还有什么思维链,听得我一头雾水。阿哲,你能给我们好好讲讲不? 没问题啊,今天咱们就把这些概念掰开揉碎了,用最接地气的例子给大家讲明白,保证听完你就能跟朋友侃侃而谈了。 咱们先来说说 ai 大 模型的训练和推理,这俩就像是一个人学习和考试的过程。学习和考试这个比喻我好像有点懂了,你能再详细说说不? 你想啊,训练就像是学生备考的过程,比如说你要准备一场数学考试,你得刷海量的练习题,看各种各样的辅导资料,老师还会给你讲解错题,帮你调整学习方法,这个过程就是在训练你的知识储备。 ai 大 模型的训练也是一样,他会用海量的数据,比如书籍、文章、图片这些,不断的学习,调整自己内部的参数,就像学生调整自己的知识体系一样。哦,那是不是说训练的时候需要特别多的资源呀,就像备考的时候需要买很多资料,花很多时间一样。 没错,训练 ai 大 模型需要超级强大的算力,就像学生备考需要投入大量的时间和精力一样。而且训练是一个一次性的过程,一旦模型训练好了,就像是学生考完试,掌握了知识,接下来就可以用这些知识去解决问题了,这个解决问题的过程就是推理。 我明白了,那推理是不是就像是学生走进考场答题,拿到一道新的题目,用之前学到的知识去解答,不需要再重新学习了。太对了, 推理就是用训练好的模型去处理新的数据,给出答案。比如说你问拆 gpt 一个问题,他用之前训练好的知识来回答你,这个就是推理, 推理的时候不需要再调整模型的参数了,就像学生答题的时候,不需要再重新学习知识点一样,只需要调用已经掌握的知识就行。 还有一个很形象的比喻,训练就像是编辑和印刷一本百科全书,你需要收集海量的知识,整理排版,最后印刷出来,这个过程花费巨大,而且只需要做一次。而推理就像是读者查阅这本百科全书,遇到问题的时候去梳理找答案, 这个过程可以重复很多次,而且速度很快。这个比喻太形象了,我一下子就懂了。那训练和推理在资源消耗上有什么区别吗? 训练的时候需要消耗大量的算力和时间,就像印刷百科全书需要很多纸张油墨和印刷设备一样,而推理的时候只需要比较小的算力,就像你查阅百科全书只需要翻书的力气一样。 现在很多 ai 应用,比如手机里的语音助手,就是用训练好的模型进行推理,所以在手机上就能运行 好的。那接下来咱们聊聊思维练吧,我最近老是听到这个词,到底什么是思维练呀?思维练其实就是让 ai 大 模型像人一样思考的一种技术。 你想啊,当你遇到一道复杂的数学题的时候,你不会直接给出答案,而是会一步一步的演算,比如先算什么,再算什么,最后得出结果。思维练就是让 ai 大 模型也这样,把思考的过程一步一步的展示出来,而不是直接给出答案。 哦,我举个例子,比如说我问 ai, 我 有三个苹果,爸爸比我多两个,妈妈的苹果是爸爸的两倍,我们三个人一共有多少个苹果?如果没有思维链的话, ai 会直接告诉我答案。而有思维链的话,他会先算爸爸有多少个苹果,再算妈妈有多少个,最后把三个人的加起来,是这样吗? 错,就是这样。思维链的核心就是把复杂的问题拆解成一个个小的步骤,让 ai 一 步步的推理,这样不仅能让答案更准确,还能让我们看到 ai 是 怎么思考的。 就像你做数学题的时候,老师会要求你写出解析步骤,这样不仅能让老师看到你的思考过程,还能帮你检查哪里出错了。那思维链对 ai 大 模型来说有什么作用呢? 思维链可以让 ai 大 模型更好的处理复杂的问题,比如说一些需要逻辑推理的问题,像数学题、推理题这些,没有思维链的话, ai 可能会给出错误的答案,但是有了思维链,他可以一步步的推理,得出更准确的结果。 而且思维链还能让 ai 的 回答更透明,我们能知道他是怎么得出这个答案的,这样也能让我们更信任 ai 的 回答。 还有一个很有意思的点,思维链就像是 ai 的 草稿纸,人在思考复杂问题的时候,会在草稿纸上写写画画,一步步演算。 ai 的 思维链就相当于这个草稿纸,把思考的过程记录下来,最后得出答案, 我明白了。那思维链是怎么实现的呢?是在训练的时候就加入进去的吗?其实思维链是一种提示技术,就是我们在给 ai 提问的时候,告诉他要一步步的思考, 比如我们可以说请一步步的回答这个问题,这样 ai 就 会用思维链的方式来回答。当然也有一些模型在训练的时候就加入了思维链的相关数据,这样他在回答问题的时候会更自然地使用思维链。 今天听你这么一讲,我算是把 ai 大 模型的训练、推理还有思维链都搞懂了。原来这些听起来高大上的概念,用生活里的比喻一解释就变得这么简单了。没错, ai 其实离我们的生活很近,很多概念都能用我们生活里的例子来理解。 那各位听众朋友们,今天的内容你们都听懂了吗?如果你们还有什么关于 ai 的 问题,欢迎在评论区留言,我们会在后续的节目里为大家解答。没错,感谢大家收听本期的 ai 情报局,我们下期再见!再见啦!

a m 模型的训练与推理是其发挥作用的两个核心阶段。如同学生学习备考与考场答题的关系,前者是能力构建的过程,后者是能力应用的过程,二者紧密关联却功能紧密。 训练是模型学习成长的阶段,这个过程需投喂海量标注数据,如标注好类别的图片,梳理好逻辑的文本,让模型通过算法不断调整内部参数, 就像学生刷题纠错,优化解决思路。内外模型会对比自身输出与正确答案的差异,反复修正参数以降低误差,最终形成稳定的知识记忆和问题解决模式。训练通常需要强大的算力支持解释,一次性完成的前置过程决定了模型的基础能力上限。 推理是模型学以固化的参数进行计算并输出结果,比如识别新图片中的物体,回答用户提出的问题, 这一过程无需调整参数,更注重效率,就向学生凭借所学知识快速做答。核心是将训练中习得的能力转化为实际运用价值。简言之,训练是构建能力,推理是运用能力共同构成 ai 模型从无到有、从有到用的完整链路。

学习框架和推理引擎通常分别应用在 ai 大 模型的训练和推理阶段。 ai 模型的核心任务是从大量数据中学习规律,完成特定预测或者生成任务。前者即模型训练,后者即模型推理。在模型训练时,通常由工程师准备训练用的数据,由学习框架调用数据已完成模型的训练。 模型训练好后,工程师完成模型的分发,并通过推理引擎将模型运行起来。用户通过 api 来调用模型并完成特定的任务。这个过程就好比游戏开发商通过各种工具完成游戏的开发,将开发好的游戏烧录到卡带,玩家使用兼容的游戏主机来玩游戏。 对于生成式大模型而言,在训练阶段通常使用 py, torch、 tensor, flow, ga, x 等深度学习框架,基于不同的模型框架,如 cnn, rnn 和 transformer 进行模型训练。其中 py torch 是 专门为深度学习设计的库,类似 python 中的 os 库。 transformer 是 实现模型的框架,类似脚手架 基于 pytect 中的类,按照 transformer 框架构建模型并进行训练,即可得到一个高性能的模型。训练好的生成是大模型,通常采用 v, l, l, m, s, g, long, lama、 点 c, p, p 等推理引擎进行运行。 这些推理引擎主要负责提供模型 api 接口,读取并加载训练好的模型文件,循环调用模型对象 follow 的 方法逐步生成 token, 管理 k v cash 缓存,并将生成结果实时返回给用户。 更多 ai 知识分享,欢迎关注 smartx 公众号后台,回复 ai 科普,获取更多电子书与技术文档资料。关注 smartx, 了解更多市场趋势、技术解读与用户实践。

openai 的 ai 刚刚跨过了一道什么坎?就在几天前, openai 后训练负责人告诉我们, ai 并没有突然变强,只是刚刚跨过一道坎。这句话究竟意味着什么?你可能不知道,在过去一年里, openai 其实走了一段弯路。 从 o 一 到二零二五年底,他们把模型不断拧向竞赛化,数学强就被等同于智能强。为了刷榜,迎合数学竞赛和编程比赛的测试级,模型被过度优化,变得只会解题,却在真实世界的任务上泛化能力反而下降了。 但现实是,人类解决大部分问题,靠的不是纯粹的逻辑推理,而是经验,是耳濡目染。这就好比你解决一个实战代码问题,要是从语法规则开始一步步推理,可能想到天荒地老。但如果你问一个大参数模型,他记忆里恰好有类似的最佳实践,直接就能给你秒出答案。 这正是 ansorepic 所信奉的路线,构建一个庞大的经验系统。而 open ai 一 度想做的,则是一个几乎脱离具体知识的纯逻辑系统。但事情在二零二五年底发生了根本性的转折。 open ai 后训练前沿团队在内部模型上首次稳定达成了一项关键指标,任务级可能性超过百分之九十五。 什么意思?就是让 ai 去写合规邮件,调试中等复杂度的代码。这种典型办公任务,连续干十次,失败不超过一次。 这不再是纸上谈兵的考试分数,而是端到端的交付成功率。这道坎就叫可信零界点。跨过这道坎,背后是技术路线的彻底转向,他们放弃了以思维链长度为优化目标,转而追求经验密度 去评估模型到底覆盖了多少像给八十岁奶奶写带语音功能的法语健康 app 这样的长尾边缘案例。为此,他们还引入了一种新方法,用 ai 自己生成百万级的真实用户交互轨迹来训练替代人工标注。结果就是, 新一代模型 g b t 五点五经验密度提升了三点二倍,平均推理消耗反而降低了近一半。他不再需要变态的思考,而是像个经验丰富的老员工,看一眼需求心里就有数了。这种可能性跃迁已经触发了真实的商业拐点。 在一个知名的 ai 玩具项目里,搭载了 gpt 五点五的玩具需要在没有网络的情况下,实时响应孩子们天马行空的指令。比如让芭比开飞船去月亮上找兔子这个任务的成功率从上一代的百分之六十八,一下子跃升到了百分之九十四点三。在云服务平台上, 企业客户调用 gpt 五点五十的平均重置率也降到了惊人的百分之二点一,远低于其他主流模型。当 ai 不 再需要人守着它干活,能够被放心纳入自动化流水线时,智能的才开始释放。 所以 ai 刚跨过一道坎。这道坎就是 ai 从一个需要精心伺候、随时可能出错的做题家,变成了一个能理解模糊指令、稳定交付结果的可靠伙伴。 open ai 在 迷失一年后,终于回过头来,面对他曾经错过的方向。他们用一次深刻的教训证明,决定 ai 使用上限的,也许不再是他知道多少,而是他能否可靠交付。