大家好啊,我是瑞克老张啊,那个五一期间接着给大家聊,因为事比较还挺有意思。昨天晚上呢,我们的那个开发团队给我们反馈啊,就说那个 dvd v 四 pro 特别好用,然后我们就在 callix 里边就接着进来了,接进来以后我也测了一下, 哎,我发现一个很有意思的问题,虽然说啊,他自己说,他跟那个,呃,就是包括我们说的,呃这几家,像那个,呃, 那个 cloud oplus 四点六啊,啊,包括啊,这拆 gpt 五点五啊,还差三到六个月。但是你知道这里面有一个很好玩的事啊,就是 dspic v 四 pro, 它的缓存命中率极高, 什么意思呢?就是大家要知道这个大模型的这个 api, 它分两种价格,一种缓存缓存命中,一种缓存没命中。 缓存命中的话,就意味着它之前跑过类似的这些东西,所以它有结果,有结果它可以拿下来改一改就给你用,那这样的话它价格非常低, 缓冲没命中呢,那就意味着要重新计算,那这个价格就非常高啊,这个要要知道。所以呢, deepsea 呢,我们查了一下,我们测了四个啊,就是我现在正在做的小东西,测了四个,呃,大概每一个的话呢,都都给我写了不到八百行的这个命令啊,基本上缓冲命中率呢都在百分之八十五以上, 这意味着什么呢?意味着我非常省钱,我们看看,我整个把这所有东西都跑完了,大概跑了不到一个亿的 token 啊,我花了多少呢?花了不到十二块钱,这个这个,这个性价比就非常高了啊,真的性价比非常高,它比那个 cloud 包括那什么的缓存命中率都高。 我们之前也用 kolld, 但 kolld 现在不给中国人用了嘛,是吧,那个我们就敢用,折磨你啊,这个但折磨你的缓存命中率非常低,低的让人发指啊。然后就是花钱花的比较多啊,这搞那么不到一个亿的,差不多一个亿的 token 吧,这折磨你得花到二十美金左右。但是 deepstack 的 话呢,基本上就十几块钱,十几块钱解决问题啊,十几块钱解决我们四个四五个问题,而且它那个 bug 吧,它自己找起来就很快,我们怀疑就是在 deepstack 的 从那个 n 卡,就是英伟达的卡迁移到生成的卡上做训练,这个过程中啊,他们另外的那些做啊,这个呃案例的部门并没有闲着,他们在不停地用各种的代码去测试,然后把这个代码各种的去修正,然后形成这样的缓存库, 所以现在的效果非常好。哎,我没有想象的效果的话,你们都可以去试一试,真的都可以试试这个 v 四 pro, 我 认为这恰恰很可能是它未来的一个最大的杀伤点,因为这样的话是所有人发现它的成本进一步降低。如果都用缓存,这个这个东西相当于呃这个 cloud 的 五十分之一的价格呀, 就如果都是缓存命中的话,它相当于 cloud 的 五分五十分之一的价格,非常夸张。那这个事的话呢,后续的东西很可能会引发。 是啊,包括美国这个开发者在内的一个一系列的海啸啊,它意味着大幅度的节省成本,效果还不错啊,这个事就就特别有意思了啊,所以它背后可能引发的是一个是 taco 出海,一个是酸碱锌铜,还有一个的话就是整个的在全球啊, 不管是开源还是闭源的啊,包括编程在内的这样的一个大模型使用的大范围的变化,它这个变化很可能是行业性的啊,是扩散段的,而且这个扩散现在看越来越快,越来越快, 所以呢,大家一定要关注这个趋势,这个趋势可能会引发整个产业链的变更的,这个变更的时间不会超过一个月。他后续的东西他不像上一次,上一次是立马就显示出来了,这次是在慢慢的显示出来,他显示出来的话,那他这个如果你提前不布局,你到那个时候你可能就晚了,那个时候的话机构大量入场,你就没有什么筹码, 需要的话赶紧先来看啊,真的赶紧先看好不好?如果需要的话,看看我们的这个季度会员科普课,我们准备在下个星期开始的五月份,我们会安场安排最少三次关于 deepsea 的 啊,这个深度的拆解,一次直播两次的这个复配的内容啊,如果需要真的好好看一下咱们的季度会员科普课啊, 九十天四十五个视频最多啊,四十五个视频最少,四十个视频八场专门的直播,非常的超值。而而且咱们的月卡呢,本身呢两百多块钱是吧? 机卡的将近八百块,这是因为一个是老张给大家补贴,还有一个是平台虽然没有那么大的,那也给了几十块钱补贴,所以现在价格是六百多块钱,非常的超值啊,需要的真的好好看一下,而且呢内容的话呢,是非常的覆盖的全面,都是围绕大家所关心的这些话题展开的,毕竟的话我们还有很多专业团队在干这个事, 非常的超值,需要好好看一下啊。链接在底下点击即可啊。稍再说一句,一定要记得接助教老师电话,不然你不知道该怎么看课。好,今天就到这,我是瑞克老张,关注我,咱们投资的视角,看科技背后的精彩,我们下期见,拜拜。
粉丝21.0万获赞405.3万

deepsea 微四 pro 王炸来袭,万众期待的微四全新版本终于正式发布了,想必很多做网文写作、小说创作的朋友都很好奇它的真实写作能力到底怎么样? 今天这条视频我就带大家把 deepsea 写作能力拔的明明白白,而且我还整理了一份 deepsea 微四的写作避坑加使用注意事项的完整文档,想要这份文档的朋友们,我们评论区见。话不多说,我们直接进入实测的环节, 我会从小说的大纲生成这门写作 ai 审稿、改稿的三个核心方向,带大家彻底看清 deepsea v 四的真实水平。 咱们先把结论放在前面,对比老版的 deepsea v 四的提升确实很大,各方面的能力都有明显的优化,但如果综合网文的整体创作实力来看,它还是比不上咱们常用的智慧版、细腻版、氛围版以及我们的吉祥版, 具体差距在了哪里?先来看我们的第一个核心小说的大纲生成能力。我直接在创意工坊里面的大纲生成器里选择 deepsea v 四 pro 版本给大家实操研制平台。还有很多网文大佬提前已经写好了预示的提示词,大家可以根据自己的创作需求随便选。 这里我就用以文成新老师的提示词举例。我们设定一个题材是比如说丧尸末日,灵感就是主角带着重生系统以及他无限的空间储存能力重生。到了末日发生前的前两天,我们直接点击生成给大家看最真实的效果。 大家可以看到大纲已经快速生成了核心设定、核心卖点以及爽点的定位,还有我们的世界观以及主角的设定, 主角人设、反派设定都一一罗列出来了,内容非常的全面。这里必须说一下 deepsea v 四 pro 的 最大的优势就是它的发色能力很恐怖,你只要给他一个基础的灵感,他就能无限的去延伸拓展, 生成大量的相关内容。就比如说我们的角色设定来说,智慧版本和细腻版本这些模型通常只会给出两到三个核心的角色,但是我们的 deepsea v 四就能直接给出 到六个甚至是更多的细节设定。但是它的缺点也非常明显,它缺乏网文的创作和专业的判断力, 虽然能够发散内容,但是剧情容易变得散乱,而且题材没有创新,整体故事的梗概会变得非常的平淡,必须要用我们自己手动去补充革新的大纲内容, 才能把它发散的内容整理和规划。但是有很多朋友问,为什么自己用官方的 deepsea 微四生成的效果远远不如我?演示的 核心的原因就是星月写作有专属的平台适配的提示词,这是直接用官方模型完全比不了的,也是 ai 写作创作的核心关键,单纯靠官方的模型很难生成高质量的内容,好生成的大纲我们也可以直接保存到备忘录,方便后续的关联章节写作。 接下来呢,我们就测试第二个重点,正文的写作能力。我们先来说说 deepsea 微四写正文的优点,它的语言表达是比较自然的,长线生成的内容也很稳定,出稿效率也非常高, 单次生成大量文字,也基本上能立住人物的设定和基本的缓解情绪拉扯,也能做到基础到位。但是 致命的缺点也非常突出, ai 的 味道实在太浓了,完全缺少真人的情感,没有细腻版和智慧版这种比较细腻的人格情绪和真实的文笔质感,写着写着剧情就会变得非常平淡,没有起伏。 他就只生成简单的人物对话,并没有描述人物当时对话的情绪和情节内容,这很难做到番茄小说要求的黄金开篇以及对话入局,完全达不到优质的网文创作要求。为了让大家更直观的看到差距,我用相同的剧情要求切换到细腻版模型,生成正文, 大家光看开头就能够感觉得到巨大的差别。细腻版生成的内容情绪冲突拉满,剧情衔接流畅,文笔非常的细腻,而且真人感十足, 不管是对话的张力还是剧情的节奏,全方位的都碾压 deepsea 为四。所以这里明确的告诉大家,如果你想 写好小说的正文,写好黄金开篇,一定要优先选择智慧版、细腻版以及奇像版,这些模型, deepsea v 四完全不适合作为正文字作的主力模型。最后呢,咱们来讲一讲 deepsea v 四最适合它的定位, ai 神稿和改稿。 虽然它的逻辑创作能力比不上细腻版本,但是神稿这件事情上它有着独特的优势。 我们给他的细腻版本生成了优质的政文,做测评打分,把文章的内容都说的明明白白,甚至还会针对核心的段落给出改稿的修正方案, 标出必须要修改的硬质标,我们可以完全根据他的诊断意见去优化,我们的政文实用性是非常强的,所以总结下来呢,每个 ai 模型都有自己的专属优势,大家一定要学会分工使用,写大纲,做内容发散。 v 四, 写正文,做优质开篇,刻画人物情绪,用我们的细腻版本、形象版本或者是智慧版本,写完正文找问题做测试改稿,我们再用回我们的 deepsea 微四。 但是一定要记住,要搭配专属的提示词,才能让模型发挥到更大的实力,不同的提示词生成的效果简直是天差地别,所以对 ai 写作感兴趣的朋友们赶紧去试试我们新上线的 deepsea 微四,对 ai 写作感兴趣的朋友们可以点赞关注。

这两天呢,用 deep six v 四啊,我主要是在写文章啊,写文,写我自己的课程,然后这个用的也是我自己写的一本书来写的,总体的效果呢,差强人意吧。但是呢,关键点其实在这啊看,往这看, 就是写了两天,花了七毛钱,这个东西呢,它是直接掉 a p i 的 价格,它为什么这么便宜呢?往这里看, 昨天啊,八十五万的投屏量,然后输入缓存命中了七十七万,今天是个七十五万的投屏量啊,然后输入缓存命中了六十九万。 呵呵,各位,这个缓存命中率真的是太离谱了,我之前用视频也说啊,就是现在的大模型计费其实是不太透明的。这个呢,虽然大家明确标价,但实际上你一个任务发出去花多少头可能是不知道的, 包括你缓存命中是多少,其实也是不知道的你所以你必须得去自己试啊,挨个我们试,试了之后你才能知道,就是各家的情况到底是啥。现在 devc 这个东西,从效果上来讲,我觉得 pro 版是 比较不太满意的,不太满意,至少在文本上面,它是还是挺显著的弱于 g p t 啊显著的弱于 g p t。 但是呢,比较惊艳的是 flash 版,就是它虽然叫 flash 版,但实际上至少在文本上面,它跟 pro 版没什么区别,没区别, 然后它的价格又贼便宜,贼便宜,如果其实就是相当于现在你不是在抠定场景下,那么这个 flash 版真的是吊打所有了,就是它这个性价比,然后还有效果,真的吊打所有东西啊。 然后 pro 版呢,我觉得就是它的效果也还行吧,也不是特别差,但是呢,你可能跟 这以 l m 五点一那种,或者说 k 现在 k m 二点六相比呢,可能真的是一般啊,明显一般。但是呢,它这个价格啊,价格就包括 pro 版的价格,它之前定了二十四块钱,不算便宜,但是现在在打折啊,打折,现在基本上白菜价啊, 感觉白菜价也不太对,因为没有这么便宜的白菜,对吧?没有这么便宜的白菜,所以现在我觉得 d f c 的 这个地位,它属于什么状态呢?就是 他走的路子跟别的模型不一样,就包括 glm 五点一,他们还有可乐这种东西,他们走的路子是我使用 就是说更贵的价格,但是呢,我是更尽可能的去把模型的能力往上提升,对吧?他在一直在提升模型的能力,然后我可以卖个更贵的投分价格。 但是 deepsea 他 走的这条路呢,实际上是我去尽可能的提升能力,然后在尽可能的在保持能力不变的情况下把价格打下来啊,我觉得他你干的这个事真的是一个普惠性的事情啊,真的是一个普惠性的事情,很厉害,很厉害。

各位投资的朋友,大家周六的晚上好,那这周毫无疑问大家关注最高最火爆的事就是这个 deepsea v 四的预览版的正式发布,包括它的论文大家也都看了,这次 对整个市场的影响。第一点,其实这个跟 deepsea v 四的的轰动不同,那这一次如果单看本身的 deepsea 的 v 四的本身的能力,并不是只能说在多维度的 v 四的本身的能力,并不是只能说在 coding 上下文等等跟呃 国内的第一或者是全球的顶尖是比较处于第一梯队,但并不是说这个完全,这个像第一次那么拔尖, 那么它最大的意义是在什么地方?最大意义在于这个,其实大家可以看它几个特点,第一个,百万上下文的 a 阵的推力的能力,其实很多国产的大模型也好,顶尖的大模型也好,包括海外的都能做,但是它的 无论是这个 k v cash 还是它的成本相比 deepsea v 三零还有其他的大模型都大幅的降低,核心在于它把这个高性能的能够做 agent 的 这种抠动的能力,把它做了一个商业化是可行的,成本急剧降低, 可以工程化的就向整个的全球去证明了,开源模型也能做这种重思考的工程化的这个 coding agent 的 这个能力,而不是只有闭源模型才能做这个事, 所以这是他的一个非常重要的印,并不是说单纯的技术上实现百万上下文的,包括扣定 a 政策这个能力大幅的跃升,处于 d t 队那核心的是他背后的无论是成算的成本,效率,这大幅的提升,这是使得他是商业可行的一个非常重要的一点,这也是 他本身追求的一个关键的方面,这是第一个比较重要的一点,另外的一个方向。这次大家其实周五的市场就有所反应了,之前其实前面那个 davidson 在 发布 v 三点二八二零 v 三点二的时候,就已经开始 零倍适配,像升腾啊,航母机等等国产 ai 的 厂商了,他那个时候可能更多的是推理的适配。实际上整个的 v 四的模型箱是从一年半之前就去年大概一季度整个的开始,从他的 论文也好,包括他的新的底层的跟国产化的全站适配也好,这个是这一次最大的一个变化,我觉得是最突出的一点,除了他本身的控制能力,这个已经到了顶尖 dt 的 开源了,而且成本大幅降低。他从论文里面去看那些对比华为芯片和英伟达芯片的表现, 它将是同时完成了他们叫专家并行的 f p 四精度下的有效验证。那么你考虑到这个目前英伟达只有 b 卡系列以上的才支持 f p 四混合精度的系列, 那么国内的像升腾、九五零啊这些新一代的产品具备该能力,包括韩五 g 后面新一代产品,那么这就意味着因为 b 卡大家都知道不是那么容易获得的,意味着而且它又是从去年的四五月份开始的, 也就意味着这一次 v 四已经具备了在训练环节使用国产战力。基于 mx f p 四精度开展训练能力,并非仅仅在处理层面,处理层面刚刚说了,早就实现了对国产战力全方位的适配了,这里就不展开了。 所以在这个基础上,我们可以看到不但是升腾,以升腾含糊即为代表的,那么它这一套的 方式很容易后续在其他的国产厂商上进一步的去推广,所以这个是我觉得是大家特别值得关注的,对国产厂商的利好。而且这次的 vs 模型,同时它里面也使用了前段时间 kimi 的 论文里面指出的就是我们行业里专业的叫做追 和 dico 的 分离的技术,这套技术实际上也是对国产的超节点的,这个意义会非常大,会极大地利好国产的算力。这个我简单介绍一下这 pd 分 离,这 pref 和 dico 的 分离, 实际上是按照一比三的比例分配,是最适配推理架构的场景的。第一次它专门针对长训练场景做了 pref 的 运行优化,那么 dico 的 阶段也做了对应的数据的运行优化,那么两个阶段就加入了刚刚我说的它的这个 e p 并行的技术, 那么所以它推几端的定型策略完全为超节点优化的,无需几万张卡的这个大型集群,那么单节点或者少量节点互联互联就是最优适配的一个场景。 那么它的这种霹雳分离的架构,既能复制到其他非升腾的国产芯片上,也能在英伟达的 gpu 上使用,所以它这次对于国产的 ai 的 有很强的代表性意义。 他为国产芯片和 ar 模型的深度适配,其实我们也在上首次提了叫做摩算协同,指明了方向,那么从软件层面、生态层面缩小了和英伟达的这个差距,这次这个华为圣腾九五零的这个实践也验证了方案的可能性,可能会推动其他厂商跟进来做这个事, 所以这是这一次的比较大的一个变化。另外一个第三点我需要强调一点,因为模型的压缩和 k v k 式的机制可能对 cpu 的 需求会进一步的增加。其实一月份大家都知道是我们行,我们基本上在全市上领推了 cpu 的 涨价行情, 其大的逻辑就是到了 a 正的时代,其最大的可能不只是 gpu 对 cpu 的 需求会大幅增加,因为往智能型发展,频繁的工具调用、缓冲读写都会提取对提升对 cpu 的 需求。 这不仅不只是 gpu 配套的 cpu, 也包括了通用服务器的 cpu 巨头。最近英特尔的这个财报大家也能看到。另一方面,这次的其实这个威士还大家如果深入去看的话,它模型采用了三层的压缩机制, 这实时对二框划划窗不压缩历史内容分不同的倍率压缩,那么他都是需要 cpu 做核心的调度了,来决定不同的压缩倍率的内容调和分发。所以这个单单是模型压缩机制本身就对 cpu 提了更高的要求,更大的需求,所以所以这里面 对 cpu 的 意义也是大家值得关注的。所以综上来说,基本上就这三点。第一个对开源的模型的抠定能力,或者 a 政策的能力,也许达到百万上下文级别的,并不是说他是率先达到百万上下文,有很多的顶尖大模型已经能做到,但是他的成本, 他的效率基本上是做到了能够商业工程化的,目前来看这个至少在这个最优的前列。 第二个,对于国产 ai 算力的整个生态谋算协调,这基本上是中国这种有限的条件下的实力,是一个非常大的一个标志的意义,我们叫星星之火可以燎原。第三个呢, cpu, 因为它大量的这个模型的压缩和 cpu 的 机制需要 cpu 来调度,这 cpu 的 需求会增大。基本上我觉得这是这一次的 dvd 大家最值得关注的三个投资的方向。 另外一个,大家可能短期觉得会对这个像 mini max 质朴这样的大模型会有一些负面的影响。其实股价周五已经开始出现调整,其实大家可以参考,都不用我多说,大家可以参考当时前两年对不对?刚发布的时候,对于很多的 恐慌,包括那时候大家就觉得其他大模型都不用怎么看了,实际上你回过头去看这种开源的模型的,新的里程碑式的这种发布,对模型国产大模型反而是一个 回过头看,可能大家那个时候都觉得其他的国产模型都快被 deepsea 这种开源都当时也是很绝望,那现在看,对他们反而是一个中长期看,是一个巨大的利好,反而会促进这几个继续的迎头赶上或者病情向前。所以我觉得 这次如果像 mini 的 制服这样的模型,因为 v 四的发布,因为它的开源的价格包括能力各方面确实到了顶尖的规定的模型的水平, 但未尝不是一个挺好的一个机会。如果大幅调整下去,其实历史上大家给看到,但历史上去看,其实像他们要追上基本上也就三到六个月的时间,因为技术弄完,各方面全部都是看人的,可能训练上稍微要花点时间,推理上是很容易的。 整体的一个情况,因为一些具体的技术技,我觉得大家也看得眼花缭乱。实际上起我觉得技术上的指标并不重要这个核心的,因为它不是 这个突然一下的 deepsea 一 技绝伦,又把国产模型变成个从零到一的一个,实际上你看 kimi 最新的这个二点六啊,包括这个智普的五点一, gm 五点一啊,基本上都在这同一梯队,基本在同一梯队,只是它的效率成本同时跟国产算力的这种全闭环达到了一个, 我们叫做有点像我们我党当年在延安的延安精神,在有限的资源下取得了个最优解这么一个情况,而且这个对于整个国产生态的拉动是意义非常大的,所以这个是 整个的大概的一个情况。那具体的一些标的,我们还有国产化的一些具体细节,后面我们团队国庆给大家做一个汇报。好的李总,各位领导,各位投资者,大家晚上好。关于与国产算力具体的融合,还有是标的层面,我们看到这一次 根据 deepsea 的 官方的文档,其实其实是有两个与国产算力相结合的一个比较重要的标志。一个是根据 deepsea 的 官方文档的时候,同时实现了在英伟达和华为的卡上完成的验证,那么达到了一样的效果, 那这个也是证明深度适配的这样的一个重要的一个根据。 第二处就是在 deepsea 的 官方公众号上目,他也是明确的表示了目前 v 四 pro 模型, 呃,也就是 v 四的高端模型服务吞吐仍有限,那么预计当下半年升腾九五零超级点开始批量上市之后, pro 的 价格会大幅度的下调,那么这个也就是说,在不管在训练、推理,特别是推理层面,升腾已经成为了决定 模型吞吐价格的非常重要的一个力量,那也就是说他在推理乃至于训练都进行了非常深度的适配,以至于他自己也明确表示,只要九五零超级点批量上市, pro 的 价格会大幅下调,而不是一般的下调,所以说证明他们之间是融合是非常深的。那么从升腾这个角度也是第一时间表示全面支持 d sigma v 四从单卡的吞吐不同,包括 v 四 pro、 v 四 flash 的 吞吐都进行了非常大的一个优化,包括升腾他自身的超节点 也对 deepsea v 四进行了非常深度的优化。同时我们看到升腾的在它的 cnn 推出了一个编程的新范式,这个呢,我们认为也是从长期内 打造一个全新的生态,使整个的国产算力以升腾为一个 新的范式,新的代表。那么他率先能够打破扩大这样一个生态从变异等等层面的一个壁垒,这样能够使国产算力从不仅是从单卡,而且从生态上讲, 与国产头部大模型进行更加深度的一个适配。除了声控之外,很多的国产厂商也都宣布第一时间完成适配,那么以国产算力龙头含五 g 为例,当日含五 g 就 完成了对 flash 和 pro 两个开元大模型的第一时间的适配, 包括说以这个含五 g 的 原生 ai 框架对相关的算子进行优化,也包括 通过挖掘一些硬件特性,降低通信占比,提升推理的吞吐效率这些做了一系列的优化。 所以说我们看到这一次国产算力和 deepsea 这种第一时间的协调优化,实际上是为国产算力的发展打开了一个新的范式,也就是我们持续强调的摩算协同。同时我们看到 deepsea 这一次的论文中也对 f p 四进行了一个新的论述,同时我们注意到像刚才手机也提到九五零和韩武器也都已经或者是未来开始对 f p 四等新的数据类型进行全新的一个探索。 所以说我们看到在 f p 四也就是面向未来这样一个维度,实际上是会有一个 非常强的这样的一个发,未来配合发展的这样的一个趋势。所以说从标的层面我们看到首先 分几个方向,第一就是国产 ai 芯片,包括刚才首席提到的 cpu, 在 ai 时代也迎来了全新的发展机遇, 那么这些做芯片的龙头包括核武器、海光信息、云天丽飞、中国长城龙芯、中科和盛新材等。第二个方向就是国产的超节点龙头以及国产的 ai 服务器龙头。 那么以浪潮信息、中科曙光为代表,也包括这一次和 deepsea v 四适配最深入的 华为福气超级点相关的厂商,包括软通动力、神舟数码等等。那第三个方向就是云计算,包括金山云网速、优克德 等等公司。那第四个环节我们也看到这一次 deepsea v 四,它是实现了编程能力的一个非常重要的一个突破,那么它的编程能力也在多个榜单上居于,与国内外头部大模型 相比,相比之下也居于首位。那所以说我们认为也直接立好编程领域,做编程工具的公司,那么典型的就是着一心心,那以上就是我们的观点。

大家好,今天我们来聊一聊 deepsea 最新发布的 v 四技术报告。这是 deepsea 继 v 三之后又一次重大升级,也是目前开源模型中规模最大的迭代之一。 dixon 杠 b 四系列包含两个模型,一个是一点六万亿参数的 dixon 杠 v 四杠 pro, 激活四百九十亿参数。另一个是两千八百四十亿参数的 dixon 杠 v 四杠 flash, 激活一百三十亿参数。 两个模型都原生支持一百万 token 的 上下文长度,不需要额外的上下文扩展步骤。与 v 三相比, v 四在百万 token 场景下,推理计算量仅需百分之二十七, kv 缓存仅需百分之十,这是一个非常显著的效率突破。 dipht 杠 v 四的架构在保留 v 三的某混合专家框架和多 token 预测的基础上,引入了三大核心创新, 第一是流行约束超连接 m h c 用来增强传统的残差连接,通过将硬设矩阵约束到双随机矩阵流行上,有效提升深层网络的训练稳定性。 第二是混合注意力机制,结合了 csa 压缩稀疏注意力和 hca 高度压缩注意力,大幅提升长上下文效率。第三是引入 moen 优化器,通过矩阵正交化实现更快的收敛速度和更高的训练稳定性。 我们先来深入了解 mhc 流行约束超连接,在传统的 transformer 中,残差连接是直接相加的,但随着网络层数不断加深,信号传播会变得不稳定,训练也更容易震荡。 dyp 杠 b 四引入了可学习的硬设矩阵,并将其约束在双随机矩阵流行上,也就是说,矩阵的每行每列之合都等于一,这保证了信息在前向和反向传播中既不会爆炸也不会消失,同时允许模型学习到更好的特征组合方式。 实验证明, mhc 在 深层网络中显著提升了训练的稳定性和最终的模型性能。 配合注意力是 v 四最大的亮点。 csa 压缩稀疏注意力,将每 m 个 token 的 kb 缓存压缩为一个条目,然后使用 lightning indexher 快 速选择 top p 个最相关的压缩条目进行计算,结合共享 kb 的 多查询注意力进一步提升效率。 hcaa 高度压缩注意力则更激进,将每一百二十八个 token 压缩为一个条目,同时保持密集注意力计算。 两种机制在模型的不同层交替使用,再加上滑动窗口注意力保留局部细节,使得百万凑肯上下文在实际推理中变得完全可行,同时大幅降低了计算开销。 在宣联优化方面, v 四有多项重要创新。首先是优化器的升级。 d 四用 mo 替代了传统的 adam mo 通过对梯度矩阵进行正交化,使每次参数更新都沿着最优方向进行,收敛速度更快。 训练数据方面, v 四杠 flash 在 三十二万亿 token 上训练。 b 四杠 pro 在 三十三万亿 token 上训练。在基础设施上,某模块采用单融合内核,完全重叠计算和通信。 另外, v 四还引入了 taiwan 领域特定语言来平衡开发效率和运行时性能,以及 f p 四量化感知训练,将木专家权重从 f p 八降到 f p 四,在几乎不损失模型质量的前提下减少内存开销。 威瑟的后斜链采用两阶段范式,第一阶段是领域专家独立培养,针对数学编程 agent 和指令遵循等不同领域,分别训练专门的专家模型。 每个专家先经过监督微调建立基础能力,再用 g r p o 强化学习,进一步优化。 第二阶段是通过在线策略征流,将多个专家模型统一整合为一个模型,学生模型学习优化与教师模型的反向 k l 散度,从而继承各专家的领域能力。 这种两阶段方法被证明比传统的混合 r l 方法更有效,能够在保持各领域能力的同时,避免不同任务之间的相互干扰。 性能方面, l 四杠 pro 杠 max 在 多个精准测试中表现出色,在推理任务上超越了 g p t 负五点二和 jamalai 杠三点零杠 pro 在 知识评估新破飘 a 中以百分之五十七点九的大幅领先优势超越所有开研模型, 在百万托肯长上下文测试中,甚至超越了 jamalai 杠三点一杠 pro。 特别值得一提的是,在扑登数学竞赛中, v 四在混合形式化推理模式下取得了一百二十满分的成绩,这是极具里程碑意义的结果。 在编码 a g e n t 评估中, b 四杠 pro 的 通过率达到百分之六十七,超越了 colossus 四点五的百分之四十七,接近 opus 四点五的百分之七十。在 co forces 编程竞赛中, b 四更是达到了三二零六的 reading 分 数。 总结一下, deepseek 杠 v 四通过混合注意力架构实现了百万 token 上下文的高效处理, 通过 m h c 增强了深层网络的训练稳定性,通过木木优化器加速了训练收敛。最关键的是,它证明了在保持强大性能的同时可以大幅降低推理成本。 v 四缸 pro 在 百万凑肯场景下仅需 v 三的百分之二十七计算量和百分之十的 kb 缓存,这种效率突破为常。上下文推理和 a 阵工作流打开了新的可能。我是林申健 ai, 我 们下期再见。

deepsea v 四推出两个版本 v 四 pro 适合复杂推理 agent 深度代码 v 四 flash 响应更快更省钱,日常任务首选 api 价格, flash 缓存命中输入零点零二元 为命中一元,输出两元 pro 缓存命中输入零点零二五元,二点五折为命中三元,输出六元。到这里需要注意,优惠至五月五日,官网 api 已上线,性价比极高,下半年 pro 价格还会再降。

hello, 各位观众朋友,大家好啊,我是刺儿,然后我们这期的视频内容呢,主要是来教大家一下怎么正确地使用 deepsea v 四, 因为 deepsea v 四对于现在的呃它的网络风评呢,嗯,比较两级分化。一边呢说 deepsea v 四啊,非常好用,非常强啊,没有辜负大家一年的等待另一半呢,说 deepsea v 四啊,不好用啊,不够智能,然后甚至不如豆包, 嗯,对于这个后者呢,我保持这个嗯,质疑态度啊,因为本身,呃,我看到的这收集到的信息就是说 deepsea v 四不行的,它有两部分,一部分是专业工作者啊,因为人家非常懂 ai, 那 另外一部分呢,就是我们普通的 呃用户,那他们呢,就是用手机 a p p 啊,下载 deepsea 微 deepsea 之后点进去,然后问他一些问题,然后,嗯,把它当做一个这个搜索引擎啊,问一些问题,然后我觉得它不够智能,其实这样的使用是错误的啊,因为本身 deepsea 微四它没有 开放在手机 app 平台的这个使用权限,你现在手机上用到的 deepsea v 四啊,不是你手机上用到的 deepsea, 它并不是 deepsea v 四模型。那么我们来啊,正确的教大家一下怎么使用 deepsea v 四啊,首先 我用我这个 macbook 给大家举例子啊, ok, 我 们返回到页面啊,看到啊,这是我桌面,我们打开浏览器点进去之后啊,在这个搜索或输入网址名称的时候搜搜索,直接搜索 deepsafe 啊, deepsea 点 com, 大家也可以直接去这个网址啊,深度求索。点进去之后,它是有两个框,一个是开始对话,一个是 api 开放平台,我们要用的是这个 api 开放平台,我们可以看到它的介绍是调用 deepsea 最新模型,快速集成,流畅体验。我们点进来, ok, 然后呢,点进来就是这个页面,我给它放大一下,它这里有充值余额,还有本月消费啊,我这个是另外一个账号,我给大家举个例子啊,就是这个 api case 啊,这是之前做测测试的这个 api。 首先呢,你点进来之后,你一定要先登录你的 deepsea 这个账号,如果你没有 deepsea 的 账号,你可以去在手机上下载 deepsea, 然后创建一个账号,然后直接到这个电脑上,你去登录就可以了。 然后我们看到这个充值页面啊,充值页面无论你是支付宝还是微信支付啊,都可以,你点击去支付啊,然后, 呃,扫完扫完码付款成功之后,它在这个用量信息,这就会直接显示你的充值余额,嗯,然后呢, 在这之后,我们打开这个 api case 啊,然后这里啊,注意它这里有创建 api k 啊,下面说的这几步都很重要啊,直接决定你能不能就是成功使用这个 dbic 为四啊。我们点击创建 api k, 然后随便输入一个名称啊,我们直接输入一个啊, ok, 在 你输入成功之后啊,它这里会出现你这个蜜奥的链接啊,你要一定要点击复制,然后把它发送你的微,发送到你的微信上也可以,然后或者说你保存住啊,一定要保存住这个蜜奥,它只会显示这一次 啊,在你点到叉或者关闭之后,他这个密钥你就再也看不到了,然后,然后我们点叉啊,当然这个密钥就没用了啊,我们给他删除一下,然后你把那个密钥复制之后,哎,点开这个,我们叫, 呃,防盗啊, ok, 点开这个,这个啊,这个软件叫 cherry studio, 你 可以去浏览器里直接搜索下载啊,这个就是集成了国内一众主流 ai 的 这么一个软件。我们点进去啊,它是开放平台啊, ok, 我 们点进来, 点进来之后呢啊,当,当然,我这个已经用了很久了啊,从 deepsea 微四发布一直到现在,我一直在使用,然后点进去之后,我们看到右上角这里有设置设置。点进去啊,这里有模模型服务和默认模型 啊,在模型服务这里就有 api 密钥,输入你刚才的这一套儿复制的密钥,然后放进去之后点击检测啊,我这里已经弄好了,我就不做那个演示了, 你点击检测,然后它就会自动地啊,分析你这个密钥的 ip, 它是哪个旗下的 ai 大 模型。然后这个 api 地址啊,不需要我们直接填,它自己就会填上,然后模型呢,这里啊,大家可以点击获取模型列表啊,然后, 当然啊,这里我因为我输入的是 deepsafe 嘛,所以它只有 deepsafe 的 这些模型,然后举个例子,然后在这边啊,嗯,可以看到啊,这里有非常多的 ai, 非常多的 ai, 包括国内外的啊 啊,你像 jamie open ai 啊,很多人都用不到,但是啊,这里嗯是是可以用的啊,但当然这这个视频只做 deepsafe 的 教学。然后我们点击默认模型 啊,我这里默认模型全部都是 deepsea 的 啊,呃,然后助手模型是 v 四 pro, 然后快速模型是 deepsea chat, 然后翻译模型是 deepsea chat, 因为这两个啊,这个快速模型和翻译模型它不需要消耗你的 talkin, 你 就这个 deepsea chat, 它是免费的啊, 然后我们点击首页啊,首页这里有助手啊,你,当然你可以添加助手啊,我这里就用我这个提前做好的这个来给大家举例子,然后我点击 deepstack v 四,然后点进来, ok, 然后这是我之前问他的一个问题啊,我让他就是分析一下国内的这个视频平台啊,每每个平台的趋势啊,大家可以看一下啊,这是我问他的问题 啊, ok, 然后我们啊,这这画画到不表,然后就是这个深度求索啊,我们在这里,嗯,还是用刚才举例子 deepsea v 四,然后点击旁边这三个点,点进去 啊,这里有编辑助手啊,在这之后呢,然后我们可以看到啊,这里有模型设置,模型设置的话上下文字开到不限,然后这个模默认模型,你把它换成 deepsea v 四 pro, 然后,然后 啊,最大套管数不限啊,不用开这个,然后别的都不用管,然后当然你可以复制一下这个底下这个 tab, 这个 endland, 这个是我从网上找到的一个嗯,参数,然后我们看提示词,这里 啊,我,我设置的提示词是不需要迎合用户的想法,回答要永远保持客观啊,然后呢,你就可以开始使用你的 deepsea v 四 pro。

朋友们,他来了,那个让整个硅谷恨之入骨的中国 ai 公司在沉默了整整十五个月之后,终于放出了大招,四月二十四号啊, deepsea 微四 pro 没有任何的预告,直接炸场。还记得去年二一发布那天吗?因为他股价一天蒸发了六千亿美元。那一波啊,全世界叫他 deepsea 时刻,那一次呢?他要改写的是整个 ai 产业的游戏规则。 先说大家最关心的问题,这个 v 四 pro 到底强在哪?一句话概括,它用只有别人七分之一甚至十分之一的成本,做到了和美国最顶尖模型平起平坐的水平,牛不牛? 具体啥概念啊? v 四 pro 总参数量达到了一点六万亿,用的是自家的混合专家架构,每次推理呢,只激活必要的那部分参数。再说数据呢,编程能力上, v 四 pro 直接超过了 g p t 和谷歌的大模型 agent。 编码评测上呢, v 四 pro 拿到了当下所有开源模型里的最高分。 那世界支持层面呢?大幅领先所有的开源模型,仅次于谷歌的大模型。数学竞赛的推理任务呢? v 四 pro 已经超越了所有公开评测过的开源模型,真正挤进了全球第一梯队。 还有件事特别的关键,这次呢, v 四 pro 全系标配百万 tokin 的 超长上下文,直接把百万字级别的处理能力变成了标配。啥意思? 那么厚的一本红楼梦,也就是九十多万字,一整本长篇小说,一整套代码仓库一次性喂进去,它都能给你处理的明明白白。还有问题来了,既然这么强,它跟美国最顶尖的模型比,到底还有多大差距? g p c 可自己说的非常坦诚啊,他们公开承认, v 四 pro 的 某些方面表现呢,小幅超越了 g p t 的 五点二和谷歌的大模型,但整体仍然是落后于 g p t 五点四的模型的大模型,差距大概就是在三到六个月。 但是我们要明白, deepsea 用的芯片是被限制出口的,而且呢,训练成本呢,是国际顶尖大模型的几分之一,但结果呢,追到了只差三到六个月,这哪是差距啊,这简直就是骄傲!而且最狠的是,什么?是定价!听好了, v 四 pro 每百万输入 token 呢,只要一点七四美元,输出呢,只要三点四八美元。 g p t 五点五是多少呢? 输入要五美元,输出要三十美元,完成同一项任务用 gpt, 可 v 四的成本只有 gpt 五点五的百分之十五,就连一项以实惠著称的谷歌的大模型在它面前都显得很贵。 甚至是最近它们呢还宣布了更激进的降价,输入缓存命中的价格呢,直接降到原来的十分之一。 你以为故事到这就完了吗?真正的猛料还在后面呢。 v 四 pro 这次最让人震撼的不是性能,而是另一个石破天惊的举动,它用的是华为生成的国产芯片。跑起来的朋友们,这才是真正的 deepsea 时代的二点零版。 b 四 pro 呢,把整套系统从之前深度依赖的英伟达生产,整体迁移到了华为生存的架构上,这可不是换一个驱动那么简单,万亿参数的模型,底层的代码调度的逻辑工程体系,全部要重写一遍。 那有人就要问了,那升腾芯片的性能不是还不如英伟达吗?没错啊,但是 deepsea 自己也说了,虽然目前 pro 的 服务吞吐还比较有限,但等今年下半年华为升腾超节点芯片批量上市之后, v 四 pro 的 价格还会大幅下调。 因为他 ceo 黄仁勋自己都坐不住了。他在一次深度访谈里原话说,如果 gpt 可与华为生成芯片深度绑定,并实现规模化落地,这对美国来说将是灾难性的。 这背后则是一个更深层的东西,硅谷在造墙,中国呢,在修路。你看硅谷那边, oppo、 ai、 谷歌全是闭源阵营,模型呢?越做越封闭, 发布节奏呢?完全变成了互相掐架。在中国这边呢, tiffany 微四用的是什么?是开源协议,任何人都可以自由下载和修改。 发布当天就登上了开源模型第一名,紧随其后的第二名是谁呢?是 kimi k 二点六?还是咱们中国科技公司的大模型?两家万亿参数的大模型,前脚后脚发布,不但没有互撕,反而在技术底层上互相协同与引进。这种模式正在形成一个极大可怕的飞轮效应, 开源吸引全球开发者共同迭代优化。然后呢,模型能力快速提升,然后更多企业基于它做商业应用?然后国产芯片的生态越来越完善, 美国想靠芯片封锁来遏制中国 ai 的 发展,结果呢,中国反而走出了一个用国产算力跑国产模型的独立闭环。 那这对产业意味着什么?我告诉你,是一场底层逻辑的颠覆。以前整个 ai 行业呢,信奉的是大力出奇迹,堆更多的 gpu, 花更多的钱,烧更贵的算力。但 deep seek 从 r 一 开始呢,就在干一件事,证明花小钱也能办大事。 现在 v 四 pro 啊,更进一步证明呢,用中国自己的芯片也能办世界级的大事。那带来的连锁反应是什么?第一呢,是 ai 的 门槛被踩碎了,中小企业和创业者以后不用再遥望硅谷那些天价的 api 了, 全世界开发者的热情被彻底的点燃,一个开源、开放、低成本、高效率的中国 ai 生态正在加速生成。 第二呢,是道比特算力产业链的全面爆发。 v 四强不强?强,但它对算力的消耗也大啊,尤其是推理团的 tolkien, 消耗啊,就在指数级增长,模型越强,普及越快,整个产业链上的 ai 芯片、服务器、数据中心,光模块的需求就越大。 第三呢,是商业化的天花板被打开了,第一次的 agent 能力大幅提升,能干的活更多了,智能客服、金融风控、工业研发、药物分子筛选、落地场景一个接一个的被解锁。 讲完了产业逻辑,很多做投资的朋友最关心的一定是资本市场上哪些赛道会真正的受益。首先我要先说一句大实话, a 股上几乎没有任何一家公司是直接控股 deepsea 的, 那些所谓的参股概念,大部分已经被辟谣了。比如说什么华金资本、每日互动、浙江东方都曾发布公告,明确否认存在的股权投资关系。 目前唯一比较确定的间接关联是智联互联啊,通过其持有的基金份额,据说间接持有了 deepsea 的 百分之三点三的权益。但这件事本身也存在不确定性,最真正的机会不在概念炒作。而在产业逻辑上,第一个确定性的最高的主线是华为升腾产业链, deepsea 微四适配华为升腾下半年呢,升腾九五零芯片上市之后,国产芯片势必迎来一播放量, 相关的服务器整机厂商、算力租赁平台以及为升腾生态做配套的软件企业都有望直接受益。 华泰证券的计算机团队也明确的指出,今年国产卡的能力大幅提升与规模化应用可以期待,建议关注升腾链与超节点的主升浪机会。第二呢,是半导体先进、封装技术先进的龙头企业。 第三呢,是算力基础设施,包括 ai 服务器、光模块、数据中心、液冷等领域,因为这是为大模型 ai 训练和推理提供水电煤的。第四呢,是应用层的机会, tiffany 开放生态之后呢,原本煤炭资源大模型的中小企业,现在呢,都能用上一流的模型了。 像办公软件、金融余情、教育辅导这些垂直场景,接入 deepsea 的 能力后,产品体验会明显提升。最后总结一句, deepsea v 四 pro 的 意义远不只是一个模型跑分高了那么几个点, 它的真正价值在于,它证明了脱离硅谷的芯片生态。面对持续的技术封锁,中国 ai 仍然有能力杀尽世界最前沿,并且走出一条截然不同的路, 这条路叫做开源携同,降本增效。用国产算力跑国产模型,它不一定是最快的路,但一定是最踏实的路。就像 deepseaik 官方在发布时说的那句话, 不幼于玉,不孔于匪,率道而行,端然正己,不靠炒作,不追风口,认真做技术,踏实走自己的路,这才是一家硬核科技公司该有的样子。 至于大 a 的 机会,记住一句话,跟着产业链走,别跟着概念走。真正吃到肉的,永远是那些在这个生态里扮演关键角色,有真实技术壁垒的公司,而不是那些蹭概念草预期的标的。

梁文峰终于把他的 deepsea v 四开源了,一发布就登顶哈根菲斯开源模型。而 deepsea 也不负所望,再次把百万长文本打成了白菜价。在一百万上下文场景下, v 四 pro 的 单 token 推理计算量只有上一代的百分之二十七 k, v 缓存占用更是跌到了惊人的百分之十。也就是说, deepsea 的 上下文从 v 三点二十七的一百二十八 k 扩充到 v 四的一百万,容量提升了八倍,但单 token 的 算力消耗反而下降了。更让人振奋的是,这波直接带飞了国产算力。 deepsea 在 报告中明确提到, v 四已经全链路适配了华为升腾 n p o 团队自研的 mega m o e 方案,但模型无论是在英伟达还是华为芯片上,都能跑出点五到一点九六倍的推理加速。那 deepsea 的 这种魔法到底是怎么实现的呢?秘密藏在这三大黑科技里。首先是让百万偷看跑得动的两大压缩技术。大家都知道,处理长文本最大的痛点, 注意力机制太吃内存。这次 deepsea 直接引入了两种全新的压缩注意力机制, csa 和 hca, 并交替使用。你可以这么理解, c s a 负责把好几个偷看的信息打包压缩,然后再挑重点看 r h c a 是 个狠人,直接用更大的比例把大段长文极度压缩成一个条目。这一套混合双打下来,模型不仅看得远, 而且极大地释放了显存压力,让百万长文本的日常可用成为了现实。其次是让模型学得稳的 m h c 模型,光跑得快不行,脑子还得清醒。为了提升模型的表达能力, v 四对传统的残差连接进行了全面升级。原本模型层数一深,信号传递就容易乱,甚至出现数值崩溃。而 m h c 技术就像是给信息传输建立了一条受交通管制的专属高速公路,它将信息映射到一个特定的流行空间上, 保证信号在几十层网络中穿梭时不羁变,增强了这种巨无霸模型在训练过程中的稳定性。最后是收敛极快的全新优化器 mon。 在 v 四的训练中,团队在绝大部分模块中弃用了目前大模型圈最常使用的 adm 优化器, 转而引进了 mo 优化器。它的引入不仅带来了更快的收敛速度,还在万亿参数级别极其容易出现。劳斯托斯的 mo 一 型训练中起到了定海神针的作用。当然,除了这三大核心底座, v 四还有不少改动,比如全面拥抱 f p 四量化把推理效率拉满。再比如在后训练阶段放弃传统奖励模型,采用更强大的 o、 p、 d 等。

大家好啊,一个视频看懂 deepsea 微视,第一个呢是他的上下文可以达到一百万 tockin, 这是什么概念呢?差不多七十五万个汉字吧,你把整个三股眼一塞进去,他一口气就能读完,而且还能给你分析诸葛亮为什么要北伐, 以前的我们也得拆成好几个文档往里喂吧。第二呢,是价格降了,而且不是降了一点,它现在推理花的算力只有上一代的四分之一出头, k v 缓存的话也就只有百分之十,你用它它更聪明了,但是花的钱却更少了。 pro 的 版的输出的现在好像是一毛钱一百万 tokin 福来斯更便宜。第三的是两他的两个版本, pro 版一点六万亿参数,性能拉满,直接跟全球最顶级的闭源模型可以正面杠。福来斯版本的话又快又便宜,日常完全是够用了。 如果你想要上强度可以选 pro, 想省着的话就用 flash。 最后一个是最关键的,就是这次 deepsea, 他 做出了一个很多人没有想到的决定, 他把华为升腾和英伟达的 gpu 写进了同一份硬件验证清单里,而且是优先适配华为的升腾。这意味着什么?意味着国产的大模型 可以在国产的芯片上完全跑得起来,不用非得靠国外的卡。用一些媒体的话说,这叫打破算力垄断。 华为那个申腾九五零 pr 单卡算力比英伟达对华提供的 h 二零高出了近三倍,而且现在阿里啊,四 g 啊,腾讯都在下单,以后咱们的 ai 从训练到推理,可能从头到尾都是国产的。 反正我这两天试了一下,还是比较快的。大家行,今天就聊这么多,我是老黄,希望大家能点个关注。

想象一下,一个 ai 能在一秒钟之内读完整本红楼梦一百二十回, 同时记住每一个细节,每一段对话,每一个人物关系,然后它可以回答你关于任意章节的任何问题。这不是科幻小说,这是 deepsea 微四正在做到的事情。 一百万个 token 的 上下文窗口,相当于七百五十万个汉字,相当于一整座图书馆。今天,我们来彻底拆解这项技术。 deep sec v 四系列包含两个旗舰模型, deep sec v 四 pro 拥有一点六万亿参数,每次推理激活四百九十亿参数。 deepsea v 四 flash 拥有两千八百四十亿参数,激活一百三十亿参数。两个模型都原生支持一百万 token 的 超长上下文。更惊人的是效率。 在一百万 token 的 场景下, deepsea v 四 pro 的 推理计算量仅是 deepsea v 三二的百分之二十七, k v 缓存仅需百分之十。 这意味着什么?意味着同样的算力可以处理三点七倍更长的上下文。这背后是三项颠覆性的架构创新。要理解 deepsea v 四的意义,我们必须先理解它解决的根本问题。 transform 架构是当今所有大模型的基础,但它有一个致命的弱点,注意力机制的计算复杂度是序列长度的平方,上下文翻倍, 计算量变成四倍,上下文扩大到八倍,计算量是原来的六十四倍。在一百万透坑的情况下,朴素实现的计算量和显存占用大到根本无法落地。这就是所谓的长上下文效率危机,它像一堵无形的墙,阻挡着 ai 进入真正的长城推理时代, 无法分析完整的法律文书,无法处理整个代码库,无法进行跨文档的深度研究。 deep sec v 四用三把钥匙打开了这道门。 deep sec v 四的三项核心创新分别是,第一,流行约束超连接,简称 mhc。 它从根本上升级了 transformer 中的残差连接,让超身网络训练更加稳定。第二,混合注意力机制,结合压缩吸收注意力 c s a 和重度压缩注意力 h c a, 将 k v 缓存压缩到原来的百分之二,彻底破解长上下文的显存瓶颈。 第三,密网优化器用矩阵正交化替代传统的 item 方向,大幅提升训练收敛速度和稳定性。三项创新环环相扣,共同构成了百万投肯智能的技术基石。 接下来,我们逐一深入解析。第一项创新流行约束超连接 mhc。 我 们先从残差连接说起,在标准 transform 中,每个 block 的 输出会直接加到输入上, 这就是残差连接,它让梯度可以直接流过深层网络,解决了梯度消失问题。但当网络变得极深,比如 deepsea 这样数百层的模型,标准残差连接会出现信号漂移和数值不稳定的问题,滞约了。进一步扩展超连接。 hc 的 思路是,扩展残差流的宽度, 不是简单的加,而是通过三个先行变换输入映射残差映射输出映射来更灵活的控制信息流动,这带来了更强的表达能力,但也带来了一个新问题,训练时频繁出现数值爆炸。 mhc 的 关键突破是给残差映射矩阵加上一个数学约束,必须属于双随机矩阵的流行,也就是 burkoff 多面体双随机矩阵的每行每列之合都等于一,这保证了矩阵的普泛数不超过一, 从而使变换是非膨胀的信号既不会爆炸,也不会消失在实线上。 mhc 通过 synchop knop 算法将矩阵迭代的投影到这个流形上,迭代二十次即可收敛。这个看似简单的约束换来了整个训练过程的数值稳定性, 让 deep sec v 四得以训练数百个传感器而无需任何额外的稳定化技巧。第二项,创新的第一部分,压缩吸收注意力 csa 要理解 c s a, 我 们先要明白 kv 缓存是什么。在自回归生成时,每一步都需要访问所有历史 token 的 key 和 value 向量,这些就是 kv 缓存。在百万 token 场景下, kv 缓存会占用数十 gb 的 显存,成为最大的瓶颈。 c s c 的 核心思路分两步,第一步,压缩 c s c。 将每 m 个相邻 token 的 k v 向量压缩成一个压缩 k v 条目。具体实现时,对 m 个 token 的 k v 向量做加权求和权重,由一个可学习的 token 级压缩器动态生成。 压缩后缩列长度降低到原来的 m 分 之一。第二步,细数选择。即使压缩之后,如果缩列还是很长,全量注意力依然昂贵。 csa 引入了一个叫做 lightning index 闪电锁影器的模块,它对压缩后的 k v 条目进行快速平分,找出与当前查询最相关的 top k 条目,只对这 k 条目做完整的注意力计算。闪电锁影器本身也是用压缩后的锁影 k 来平分,计算量极小, 这样 cic 把注意力计算的规模从 n 降低到了 n, 除以 m 再取 k, 效率大幅提升。同时, cic 还保留了一个滑动窗口的未压缩 k v 条目,用来捕捉局部的细力度,依赖保证模型对最近几个 token 的 感知精度不下降。混合注意力的第二部分,重度压缩注意力 hca。 如果说 csa 是 聪明的压缩, hca 就是 激进的压缩。 hca 的 思路更简单粗暴,把更大范围的偷看 m 撇各 m 撇远大于 m, 压缩成一个 k v 条目,然后直接做全量的多查询注意力,不做稀疏选择。 hca 牺牲了一定的局部精度,但换来了极低的计算成本,因为压缩率高得多。在 deepsea 微四的实际配置中, csa 层和 hca 层交替排列。 粗略理解, h c a 负责低成本地补货全局信息, c s a 负责精准地补货关键局部信息, 两者形成互补,最终效果是什么?在一百万 token 的 设置下, deepsea v 四 pro 的 k v 缓存大小仅为以 b f 十六 g q a 八为基线的百分之二。 deepsea v 四 flash 更极端,仅为基线的百分之一点四。 这意味着原来需要五十 gb 显存的 k 位缓存,现在只需要不到一 gb。 这是十倍以上的效率跃升,让百万 token 推理在实际工程中真正变得可行。第三项创新,密用油化器为什么需要一个新的油化器? 我们知道大模型训练的核心是梯度下降,用损失函数对参数求梯度,然后沿梯度方向更新参数。 edm 是 目前最流行的油画器,它通过自适应学习率来处理不同参数的梯度尺度差异,但 edm 有 一个几何上的缺陷,它独立处理每个参数, 忽略了参数之间的相关性,也就是损失曲面的曲率信息。运用的思路来自矩阵正交化。 对于权重矩阵 w m u, 先用 nestrof 动量累积梯度,然后用 newtshoff 迭代对梯度矩阵进行正交化处理, 把更新方向变成正交矩阵 uv 的 转制乘积。 newtshoff 迭代的公式是, m k i 等于 am k 三加 b, m 开三 m 开三转制, m 开三加切 m 开三, m 开三转制的平方 m 一 经过十次迭代, 所有期一直都收敛到一,得到一个精确的正交矩阵。这个正交化的更新方向等价于在 remine 流行上进行梯度下降, 天然地与损失曲面的几何结构对齐,收敛更快,更稳定。实测中,使用 mu 的 deepsea v 四收敛速度更快,训练损失曲线更平滑,而且不需要 qk, clip 这类防止注意力分数爆炸的额外技巧,因为 mhc 的 rms norm 已经保证了数值稳定性。 三大架构创新之外, deepstack v 四还构建了一套世界级的训练和推理基础设施。第一, telig 定制内核。 deepstack 团队开发了 telig 一 种领域专属语言 dsl, 用于编写高度优化的 gpu 内核。 telig 的 关键能力是将计算、通信和显存访问融合进单个内核,消除了多个独立 kernel 之间的数据搬运开销。 第二, f p 四量化感知训练专家模型的路由参数使用 f p 四精度存储,相比 f p 八再次减半显存占用。 deepsea v 四将 f p 四集成到训练流程中,通过量化感知训练,保证了精度损失极小。 第三,细力度专家并行混合专家模型模拟的训练需要在多台机期间分发 token 到对应的专家,这涉及大量的 auto 通信。 deepsea v 四设计了一种细力度流水线方案, 将专家分批调度成多个 v 五,每个 v 五的通信和计算完全重叠,相比朴素,实现理论加速比高达一点九二倍。第四,分层 k v 缓存推理时的 k v 缓存分为 gpu、 显存、 cpu 内存和硬盘三层, 不同频率的缓存条目存储在不同层级,最大化了有效缓存容量,支持多用户共享长前缀,显著降低了服务成本。在架构和基础设施就绪之后, deepsea v 四进行了大规模的预训练。 deepsea v 四 flash 在 三十二万亿高质量 token 上训练。 deepsea v 四 pro 在 三十三万亿 token 上训练。数据构建方面, deepsea 团队对数据质量有极高要求,包含多语言、文本代码、数学、 科学、论文等多个领域,并通过多轮过滤去除低质量内容。训练稳定性方面, mhc 和 mon 的 结合从根本上解决了超深网络的数值不稳定问题,训练全程无需人工干预来处理 lossback 基础模型评估显示, deepsea v 四 pro base 在 几乎所有基础能力基础上都超越了 deepsea v 三二 base, 在 长上下文、代码、数学等核心领域建立了全面优势。预训练之后, deepsea v 四采用了一套精心设计的两阶段后训练流水线。第一阶段,专家模型独立培养。针对数学代码 agent 指令遵循四个核心领域分别训练独立的专家模型, 每个专家模型先在该领域的高质量数据上做监督,微调 sft 建立基础能力,然后用群体相对策略优化 g r p o 做强化学习,进一步提升领域内的峰值性能。 g r p o。 不 依赖单一奖励模型,而是用一组后选回答的相对质量来计算奖励,更稳定、更高效。 第二阶段,在线策略蒸馏 o p d。 把第一阶段训练好的四个专家模型作为教师训练一个统一的学生模型,同时学习所有领域的能力。蒸馏采用反向 k l 散度作为损失, 让学生模型的输出分布尽可能接近教师模型。这种方式避免了多任务微调式的能力相互干扰, 同时实现了能力的有机融合。最终得到的统一模型 deepsea v 四 pro 在 知识、推理、代码、 agent、 长上下文五大维度上全面达到甚至超越各自专家模型的水平,最终的性能成果令人印象深刻。 效率维度在一百万 token 的 推理场景中, deepsea v 四 pro 相比 deepsea v 三二单步推理, flops 降低到百分之二十七, kv 缓存降低到百分之十,分别实现了三点七倍和九点五倍的效率提升。 deepsea v 四 flash 更激进, flops 降至百分之七,效率提升近十倍。知识与推理维度 deepseek v 四 pro max 在 simple qa 的 广泛世界知识测试中显著领先所有开源模型, 在 hle 学术知识测试中以九十点三的成绩与 gpt 五点四并列第一,在 mmlu pro 上超越了大多数闭源竞争对手。代码与数学在 code forces 编程竞赛题上接近 gpt 五点四水平,在数学推理基础上超越了 gemini 三一 pro 长上下文能力。在一百万 token 的 合成和真实测试基上, deep sec v 四 pro max 超越了 gemini 三一 pro, 这在当前所有模型中处于顶级水平。 agent 的 能力在 stwebench、 代码修复、 terminalbench、 命令行操作等 agent, 基本上 deep sec v 四 pro max 接近 cloud ops 四点五的表现是所有开源模型中最强的。 这些成绩表明 deepsea v 四已经真正进入了第一梯队。让我们站得更高一点来看 deepsea v 四的深邃意义, 它证明了一件最重要的事,架构创新,而不是单纯的堆砌。算力是突破 ai 能力边界的关键路径。 mhc 让我们看到数学约束可以从根本上解决深度网络的稳定性问题。 混合注意力让我们看到压缩和稀疏的结合可以把百万 token 推理的成本降低到实际可用的水平。妙,让我们看到优化器的几何视角可以带来真实的收敛加速。这三项创新的组合 打开了一个新的可能性空间。更长的上下文,更深的推理链,更复杂的 agent 任务。百万 token 只是一个里程碑,而不是终点。 deepsea 团队在论文中明确指出,这项工作为在线学习、超长程推理、多文档深度研究等下一代 ai 范式砥定了基础。高校的长上下文智能不再是少数超级计算中心的专利,它正在走向每一个人。 deepsea v 四已经在这里。

处理一百万个 token 的 超长文本,算力只需要上一代的百分之二十七, k v 缓存更是砍到百分之十。更轻量的 flash 版本,算力只要百分之十,缓存只要百分之七。 这就是今天刚发布的 deep sec v 四,它不是小修小补,而是底层架构的全面换血。 保留 v 三的瞒框架和多透。肯预测之外,他这次掏出了三张王牌。第一张牌,混合注意力机制 csa 和 h a h。 说人话就是以前模型读长文要把每个字儿都记在脑子里,现在他学会了抓重点加极度压缩笔记,内存压力断崖式下跌。第二张牌,流行约束超连接 mhc, 你可以理解为升级了模型大脑的神经传达方式,让他学东西更快,推理更稳,不再学了。后面望前面第三张牌,全新暮望优化器,训练收敛,直接提速。以前跑一个月的活,现在几天就能交卷。 这三个改变合在一起就叫加量不加价,用更少的电,更少的卡,办更大的事,这才是国产大模型该有的进化路线。想知道他是怎么硬钢硬建天花板的?点赞加关注,下一条,讲他如何把显存墙撞碎。

不幼于玉,不孔于匪,率道而行,端然正己。这是 deep sea v 四在官方公众号发布文章中的最后一段,也是令我印象深刻的一句话。我看到这句话的时候呢,肃然起敬。 这句话啊,出自战国时期儒家经典的荀子非十二子,用大白话解释一下,就是不被赞誉所诱惑,也不因诽谤而恐 惧,始终遵循呢道义行事,端正自身,不被外界一切所动摇。我觉得描述 deep sea 再好不过,在 ai formal 情绪冲刺的时代啊,能够进 静下心来搞工程技术突破,这就很不容易了。这个视频呢,我想跟大家来解读一下。 deepsea v 四不会太技术,会先讨论一下 deepsea v 四的基本情况,也会讨论大家关心的华为升腾芯片用在什么地方,我们也使用一下 deepsea v 跟 cloud skill 能不能兼容。那么话不多说, 我们直接开始。先来看一组数字啊, deepsea v 四呢,分成两个版本,一个是 flash 版本,也可以理解为是一个经济的版本,两千八百四十亿的总参数, 一伙呢,一百三十亿,这些数字是什么概念呢?你可以把它想象成一个团队,那 pro 呢,就是一个一流的专家团,那 flash 呢,就是高校的突击队。你现在去官网呢?如果你使用的 instant 就是 快速给你处理,回答呢,它调用的就是 flash 的 模型,如果选择的是专家的模式,它调用的就是 pro 的 模型。 这两个模型最大的亮点,他们都能够一口气读完一百万的 tok 的 上下文,相当于呢,把三体的三部曲从头看到尾,然后回答以 关于其中任何一个细节的问题。然后 v 四也做了一个特别聪明的动作,就是它把整本书压缩成高度浓缩的栽秧锁影,只要在需要的时候去精读对应的段落。这样一来呢,同样是百万字的上下文, v 四 pro 的 计算量呢,也只有前代 v 三点二的百分之二十七,这个显卡占用呢,也只有百分之十。 v 四 flash 呢,那就更狠了,计算呢,只有前代的百分之十,显卡占用只占百分之七,也就是说呢,它既读的又多又快,还不怎么费显卡。这是怎么做到的呢? 背后其实就我们这边提到了三大神技,第一个神技啊,我们叫做混合注意力机制,简单来说就是精读加贩毒。那 v 四内部呢,也有两种阅读模式交替工作,也就是这个 c s a 和 h c a 分 别对应精读和贩毒模式。打个比方呢,你现在有一百万本书的超大图书, 然后你是其中的管理员,有人就会跑过来问你,比如说一九八四年洛杉矶奥运会女排决赛,中国队的助攻手是谁?传统的做法,你就是把一百万本书全部搬出来,或者说你用图书馆的解锁系统看看哪一个是可能相关的,一夜一夜翻,干到天荒地老。那 v 四的这个 c s a 清读模式它是怎么做呢?它是先把每四本书呢合成一本 摘要册,然后再快速扫描所有摘要册目录,立刻锁定其中三本,比如说体育、排球,一九八四相关的 书籍,这种三类型的书籍,把它抽出来,然后答案就可以很快的找到了。那么如果用 h c a 这个贩毒的模式呢,它其实就是把每一百二十本书,这边一百二十本有可能不是一百二十,蛮真实啊,这边是给大家举例子,把一百二十本书呢,就会合成一个主题的卡片,然后快速先扫一下所有的卡片, 万一发现呢,一九八四的时代周刊核电本有提到过这个比赛呢,他就会把它纳入后续这样精读,加上贩毒的这个交替进行,就 可以保证全面又准确。这就像不像你考试的之前呢,你去快速通过目录来找重点,先复习老师提过的考试的重点,然后呢也会把握一下全书的这个脉络,这就是 t p c 的 第一大神技叫混合注意力机制,分别有精读和泛读两种。那么第二个呢,叫流行约束超连接,是不是很难理解?它叫 简单来说呢,就是给一个大楼六十一层的大楼装上了真空的管道。 v 四的 pro 呢,有六十一层深啊,参数有一点六万亿。你可以想象着一座六十一层的摩天大楼,然后每一层呢,它都在处理各种各样的信息,然后向上传递,普通的做法就是直接坐电梯,然后一层一层往上走,对吧?文件呢,有可能在过程中呢被风吹上了, 或者到顶层呢,这个信息都乱。流行约束超连接这个技术呢,等于在大楼中央装了一个真空管道系统,然后文件呢,可以封进 这个标准胶囊里面,里面磁力导轨呢,可以保证不翻滚不丢失。那么无论从哪一层发出呢,到顶层呢,可以保证几乎完好无损的这个信息,这就要让再生的这个网络呢,都能平稳的进行训。 第三个呢,叫做 m u o n 的 这个优化器啊,那么所有的大模型啊,都需要用到优化去去降低 loss, 相当于健身教练帮你去调整动作。行业默认的教练叫做 adam, 这是在 machine learning 时代就非常流行的优化器了,它是给每个参数呢去调一个固定的幅度,但参数之间呢,互相影响,调完这个可能另外一个又歪了,所以呢,你就不断地进 行念经,那 m u o n 就 相当于一个智能私教,这个新教练呢,他就聪明多了,他确保你调整所有的动作的方向呢,彼此垂直或 不干扰,就像这个图一样,这样训练呢,就可以保证又快又稳。那 v 四就用到了这个 m u o n 的 训练优化器,训练一点六万亿的参数,就等同一个教练同时指导了一百万个动作进行协调优化,这样呢,去保证我们这个优化平稳的进行。 接下来聊聊大家关心的问题啊,华为深腾和英伟达的 g p u 到底谁干了什么活?那这可能是大家最八卦的问题了。先说结论,预训练阶段,也就是从零开始把模型喂大的这个阶段,虽然文中没有明确表明,但 大概率还是用的英伟达的 g p u。 这个没有办法,目前超大规模的训练呢,成熟度最高的还是库打的生态。但是在推理优化这个环节呢,华为生成的 n p u 真正证明了自己达到了生产级的验证。 deepsea 的 论文里面有一句话特别有意思, 说我们在英伟达 g p u 和华为生成的 n p u 上两套平台上呢,都验证了推理加速方案,那什么方案呢?它叫做 maga m o e, 细力度专家并行。你先别管这个名字叫什么呀, 就是它能让推理速度呢提升一点到一点七倍,延迟敏感的场景呢,最高能达到一点九六倍。在大模型的推理场景中啊,第一次获得这么权威的实战认证,也是国产 ai 芯片值得骄傲的一件事情呢, 不是象征性的跑一跑,而是真正生产级的验证。那么再具体一点呢,华为的升腾九五零超节点呢,已经完成了对 v 四的深度适配。下半年大家觉得 v 四 pro 的 a p i 价格会比较高,但是因为现在算力还不够。 值得一提的是,除了华为的生产以外,国产的像韩五 g 啊,海关木兮,还有魔幻城等等的国产芯片呢,也完成了对 deepsea v 四的适配。所以你看,虽然御系列的城墙呢,还在英伟达的手里,但是在推理这 条线上的裂缝已经有些明显了,也难怪老黄呢,前段时间的播客采访,希特跳脚,那这个表格呢,展示了一下各个阶段里面具体用的一些技术,像预训练阶段,就是刚我们说的还是主要用的 gpu, 那 后训练阶段呢,就是 gpu 再加上它的深层呢,在文中提到了它用于 flash 版的一个续训练的适配,然后 做了一下这个序训练也是被作为微调。那推理服务呢,在双平台都做了验证,未来推理呢,还进行扩容。 deepsea 呢,也在文中呢,基于 v 四的训练和推理实践呢,向芯片的硬件厂商呢,提出了非常具体的改进方向,分别有四条,涉及一些通信啊,激活函数的一些东西, 属实共创生态的典范。 deepsea 微四啊,不只是会聊天,它是真正会干活的。所以 deepsea 在 后训练阶段里,专门给 deepsea 这个 v 四塞进了几百万条真实的 agent 的 交互轨迹,让他去学会像人一样使用工具,打开浏览器去收集信息啊,调用计算器啊,操作文件系统啊,甚至去调用多个 a p i m 完成一些跨领域的任务。举一个直观例子,你可以跟 v 四 pro 说,把我文件夹里面所有的 pdf 转成文本,或者说找出对应的段落,整 理成 excel, 发我邮箱等等。这当然也是现在大冒险发展的一个方向,就是 agentic task。 关于 deepsea v 四的 benchmark, 我 不想说太多跑分 的内容。 deepsea 这篇报告里面有一个非常值得称赞的地方,就是他们不止展示了这个编程 bug 的 成绩,还专门测试了四类真实世界任务,并附上了与竞品的对比,比如说跟 cloud open 四或者说 jimmy 三点一 pro 进行了对比。这四类任务是哪四类任务呢?第一个是中文的写作,还有第二个是搜索,第三个是百里任务,最后是 coding agent 就 进行了代码的测试。从例子中可以看出来,他们在他们自己的量化团队做了测试,包括呢,写作啊, ppt 或输入代码 说我们来看看中文写作好了,在功能性写作上面呢,他有说 g b c v 四呢,在大多数情况下都是比 jimmy 三点一更好的,而且在创意写作上也是比三点一更好的,但是在复杂和多人写作上呢,他们也承认还是略逊于这个 cloud open 四点五的。那针对于搜索呢,如果你没有开启思考模式呢, 它就是用的 r a g 的 技术,但是如果你开启了思考模式呢,它就会启动 a g t search。 然后也说下百里任务啊,百里任务呢,其实就是一个内部评测器,它去模拟真实职场的使用场景,比如说写报告啊,分析数据啊,查找邮件啊,整理会议纪要等等。 这里面 deepsea 呢,也展示一下他们输出的一些内容,包括比如说 ugc 传播,社交裂变,还有 deepsea 内部搞电话投资,有分波段投资,拆解和资源配置等等。值得一提的是啊,这个白领任务呢,在中文白领任务上面做一下测试。 deepsea v 四 pro max 呢, 是比 opus 四点六 max 表现是更好的,这也被认为呢最实用的一些能力维度。关于 vip coding 这方面呢,邀请了大概八十五位专业的开发者在真实工作中进行盲测。那么其中有百分之五十二的同学呢,觉得 deepsea v 四 pro 呢,已经可以当他们主力编码模型了, 体验优于 cloudsonnet 四点五。那 deepsea 这一次罕见的克制呢,在公告里面也主动承认了,跟币源最强模型的思考模式呢,还是有差距,那这种实事求是的态度,本身就是一种自 信。最后说一下价格啊,这也是 deepsea 一 贯的价格屠夫的风格。 v 四 flash 呢,输出价格每百万 token 呢,只要两块钱,那 v 四 pro 呢,输出要二十四块。相比之下呢, gbt 五点四, cloud open 四点六呢,差不多都要贵五十倍左右。最后做一下总结啊,总结几个常问的一些问题。第一个是 v 四训练全部用了生成的芯片吗?这个是不是的预 系列呢?大概还是用了 n v i g p u? 那 推理车呢?升腾已经可以对标,那库达生态有没被取代呢?短期内还是不会被取代的,但推理车这个壁垒呢,已经被突破了。什么叫 magma o e? 这个就是一个细腻度专家的模型,它可以使整个计算通信执 行呢,加速一点五到一点九六倍,能在我电脑上跑吗?啊,这个模型太大了,在电脑上基本上跑不起来了,但如果你电脑足够强的话, flash 版本是可以尝试部署的。 v 四是最终版吗?目前发布的呢,只是预览版,那之后呢,有完整版对外发布。最后呢,我们来测试一下调用 skill 的 能力,看看是否能够很好地兼容 skill。 我 们可以在 cc switch 里面装上和开启这个 deep seek, 就像我这样的,然后打开 cloud。 我 们先来试试官方的一个 from and design skill, 我 们可以斜杠输入,找到 from and design, 然后输入这么一个任务, prompt。 据当前目录下,这个 deepsea v 四的 pdf 呢,就是 deepsea 出的这个技术报告,我让他去生成一个解读这个技术报告的 html 文章,然后面向 普通大众。 ok, 去,我们先看一下它能否加载这个 skill 啊,它已经完成了这个 pdf 的 阅读,它转化成了这个 txt 文件,然后整个阅读了这篇文章。之后呢,它就开始创建这个 html 文件。 ok, 结果已经生成出来了,它做了一下总结,说采用了深色科技风格,然后大概啵啵说了一堆,我们直接来看这个效果吧。点开哦, 这个还是挺有 feel 的, 它也调用了这个前端的一个 from end 的 skill, 然后去生成了啊整个这个文章的结构。因为我经常用这个 from end design 的 skill 呢,所以我知道大家风格其实它是非常尊崇这个啊 cloud skill 的 风格的, 从这个角度来说,它可以适配我们已有的这个 skill, 这样的话就会方便很多了。我自己也测过呢,你也可以用这个 superpower, 因为开发的时候我经常用这个 superpower 的 这个 skill, 然后用这个 skill 呢去做一些 开发,它相当于一个 harness skill 级别。之前我的视频也有分享,也可以用在这个 deep seek 的 模型当中。总结下来就是 deep seek 也可以适配于我们不同的 cloud 已有这些 skill。 ok, 本期视频就到这里了,如果你觉得还不错呢,欢迎点赞、收藏和关注,我们下期再。

今天我们来聊聊刚刚发布的 deep sea v 四,这款模型在二零二六年四月二十四日推出了预览版,一出来就引起了不小的关注。它到底达到了什么水平?我用几分钟给你讲清楚。 先说核心信息, deepsea v 四分为两个版本, v 四 pro 是 旗舰款,总参数一点六万亿,激活参数四百九十亿。 v 四 plus 是 经济款,总参数两千八百四十亿,激活一百三十亿。两个版本都支持一百万 token 的 超长上下文,而且处理效率非常高。 在处理一百万自长文本时, v 四的推理运算量只有前代 v 三二的百分之二十七,内存占用降到了百分之十,你可以免费在官网和 app 上使用。如果想调用 a p i, 价格也很良心。 flash 版输入命中缓存是两毛钱一百万, toc 输出是两块钱, pro 版贵一些,但依然远低于国外同类产品。那么性能到底多强?官方宣称在智能体 世界,知识和推理能力三大领域达到了国内领先、开源领先的水平,尤其智能体能力, v 四已经作为内部预强编码工具来用,体验超过了某知名模型 sony 四 五,交付质量接近另一个顶级模型 opus 四点六,而且在非常硬核的形式化数学推理评测 portnum 二零二五中,他拿了满分一百二十分,看具体数据。编码方面, cody forces 评分三二零六,这个分数如果放在人类选手中能排到第二十三名。 livecodebench 准确率九十三百分之五,是所有参测模型中最高的软件工程能力 s w e verify 达到八十百分之六,基本持平 opis 四点六的百分之八十点八。数学方面, r m o。 难度题准确率近九成。 今次 g p t。 五点四另一项高阶数学测试中得分九十,百分之二,超过了同场所有对手。 知识方面, m m l u 达到百分之九十点一,比前代大幅提升。事实性问答 simple q v 准确率五十七 百分之九,比最接近的开源对手高出了二十个百分点。不过官方数据好看,实际口碑却有点两级分化。一些模型竞技场里, v c pro 综合排名只拿到第十名,分数不高,甚至落后于部分国内竞品,比如 kimi k 二点六。但在专门的代码竞技场里, 它又能和 g p t 五点四、 jammer 三点一 pro 处于同一梯队。美国官方机构评估认为, v 四 pro 是 他们见过的来自中国的最强大模型,但综合能力仍比美国最前沿模型落后大约八个月。 这一点, v 四官方自己也承认落后三到六个月。技术社区也有开发者用真实任务做了对比,结果轻量级的 flash 版居然拿了七个第一, 性价比惊人。反而 pro 版的深度思考模式在某些编码任务中消耗更多 token, 答案却未必更好。另外,也有人指出, v 四在一些复杂工程任务上稳定性还有提升空间。 总结一下, deepsea v 四是一款极具冲击力的模型,它用极低的成本把世界级 ai 能力推向了大众市场。如果你只是做日常任务、常规开发,尤其是在中文环境下,那便宜的 v 四 flash 版本是性价比极高的首选。 如果你需要处理复杂长文本或者高阶编程项目,那 pro 版也展现出了接近顶级的实力。它不是全能冠军,但在很多关键领域已经能和顶尖高手正面过招了。好了,关于 deep c v 四的水平就聊到这儿,希望对你有帮助。

我们快速解读一下这一轮 deepsea v 四预览版到底在发生什么。其实一个很直观的感觉,就是两件事一起拉满了,一个是性能,一个是价格。先说 v 四 pro 这边,它其实已经不是简单对标开源模型了,你会发现它是直接往顶级闭源内档去贴的。 像 agent 这一块,实测下来,使用体验是比 sonic 四点五更顺一点的。但如果你看最终交付质量,其实又还没完全到 oppo s 四点六思考模式那个水平,更接近它的非思考模式。然后世界支持这一块,它已经是明显把开源模型甩开一截了。 但你说跟最顶那一档,比如 gemini pro 三点一比还是差一点,但差距已经不是一个量级的问题了,更像是还没完全贴上去。反倒是数学 stem, 还有那种竞赛型代码 这一块, v 四 pro 其实已经把现在公开测评里的开源模型都压过去了。这个信号还是挺明确的,就是它在硬能力这条线上是有突破的。 再看 v 四 flash, 其实就更有意思一点,它在世界知识上确实弱一档,这个没什么悬念,但你看 agent 的 测评,在简单任务上,它是能跟 pro 打平的,这说明什么?说白了就是很多日常任务其实已经不需要最强模型了,但一旦任务复杂起来,它还是会掉队。这个分层就很清晰, 关键不在能力,在价格,它的输入成本只有 pro 的 十二分之一。这个东西一旦放到实际业务里,你会发现决策逻辑就完全变了,再叠加后面升腾九百五十超节点, 如果真的安预期在二十六 hr 落地, pro 的 价格还会往下压,那整个价格带是要被重写一遍的。再往下看,它这次的技术点其实核心就两个,一个是上下文,一个是 a 卷。 上下文这一块,它用的是 d s a 吸收注意力机制。你可以简单理解,它不是把一百万 token 一 行一行读完,而是能快速抓关键点,然后再去做推理,等于什么?就是有效计算量被压下来了,所以它敢把百万上下文直接做成标配,这个不是单纯堆参数能做到 的,是效率真的上来了。然后 agent 的 这一块,它其实是有点定向优化的意思,像 cloud code、 open curl、 open code body 这些主流 agent 的 工具链,它是专门去做适配的。 你会看到的结果就是两件事,一个是代码任务更稳,一个是文档生成,这种片结构化输出的任务质量在提升,这就不是单点能力提升了,而是在往可交付能力靠,最后再落到产业链。 其实逻辑也比较直接,只要承认一点,就是这种模型再往更大上下文,更高调用频率走,那算力一定是被带起来的。所以深腾这一条链路,像华丰科技、杰华特、航天电器、韩五 g 这些都是直接相关的。 再往上一层, a 准的优化,其实是更吃 cpu 调度和内存带宽的,所以海光信息、蓝起科技这种也会受到影响。 然后再往底层走,算力需求一起来,金源厂也是有关联的,中兴国际、华宏公司这些本质上还是在吃这一轮国产算力扩张的贝塔。你如果把这些连在一起看,其实会发现一个变化, 模型这边已经不只是谁更强,而是开始在谁更便宜的做到足够强,以及谁更适合直接拿去干活。这个方向一旦成立,后面的产业链节奏基本也就跟着变了。

最近很多人都问我说,感觉 d 七 v 四用的也没什么不一样,呃,为什么晚上大家把它说的那么牛?那今天我就用大白话把 d 七 v 四真正的核心要点讲透,尤其是 v 四,开始做到了 ai 的 评选,不让 ai 变成少数人的奢侈品。 首先第一点, d 七 v 四它把一百万多粉的上下文,从营销噱头变成一个真正能用的硬实力。 百万上下文差不多是三 t 小 说全集的字数大模型呢,它需要一次性记住所有的信息,对显存的要求大概是几十个 g, 哪怕只有回复一个字,这几十个 g 的 显存也是必不可少的。因为每一次输入产生一个新的功能,都需要把显存里的信息重新读一遍, 就好像你跟别人聊天思考前,都要把这辈子的日记全部读一遍。所以呢, ai 的 实用成本就非常高,而且很多大模型都会有一个通病,文本一长,他就前后脱节,可能说到后面,他会忘记前面的约束条件,导致幻觉胡说八道,有时严重甚至会崩溃。 至于为什么会这样,有时间我会拍一期大给大家讲明白。而 d c v 是 它的混合注意力架构,加上它的 k d 缓存压缩技术,很好的解决了这个问题。它其实不是一下子把所有的信息都读一遍记住,而是像给书本写题干一样,把重要的内容都做成了题干。 当需要相关的信息时,他会根据提供的内容,在针对性的去阅读原来的文本。所以呢,他就不需要每次都去把百万上下文全部重新读一遍。因此呢, ppt 是 他既节省了大量的成本,而且在细节的造物能力达到了行业的顶尖水平,把长文本推理的效率拉到了第一梯队。 其次, v 四,它使用了自家的 m o e 混合装甲架构,从单纯的参数游戏变成了实打实的效率革命。 m o e 的 核心思想就是大参数小激活。 v c v 四 pro, 它其实拥有了高达一点六万亿的总参数,但实际上,它在处理任何一个具体任务时,实际被激活并参与计算的参数仅仅大概只有四百九十亿。 可能在这里很多人听不懂,呃,我可以给你举一个通俗的比方,传统的大模型就像一个全科医生,他印堂所有的病 怎么都需要他处理,所以又慢又累。而而 mv 叫做很简单,你处理文案只激活文案的专家,你写代码只激活代码的专家,他就像一个分诊台一样,按需调用,精准干活,又快又省成本。 这次 dp 四把 mv 的 架构打磨到了极致,在同配置下的推理速度、算力、利用率都比普通的方案强出了一大截,这也是他能够把搞到大模型的成本打下来的原因之一。 第三, v 四极致的低价,它能够让 ai 变得人人都用得起。跟之前三点二的版本比较, v 四的计算量是原来的百分之二十七,它 k d 缓存只到了原来的百分之十。所以呢, v 四的价格可以做到的白菜价, 甚至他最近官网还打了二点五折的折扣优惠,百万头等的输出来到了泥土的六块钱,可以说是极致的价格屠夫。 根据 d c 官网的预告,下半年呢,他的升腾九五零高节点批量上市之后, v 四 pro 的 价格还要大幅下调,如果到时的价格比现在的折扣价还要低,那将会是另一级重权 cpv 四,他把顶级模型的能力、百万级的上下文代码推理能力全能拉满,但价格呢,却直接达到了一把价。他不靠补贴,也不靠营销,只靠底层架构节省壮丽。后面呢,他还可以靠咱们自己的国产壮丽,把价格再一次拉低, 这就把高高在上的顶级 ai, 变成了普通人能用、天天敢用的生产工艺。从少数人的奢侈品,到了全民人人共享,这才是国产大模型真正的价值和底气。

deepsea v 四的真实水平到底如何?我直接给出结论,我给 jimmy 三点一 pro 打七分,给 deepsea v 四打五点五分,个人认为这差距不算大。 d s v 四前两天重磅发布, 支持 em 超长上下文百万 token, 然后价格非常便宜,每百万 token 大 概是两毛钱。相比之下,比较强的国产模型 mini max 要二点一元每百万 token。 所以 说像 deepsea v 四这样的知名大模型真正成为了价格屠夫, 可以说它将成为一个真正的 ai 普及者。 deep seek v 四价格的下探,我认为会让更多的行业开始运用 ai, 开始尝试去把 ai 和自己原本的工作流去结合,我认为会在三年内大面积普 及,而且这还会引发新一轮的国产 ai 价格战,对于国外这些顶级 ai 厂商来说也是一个巨大的警钟。据说 deep seek v 四的训练成本只有 astropix 的 六分之一到十分之一, 所以说任何一位懂行的人都会问,大厂花几十上百亿美金去训练的大模型,它究竟强在哪里?能强多少?它多花六到十倍的钱,它的模型能强六到十倍吗? 那显然是不行的。话不多说,下面我们直接来对比一下 gemini 和 d s v 四的答案。 d e t。 对 和 v 四的直接较量。问题一,你现在是我的外卖助手, 我要点两样东西,一份不加冰的冰镇西瓜,还有一份七分熟的三文鱼刺身。请帮我写一段给外卖老板的订单。备注, 要求语气必须非常诚恳,确保老板能完美按我的要求做,而且绝对不能让老板觉得我是在故意找茬。 这是 deep sea 的 答案。老板您好,有两个小小的特殊要求,特别感谢。首先这个语气态度很好,冰镇西瓜,我很想喝冰凉口感,但又怕冰块化掉影响浓度,所以麻烦您炸的时候用冰镇 西瓜,或者炸好后隔冰水降温,到这里老板就不会鸟你了,这要求太高了。前面这个是可以实现的,但汁里先别加冰块,我自己喝的时候再加,这样风味最好。真心麻烦你了。第一个冰镇西瓜汁的算它通过了。第二个, 三文鱼刺身要七分熟,他说帮我挑颜色深一点,脂肪线密集厚切。他在这里解释说,我不是要熟的,纯粹是想感受那种肥美。管他叫七分熟,是我自己的怪比喻,完全错误,所以说这题他最多得一半分。 那再来看杰姆纳的答案,我认为杰姆纳这两个是全对,而且答得很好。杰姆纳是说最近肠胃敏感,但又是在馋宁家的手艺。有两个特殊小请求,首先这个 无法点是无懈可击,他给的方案也很好,用冰箱里冷藏过的西瓜炸或者炸好后帮我稍微冰 一下。老板如果看到这些话的话,都是很好理解,而且也是能够实际落地操作的,千万不要加冰块,我怕太凉,受不了三文鱼刺身,麻烦您受累用火枪或者平底锅帮我稍微加热炙烤一下,大概七分熟。我现在身体不能吃纯生食,但又特别想吃厚切三文鱼的口感 要求比较繁琐。真的非常感谢您的理解和费心,祝您生意兴隆。我想有百分之八十的老板看到这一些话,应该是会去照做,基本能够做到。所以说这题 just 满分。下一题,苏轼 被贬黄州七千,如何利用当地特展发明威灵顿牛排,力举当时的烹饪步骤,并引用一首他为此创作的诗词。嗯,这题就是要求非爱一本正经的胡说八道。这题我认为 deep 答得非常好。 他的逻辑大概是这样的,他是说苏轼发明了一道菜,外酥里嫩,层层碟鲜。他的这种制作烹饪方法和桂林炖牛排最终的口感是很像的, 就是发明了一道黄州酥卷肉,然后欧洲人把酥皮裹肉的方法从东方学了过去,然后又用自己将军的名字命名叫惠灵顿牛排。我觉得它的这个逻辑是完全正确。虽然说是一本正经的胡说八道,但是基本是正确的。后面这个烹饪方法就不是很重要了, 烹饪方法基本都大差不差。然后即道题 jimmy 是 完全错了,我个人认为 零分。这题 jimmy 没有任何的一本正经胡说八道的过程,他直接说了苏东坡版的惠灵顿牛排是怎么做的,直接就是具体的烹饪方式。虽然说这个过程大差不差,诗词也没有什么问题,但是他没有讲清楚如何利用当地特产发明惠灵顿牛排。 所以说他在逻辑上是有严重缺陷的。这题我给 jamie 零分,给 d s v 四二十分。下一题很简单啊,就是说要煎三个蛋最少需要几分钟。这个是小学生数学三分钟。这是个送分题,没什么好比的,大家都是三分钟。 下一题是用三国演义加红楼梦的合并文段,让 ai 找出第一本小说中的第一个年份,第二本小说中出场的第五个女性角色,并用第一本小说主角的语气给 给第二本小说中的女性角色写一段五十字内的搭讪开场白,然后年份和第五个女性角色,大家找的都挺准的,这很简单, 但是最终的要求就是刘备搭讪贾元春。五十字开场白。 ds 回答的有一些重大漏洞,这就有巨大幻觉。他说的是元妃娘娘被乃中山靖王之后,见娘娘乃奉君王 客,来请教为妃之道。刘备学什么为妃之道呢?实则为汉室江山求一良策。这逻辑完全不通。这 题 d s 给零分, jimmy 是 这么写的,在下刘备中山靖王之后,见娘娘雍容华贵,实叹天人,不知娘娘宫中可需被亲手编制的精美席履 就完全没毛病,先彩虹屁一下,然后甚至说要送她精美的鞋履,草鞋大师啊!这题给 jimmy 二十分。最后一题是给视频写一个开场文案,主题是 deepsea v 四的深度测评。 deepsea 给的是 d s v 四强的离谱,是真进化还是堆参数啊? 目中的要求全部达到,但是个人觉得这个文案不是很好,因为 d s v 四完全跟堆参数不搭边。然后 jimmy 给的是 d s v 四逻辑真能封神吗?跑完十项盲测,这差距太离谱 了。 jimmy 这也一般,有点太夸大了。所以我给 jimmy 和 deepsea 都给十分了,所以最终 deepsea 是 七十分, deepsea 是 五十五分。我开头说的是七分和五点五分, 个人认为差距不算太大。但是我认为 d s b 四距离第一梯队的综合能力还是有一些差距,但可接受。对于大部分企业来说,我认为完全是够用的。 对于企业来说,它更需要的是稳定的工作流和更便宜的价格,而不是最聪明的智商。杰姆耐三点一 pro 每百万 token 价格大概是两美金左右,也就是十四块,跟 d s b 四两毛钱比起来,那就差了七十倍,但是它的性能很明显没有高出七十倍,这就是 d s b 四的真正意义。 而且这个 jimmy 已经算是海外顶级大模型当中最便宜的一个了, israplay 和 openai 都会更贵。 d s v 四现在的问题就是它依然不支持多模态,所以说它是一个纯文本的大模型,你要传图片和视频还是不行,你给他发图片,他也只能提取其中的文字,但这些都不是 d s 真正的意义。 d s 这次发布最大的意义就是一个真正比较完整的 ai 解决方案,因为 d s 这次已经支持了华为的升腾芯片, 就是它从软件到硬件都可以实现国产化,对国内企业来说,完全就是越过了一个卡脖子的阶段。然后就是它的成本了。 deepsea 作为这么有名的一个中国大模型,它把成本压缩到这么低, 势必会给他的竞争对手带来非常巨大的压力以及激烈的价格战。期待未来使用大模型的成本会越来越便宜, 到以后所有这些大模型会变得越来越像水电煤的基础设施。而真正给 c 端用户、 b 端用户带来价值的是个性化、定制化的交付,就是以后势必会产生很多团队利用这个 ai 的 能力去做一些产品和服务, 做一些创新。所以说我相信在 ai 时代,产品经理、产品运营的春天真正到来了。只要你有想法,有快速落地的能力,就能够服务好你的客户, 就能满足到这些 c 端、 b 端客户的真实需求。所以说,我认为马上一个深度结合 ai 工作流的产品经历的时代即将到来。 以上就是我对 deepsea v 四的全部看法,如果你有对 d s v 四的不同观点,欢迎在评论区留言讨论。你觉得 d s v 四的发布会给国内国外近期、远期对其他的 ai 场上带来哪些变化?也可以在评论区说一下。我是笨揭秘叉,持续分享科技和流行文化的最新观察。再见!

已久的 deep six v 四,他终于来了!从去年 v 三爆火之后,关于 v 四的传言就没停过,万亿参数,百万上下文,彻底换掉英伟达国产芯片底层适配代码能力吊打全球旗舰。这些网传的神奇升级到底是真是假?本次官方发布的 v 四到底有哪些实打实的升级? 实际体验下来,他能不能打得过 cloud、 量子这些海外顶流?本期视频我们从官方升级拆解到多移动横向实测,带你一次性把 deepsea v 四发的明明白白。 首先我们来系统拆解一下 deepsea v 四官方发布的几大核心升级,每一个都精准命中了当前大模型的核心痛点,也彻底拉开了和上一代的产品差距。第一个也是最核心的战略级升级,全链路国产算力深度适配,实现真正的自主可控。 这不是简单的兼容运行,而是从算子变器、底层代码训练框架到推理管线全流程,和华为升腾芯片做了联合优化。行业里之前的模型都是先给英伟达做优化,国产芯片只是能用,而 v 四直接把国产芯片当成了主力,英伟达反而成了备选。 第二个全新架构加万亿参数微模,实现能力与效率的双重突破。 v 四采用了全新的 mhc 架构, 最高可扩展至万亿参数,对比 v 三的六百七十一亿总参数直接是量级的飞跃。但最厉害的不是参数堆料,而是它的稀疏激活技术,把活跃参数控制在和 v 三的三十六倍参数相持平的水准。 这就相当于你用一辆家用车的油耗开出了超跑的动力,在保证推理延迟和 v 三相近的前提下,模型的知识储备、推理能力、复杂任务处理能力都实现了质的飞跃。 第三,百万透坑超长上下文搭配全新记忆机制,百万上下文窗口,不只是数字的提升,更是应用场景的彻底拓展,直接可以把一整个企业级代码库、十几篇长篇小说一次性喂进去,实现跨文件、跨章节、跨领域的深度关联分析。 第五个,极致性价比延续,成本粉碎机再升级, deepsea 能火遍全球,极致的性价比是核心原因之一,而 v 四在能力全面跃升的同时, 依然延续了这个核心优势。官方明确 v 四会保留前缀自动缓存机制,缓存命中后价格直接下降百分之九十。对比海外旗舰模型, cloud code 是 每百万输入头肯五美元, gpt 五是二点五美元,而 v 四定价在零点一四美元,成本差距达到了十几倍甚至二十倍。讲完了官方的升级,相信大家最关心的还是说的这么厉害,实际用起来到底怎么样?接下来我们就进入实测环节, 逻辑推理能力是大模型的大脑核心,也是 g p t 长期以来的标杆级优势项。这一轮测试,我们直接对标 check g p t。 第一个场景,我们准备了全网爆火的三个盒子标签错题, 三个盒子分别装着苹果、橘子混合水果,所有的盒子标签全贴错了,只能从其中一个盒子里拿一个水果。要确定所有盒子的真实内容, 首先看一下 gpt 回答的结果,答案没问题,推理过程采用的是排除法,加分情况讨论结尾有总结也有拓展,效果不错。接下来我们看看 deep six 的 表现。首先,它具有深度思考过程,答案同样没问题。它的正文推理采用了三步走的拆解法。 这一轮测试下来,我认为两者打了个平手。文案生成是绝大多数人用大模型最高频的功能,也是最考验模型本土化、语境理解、用户情绪拿捏和细分场景适配能力的核心项。 这一轮测试,我们对标国内文案创作顶流豆包,全程盲测,完全相同的提示词,只看最终成品的效果如何。 第一个场景,爆款口播文案生成,我们给出的需求是写一条一分钟的家居好物。口播文案产品是可折叠恒温泡脚桶,目标受众是二十五到三十五岁的上班族,要有沟子,有痛点, 卖点,有行动指令,口语化不生硬。首先看一下豆包写出的文案,结构比较完整,拿来改改就可以直接用了。在开头还有镜头说明,还有一些细节,比如说袜子勒出一圈印等。但是每句话的末尾给我的感觉还是稍微有些许 ai 浮夸的感觉。看下 v 四的效果, 钩子稍微有些长,动作指导没有豆包的给的多,文案给我的感觉也略有些浮夸。 博博文案这个场景,我个人认为豆包是强于 tip 四。 v 四的第二个场景,节日走心祝福文案,我们给出的需求是春节给领导发祝福文案要真诚,不油腻,不群发,不拍马屁。能让领导记住分两条,一条给直属领导,一条给公司大领导。 看一下豆包生成的文案整体偏通用模板,但对直属领导和大领导的称呼上做了区分,如果直接使用的话,还需要结合自身情况以及所属行业在优化下。 再来看一下 deepsea v 四的效果,称呼也做了区分,细节更多在给大领导的文案中还接受了自己的所属部门。最后还有温馨小提示,对比下来,我认为这个场景 deepsea v 四更优于豆包 代码能力。这一轮测试,我们对标 q 丁界顶流 cloud, 用一句话生成可运行的 html 格式化页面。先看一下 cloud 生成的效果,背景符合预期,鼠标旋停旋转暂停效果有些问题,图片内容和效果有时也会出现不一致的情况。 再看一下 v 四生成的背景没有问题,鼠标旋停也没有问题,图片缩略和点击也出现了不一致的情况。 这一轮代码能力测下来,虽然都不完美,但是相比来说,我个人认为 deepsea 效果更好些,原因是 cloud 的 那个旋停 效果不太好。好了,所有维度和场景的测试全部结束。看到这,大家对 deepsea 微思的能力已经有了初步的判断,欢迎把你的感受打在评论区,本期视频就到这里,咱们下期见。

deepsea 的 影响力还在继续放大,今天一早呢, open call 最新版本就把 deepsea vs flash 作为它的默认大模型了,这是在 vs flash 这样的性能和成本,基本上是独立党的存在,对于龙虾这种非常消耗 token 的 这种场景,如果是我也会做第一选择, 所以呢,瞬间呢,其他的一些国产模型呢,在 deepsea 面前也不香了。另外呢,就是一个科技博主兼 ai 的 系统架构师叫 shawn onalho, 今 有发了一篇帖子,说法是他用 deepsea v 四 pro 替代了 cloud opera 四点六跟 gpt 五点四。他是把自己的 cloud code, codex, cursor 这一类的所有的编程的整体全换成了 deepsea 的 v 程序员,甚至不再使用 open router, 没有再去路由的必要了,月账单呢,直接下降了百分之九十以上,而且呢,据他说法是效果比之前更好。 所以我也来深度的分享一下 deepsea v 四的技术报告,就他的 tech report。 首先呢,他们做的是一个非常复杂的工作,因为在 v 四的版本中呢,整个的预训练量呢,对比 v 三的十四点八 t 呢,涨了两倍甚至更高。 v 四 flash 是 三十二 t, v 四 pro 是 三十三 t。 就 他们的预训练的两个版本,其实都有些区别, 因为参数翻倍,数据翻倍,所以训练稳定性的难度呢,也上了一个亮起。报告中呢, deepsea 明确指出,训练稳定性是一个他们在面临的挑战, 运行的过程中, d p c 用哪些方法呢?它用两个很有意思的提升它的稳定性的方式。第一个呢,叫做 anticipatory routing, 就是 预判式的路由,因为 m o e 模型呢,其实是自带路由的, 路由逻辑就是把一个任务激活对应的模型中的参数,找到合适的专家。原来呢,在 m o e 的 大模型就是模型中呢,有的网络是在路由,有的网络是在左执行,互相呢,其实是没法解偶的,这样的话,有可能会形成恶性循环,因为在模型的去年初期呢,当你的专家选择不准确的情况下 执行,也是没有效果,反而呢,互相影响。 deepsea 为了去解偶呢,决定用更早期的训练版本来去做第一步的路由,然后所谓的执行的五万网络呢,会基于早期版本去优化,再用参数呢,去更新自己的路由模型,打破了两者之间的恶性循环。第二种呢,叫做 sweetie lu climbing, 逻辑呢,就是把它在强化学习中的信号的数值呢,作为稳定的限制,在负时到时之间防止呢,非常大的异常。数学呢,影响了整个的 mo e 的 专家都有的选择,这个呢,虽然会影响一些准确性,但是呢,是在提升它的稳定性。那 deepsea 的 论文措辞呢,也很保守,说的是 may improve training stability。 所以说明在万亿参数的 m o e 模型的运行率中,没有什么是百分之百可靠的。说完运行率之后呢,说一下 deepsea v 四的中训练和后训练,所谓的中训练叫 mid training, 后训练公司呢,这部分呢,横列叫 continuous pre training, 它注入了海量的阳性 data。 换句话说呢,原来很多的模型是先做一个聊天的模型,再用聊天模型去适配智能体, 那 deepsea 呢?他一上来呢,就像梁文峰之前说的,这版模型就是为智能体而生的,所以他在基础学习阶段就见过非常的长,任务链环境反馈和协调 oxygen 工作,剩下就是他的后训练。 做训练呢,其实很有意思,跟我前面的视频和我们自己公司的做法是很相似的。两个重要的逻辑,一个是关于它的 reward model, 第一次选择引用了一个叫 generative reward model g r m 的 模型。这个呢,在我们公司呢,就叫 u b universalifier。 它呢,其实是针对一些难以验证的任务,就 how to verify 任务。所谓这种比较主观任务,没有用传统的 scale reward model, 类似数学变成这种可以验证的快速的直接给答案的这种可以分数的模型。而是呢,通过预设的 rubric, 就是 评估选择生成一个详细的评估报告,并从多维度呢去做打分。那 这个报告呢,反过来呢,也能给模型指出正确的发展方向,这是 deepsea 内部的回报方程的优化。在这样的回报方式之下呢, v 四的后训练用的一个很重要的方法叫做 multi teacher on policy generation, 就是 多教师在线策略抷瘤。它的所谓抷瘤呢,并不是抷瘤 cloud 这样的速断模型, 而是分两步。第一步呢,针对不同领域训练自己的 specialist, 就是 专家模型,包括数学专家、代码专家、 a 政专家以及办公专家、执行专家等。再通过多个专家去抷瘤到自己的 mo 大 模型里, 那其实如果没有 mo e 的 这种极大程度的大模型的话,它也可以通过多个专家通过手动路由来完成任务。那 mo e 的 逻辑呢,就是把这份路由的工作内化到模型内部,同时呢,再通过 shared experts 实现一些涌现能力。 另外重点就是 mo e 的 去年过程中呢,其实 v 四并没有缓存专家模型的 largest, largest 呢,就是最后的 to token 的 给出的 token 概率,这其实是一个显性的展示,而缓存了专家模型最后层的 hidden state, 就是深度学习网络的最后一层更隐性化的内容。训练时呢,按需呢,通过 prediction head 来重建到,这相当于它不是在缓存这个答案,而是缓存了得到答案的步骤。这步骤呢,比答案的它的整个的空间 space 会小很多,你最后需要答案的时候,你再去做一层计算就好了,这样的话,它的整个的可以生产的专家数量就会多很多, 这是一个很有效的性能的提升。在 a 阵层面呢, deepsea 也为 vce 呢专门做了一些优化。第一个叫做 deepsea 的 a 阵能力呢,在中训练后训练强化学习阶段呢, deepsea 搭建了一个数十万的并发的 sandbox 沙盒的实力,所以呢,它是可以有几十万台虚拟的电脑来跑代码,测 bug, 来不断地生成强化学习的训练反馈的,这是 一个基建的知识。第二呢叫 moe, 这个呢是一个属于通信计算一体化逻辑,因为在 moe 的 架构中呢,其实很多的时间是消耗在通讯阶段的,因为 它需要寻找合适专家,需要路由真正的计算的 g p u 的 掉量呢,其实很多时候在爱豆阶段就是它的很多时候,其实空闲的 deepsea 呢,尝试把通信跟计算都融进一个 single, 一个 hyperline column, 一 边传送一边计算,防止呢 g p u 在 中间中没有有效的发挥,基本上是把 g p u 的 功耗给炸满了, 像一边看食谱一边烧菜,而不是食谱看完之后再烧的一个逻辑。再者就包括他们自研的 d s m l, 是 deepsea 自己设计了一套类似 x m l 的 领域特定语言啊,这个就跟我们公司之前说的 code agents 逻辑是一样,用来替代他们 agent 之间的沟通协议,包括替代 j s 的 沟通方式。这样呢,把工具调用的成功率提升了一个档次。 因为本身 j s m l 这样的格式呢,其实是对人类看的比较稳定,但对 ai, 特别是大模型来说,并没有类似 x m l 这样的,通过定义跟 markdown 标注更加稳定。其他的一些 table 里面,技巧包 或 reasoning effort 分 模型训练,比如说不思考的 non think 模式, high max 模式分别训练,目的就是做到能省则省,该狠则狠,以及 interleave thinking 就是 miss 呢,是在 to calling 观念下呢,保留了完整的跨认知的推理历史,不是只做模型的推理能力的优化,而是包括各种工具的使用,跨维度的,长期的信息保持连贯性, 防止用户二次使用时候丢失它的记忆信息。以上呢,就是我们看到的 deepsea 在 tech report 里面做出的一些很重要的预训练跟中后训练的一些技能提升的技巧。