哦,还记得去年的一月二十号吗? deepsea 阿 e 模型的发布直接炸了全国人民的场子。 deepsea 今天在 get up 上更新了他们的 model one 模型啊,疑似就是有可能在春节期间发布的 v 四的模型。看了一下这款模型,不是简单的升级, 是完全重构的一个新架构,它可以把部署的成本砍掉一大半,用更少的设备呢,就能跑起来,而且处理效率呢,大幅的提升。简单来讲啊,就是用的更省,跑的更快。 首先对于普通人来说啊,我们可以用到更实惠更顺手的很多 ai 工具。对于一些中小企业老板来说呢,你不管是做智能客服还是自动化办公,都能把成本实实在在的降下来, 给我的感觉啊,政策、市场、应用端、使用端都成熟了。二零二六年对于各行各业就是最好的机会,能用 a i t 效率降成本,和大厂站在同一起跑线搞竞争的机会真的不多,抓紧行动吧,还是那句话,我们海上见!
粉丝749获赞1451

think 过年会发 v 四吧,听人聊起过的,但是我们更多的期待架构方面的革新,因为我们训练模型的时候,对架构的调整能力其实明显是要弱于这些大成的。 我们只能做一些架构方面的微调,更多方面都是在对模型做 s s t 的 工作,他每次架构层都有动作的时候,我们直接去做应用,落地都会轻松一大截子, 是一个非常现实的情况。所以我肯定期待的不只是模型效果,而是加固层的眼镜,但是这个东西还要上线之后再试看,不确定成果能走到哪一步。他们提了一个叫做 egram 的 记忆的机制, 不管是面向销售还是能面向客服的这些文化的工作当中,经常会遇到超长上下文压缩的工作,要完整的知道这个客户的所有的细切的信息,才能够很好的和他沟通,因为人就是这样去思考的嘛,一旦沟通比较多了,历史上下文积累超过几十万以上,有时候人工智能就很难再去处理了, 一是沟通很慢,二是成本很高,三是容易丢失一些注意力。那超长上下脉压缩就变成了整个人工智能行业所不得不面对的问题,那我们当然希望他能拿出更好的解决方案来,因为我们在这方面能投入的研发精力是有限的,都是用各种各样的骚操作来解决这个这个问题。我们 是属于在价格方面跟着大厂后面走的这一波人,他们出什么我们就用什么,能够 改动的架构还是很少的,你觉得它能放大招吗?我们对这方面期待倒不重,因为现在我们模型实际工作中使用是非常分散的,除了自己训练的一批中小型的模型之外,其他的像千问啊、 do ck 啊、 kimi 啊模型都有在使用。就像我们做整容智能特征工程分析的时候, 现在大量在使用 deepsea 的 模型,它在特征方面的结果要比同价格的其他模型效果都要好一些,特别是用在客户肖像画像分析领域,几个特定领域效果都非常不错。对于我们这样的融智腾公司来说,我们更期待的是更多的差异化的手牌,而不是一个非常强大的模型, 就是能让我在不同任务上都能够拿出来特定的牌,服务于这个类型的任务。不管是图像架构的,还是语言架构的,多模态的,或者是识别的,或者是某些识趣的,那些架构其实是我们最期待的东西,而不是模型本身。

最近有个传闻越来越热了, deepsea v 四可能会在二月中旬左右发布,就是在农历新年的前后。去年 r 一 其实也是春节前一周发的,直接引发了全球市场一万亿美元的震动。今年会不会故技重施呢? 从现在看,这个新闻在 x 上也获得了相当多的热度和讨论,很多人会觉得它在编程方面比 openai 和 ansok 的 模型可能都会更强一些,我觉得还挺值得期待的。但是今天我不想去聊传闻,而是想先去聊一聊 deepsea 最近发的三篇论文。这三篇论文都有一个共同点,那就是梁文峰都署名了。 如果你问我为什么要关注这三篇的话,因为我觉得这三篇论文很有可能预示着就是 v 四的技术方向,而 deepsea 的 风格一直就是先发论文再发模型。所以如果你现在理解了这三篇论文分别在讲什么, 那我们更有可能知道就是 v 四出来的时候,它会具有什么样的特点,以及它到底是怎么做到那些能力的。第一篇论文我们可以从文件名看,就是它叫 ingram paper, 简单来说就是 ingram 其实是一个神经科学的术语,指的是在大脑中存储记忆痕迹的物理结构。而 deepsea 用这个名字显然是在说就是他们要给大模型装上自己的记忆了。 论文里他们讲了一个很有意思的现象,就是当模型在看到 diana princess of wealth 的 时候,这个词的时候,它内部发生了什么?研究发现,在第一第二层的时候, 他会提威尔士是英国的一个地区,在第三层的时候他会想,等等,这好像是欧洲的一个国家。到了第四层的时候,他会在想, princess 好 像是女性君主的这种头衔。第五层,这可能是指的是威尔士王储的妻子。 最后在第六层的时候,他会想到,原来是达伽那王妃,这是查尔斯王子的前妻。所以也就是说,模型用了六层结构,才把一个固定的历史人物识别出来。 但问题在于就是这个信息其实是死的,根本不需要每次都这么去计算。这就有点像你每次都需要去查中国首都是哪的时候, 你不是直接去查字典,不是查你脑子的记忆,而是从头推理一遍。你可能要先去想,中国是个国家,国家都是有首都的,中国的政治中心在北方的大城市有这这这那那对这显然是不合理的。 deepsea 的 核心观点就是大模型浪费了大量的网络深度在做这种重复性的背书工作。这些算力本来是可以用来做更有价值的事情的。比 比方说推理,想象一下,你在考试以前的规则是你什么都不能带,全靠脑子现场推。比方说亚历山大大帝是谁?你得从头去想亚历山大希腊的名字 大地说明是君主,历史上有名的希腊君主是谁?现在的新规则就是允许你带一本字典去进考场, 字典上写着,亚历山大大帝等于马奇顿国王公元前三五六到三二三年征服了波斯帝国,而其中的 ingram 其实就是这本字典。 具体怎么查呢?就是模型在看到 alexander's great 这三个词连在一起的时候,就像看到了字典的缩影词条,他用哈希定位到字典里对应的那一页,然后直接把预先存好的信息拿出来用了。 整个过程就是不需要思考,只需要翻页。但这里有一个问题是,同一个词在不同场合,意思有可能会不太一样。就比方说苹果,它可能是指水果,也可能是指那家科技公司,那字典里存的究竟是什么呢? ingram 的 解决方案很聪明,就是查完字典之后,先看看上下文,然后再去决定用不用。如果我们前面在聊水果,字典里查出来的苹果公司可能就不太对劲了,模型会自动忽略这个查表的结果,继续用自己的推理。 如果前面在聊手机,那字典里的信息就很可能是有用的,直接去采纳。就像一个很聪明的学生,他带了字典进考场,但不是无脑抄,而是先判断字典里的答案和题目是不是能对上的。 我觉得论文里最有意思的一个地方是这么一个微笑曲线,就是 deepsea 研究了一个问题,就是如果说总参数量固定的情况下,应该把多少参数分配给 inggram g e, 结果还挺让人惊讶的。损失它是纯呈现一个 u 型的这种分布,它说明两个点,就是纯 m o e, 全都是思考能力,它不是最优的。如果 分配百分之二十到百分之二十五给 ingram, 效果是最好的。但如果你分配太多给 ingram, 就是 全是记忆的话,效果又会变差。 看到这个 u 型曲线的时候,我突然想起了博尔赫斯的一个短片,叫博文强记的费内斯故事讲的是一个叫费内斯的阿根廷青年,从马上摔下来之后,获得了一个完美的记忆,他能记住 一切每一片叶子的形状,每一朵云的变化,甚至能记住一八八二年四月三十号黎明时分,南方天空的云彩排列。但博尔赫斯写道,就是富内斯无法思考。思考的话其实本质就是忘记,差异,就是概括,就是抽象。 在富内斯的脑子里,他塞满了就是这个世界的细节,但是只有细节。富内斯能记住这三个不同时刻看到的同一条狗, 但他无法理解狗这个概念,因为每一条狗,每一个瞬间的狗,对它来说都是完全不同的东西,它记住了一切,却失去了抽象的能力。这其实不就是论文里 u 形曲线的这个两段,就是纯 ingram, 全是记忆的时候,它等于傅内斯,就是记住一切却无法思考。如果纯 m o e 的 话,就是全是推理,要浪费大量算力去重建那些本可以直接记住的东西。 所以就是你发现博尔赫兹其实在一九四二年的时候就洞察到了这一点。记忆和思考是互补的,但也是对立的。 完美的记忆会杀死思考,而纯粹的思考则需要不断地重新发明轮子,而真正的最优解就是在中间,你需要既有记忆又有思考。 deep sea 的 实验给出了一个比较惊人又准确的数据,就大概百分之七十五给思考,百分之二十五给记忆, 就能达到一个最佳的模型表现。你可能会想, ingram 是 一个记忆模块,应该主要是提升知识类任务的能力。确实,知识类的任务是有提升的, 在 m m l u 这些指标上,模型大概提升了三点四或者四个点左右的,但事实来说的话,它其实在推理任务的提升更大, 像这里扣的还有 mass 的 任务,几乎每个指标都提升了两三个点以上。所以就是为什么一个记忆模块的东西能提升推理能力呢? 我觉得这里可以想象成两个学生在做同一张卷子,一个学生得先花二十分钟背公式,再用四十分钟做题,而另一个学生的话,他带了公式表,六十分钟全都用来做题了。谁的推理题会做得更好呢?那显然是第二个,所以就是 deepsea 测量了这个效应就是 ingram 模型第五层的思考深度,其实已经相当于普通模型第十二层的思考深度了。 话说就是 ingram 相当于免费给模型加了七层的深度,不是 ingram 本身能推理,而是它把推理的空间给让了出来。 这篇论文带给我最大的启发是,有时候最好的优化不是让计算更快,而是把计算变成查表。就是如果一个问题的答案是固定的,可以预先算好存起来的,那就没必要每次都重新算。 傅内斯记住了一切,却无法思考,纯 m o e 模型能够思考,却要浪费算力去重建记忆。而最聪明的系统是知道什么该记住,什么该思考的这种系统。 在接下来我们再来看一下第二篇论文。 m h c 这个是 deepsea 在 二零二六年一月一号发布的,这篇论文的核心就是有些东西用了十年了,但不代表它就是最优解。 在二零一五年的时候,何凯明团队提出了 rasnest 核心创新,就叫长叉连接。简单来说的话,就是让每一层的输出等于这一层学到的东西,再加上上一层的那个输入,用公式来说就是这一个公式。 这个设计解决了一个大问题,就是网络太深就训不动了,为什么?就是信号在几十上百层网络里传输,就像你对着山谷喊话,回声越传越落,最后什么都听不见。而残差连接的一个妙处就在于他给信号开了一个直达电梯,不管中间那些曾学到的什么 东西,就是原始的信号都能传到顶楼。从二零一五年到现在,十年了,就是 gbt 用它, cloud 用它, jamila 也用它,几乎没有人动过它,所有人觉得就这已经是最有解的,没有什么可以改的。 在去年九月份的时候,字节发表了一篇论文,简称 f h c, 是 业界第一次对长叉连接动刀了。 h c 的 核心思想的话,其实很直接,就是既然长叉连接的权重是固定的一比一, 为什么不让模型自己学习最优的连接方式呢?然后 h c 确实很有效,训练的收敛速度提升了一点八倍,某些任务提升了六个百分点。但 h c 有 一个致命的缺陷,就是训练不稳定。 看这张图,就是左边的这个蓝线,其实就是 h c 在 训练到一万两千步左右就是损失,有突然的这种飙升,这对大规模的训练来说会是致命的。你可能已经烧了几百万的算力,结果模型突然崩了, 有点像盖楼,盖到一半,整栋楼倒塌了,为什么会是这样的呢?原因其实也很直观, h c 它是让每一层的连接权重变成可学习的,听起来非常的美好,但问题是,六十层网络就是六十个权重的矩形连成,如果每个矩阵的放大倍数稍微大于一, 就比方说一点一的话,它连成六十次方大概是三百,而实际情况的话,可能比这个更糟糕。 论文测量了那个放大倍数在二十七 b 模型上的分值是三千,信号被放大了三千倍,所以难怪训练会崩掉。所以现在问题很清楚了, h c 的 权重矩阵 太自由了,想放大多少就放大多少,所以会乱来,那怎么办呢?最简单的方法是不让它学习退回到原始的长叉连接,但这样就失去了 s h c 的 性能优势。 deepsea 的 解法的话其实很优雅,它不是不让你自由,而是给你的自由去划一个边界, 用的一个叫双随机矩阵的约束。就听起来很数学,这个数学公式说实话我也不是很理解,但它的原理很简单,就是这种矩阵满足两个条件,第一个的话就是所有元素大于等于一,每一行加起来等于一,每一列加起来也等于一。 为什么这个约束是有效的?因为这种矩阵做的事情本质上就是在加权平均。加权平均有一个天然的性质,就是结果不会超出输入的这个范围,你把六十分和八十分加权平均, 不管你怎么加权的,结果都是在六十到八十之间,不可能变成三千。更妙的是,两个这样的矩阵相乘,结果还是这样的矩阵,所以不管网络有多深,六十层、一百层或者一千层,信号其实都不会爆炸,也就是说 c 可用数学保证了 hc 的 安全性。 mhc 的 效果怎么样呢?先看稳定性,就是灰色的这条 mhc 的 线几乎是完全不变的, 就是 hc 的 信号峰值放大了三千倍,而 mhc 的 信号放大的最大峰值是一点六,从三千降到一点六。说实话,我觉得这个数值还挺夸张的,它直接降低了三个数量级,使得整体的训练曲线都是变得非常的平滑。 我们再看一下性能是 m h c 不 仅比原始的那个长叉连接强,甚至比这个不稳定的 h c 还要强。在 b b h 的 这个任务上,它从四十三点八提升到了五十一, drop 任务 从四十七提升到了五十三点九,所以稳定性提升了,性能也提升了,代价其实是增加了百分之六点七的训练时间。 我觉得这篇论文给我最大的启发是 deepsea 在 找那些所有人都觉得已经是最优解的东西,然后证明它不是残差,连接用了十年不代表它是最优解。论文最后一句话也说得挺直接的,就是我们希望 mhc 能重新激发社区对宏观架构设计的兴趣。 翻译一下大家,过去大家都在卷 attention, 卷 f f n, 卷 m o e, 现在 deepsea 说成与成之间怎么连接这一块也是有金矿的,也是有挖掘的空间的 的话,再简单说一下 r 一 论文的更新,就是在一年前 deepsea 发布 r 一 的时候,它的论文的页数是二十二页,而今年一月四号的时候, deepsea 把它扩展到了八十六页, 多出来的这六十页可不是在说废话,而是它把它训练的站本和它踩过的坑都说了一遍。 论文新增了 table 七,它第一次公开了完整的训练成本,就是 r 一 zero 的 话用了二十点二万的美元, sft 数据的创建用了一万美元, r 一 的这个训练用了八点二万美元,所以总共是二十九点四万美元。二十九点四万就训练了一个媲美 openai o 一 的推理模型。 这个数字是什么概念呢?就是一辆保时捷的前,训练了一个震动全球 ai 圈的这种模型。并且不止如此,论文把它们的失败案例也写了进去,就是 figure 六。这里是展示的一个典型的失败场景,用 helpful reward model 训练的时候, reward 的 分数一直在涨,但是 code force 的 实际性能却在跌,因为模型学会了就是这种讨好奖励函数,但没有真正变强这个问题的话,叫 reward hacking。 为什么要公开这些失败?我觉得这才是真正的 open, 去告诉社群,这条路我们走过的走不通,我觉得这比只展示成功是更有价值的。 这次的论文更新是在一月四号,然后结合 v 四的发布传言的话,我觉得时间线已经很清晰了。二零二五年一月二十号, r 一 发布,二零二六年一月四号, r 一 发布 v 二的论文, 所以下个月中旬,我估计在春节前 v 四会发布,先把上一代的账本摊开了,给你展示清楚了,再发布它的下一代。 而这增加的六十多页的那个论文的篇幅也真的是很有诚意。好的三篇论文都讲完了,我们最后再来总结一下。我觉得这三篇论文虽然看似在讲不同的东西,但其实都是在回答同一个问题,就是怎么让模型用更少的计算去做更多的事儿。 m h c 说的是层与层之间的连接方式可以优化,用了十年的东西不代表是最优解。 ingram 说有些东西不需要算,就是你查表就可以了,百分之七十五给思考,百分之二十五给记忆,这是最优的比例。 而 r 一 的论文更新则是在说我们是怎么做到的,包括失败的尝试,全都给社区公开了。如果 v 四真的在二月份能发布的话,我觉得这三篇论文很可能就是一个技术预告。 deepsea 的 风格一直是先发论文再发模型。 mhc 和 ingram 会不会集成到 v 四里呢?我觉得可能性很大。好的,我们今天就先到这。如果你想深入了解这三篇文章的话,我之前正好写过上三篇公众号的文章,然后我也会把链接放在评论区,我们下期见。

deepsea kv 四最新消息,一月二十日左右, deepsea 在 get 进行密集大量代码更新。大量代码更新暗示新一代旗舰 ai 模型代码暴露的技术调整 显示可能并非简单迭代,而是架构级革新。 v 四一四重构 kv 缓存布局。这一内存结构的优化将显著提升上下文处理的记忆效率与推理速度,而 f p 八解码支持的明确适配则只指硬件性能压榨。 这些技术突破与 deepsea 近期的研究方向高度契合。同时,模型采用更高效的计算策略,在不牺牲性能的前提下减少运算量。如果 deepsea v 四如期落地,其架构革新有望成数编码 ai 的 性能标杆。今天就分享到这里,我们下期再见。

deepsea 微四大概率在春节期间发布根据 the information 的 报道, deepsea 计划在二月十七日前后发布下一代旗舰模型微四,在编程任务上已经超过了 cloud 和 gpt 四 o, 它的上下文窗口可能达到百万级别,还拥有一套全新的记忆系统, 能让模型真正做到过目不忘。这对普通人意味着什么?几十万字的合同,几百页的研究报告可以一次性丢给他分析,解论文时可以把大量参考文献直接喂给他处理。程序员可以让他理解整个代码仓库,而不是一次只能看几个文件,而且使用成本大概率会比同级别模型低。 v 四不是凭空出现的。过去一个月, deepsea 连发了三篇论文, 还更新了底层代码库,这些就是组成 v 四的零件,他们已经一个一个摆到桌面上了。先说一个最重要的, ingram 一 月十二日发布。 这个技术解决什么问题?让 deepsafe 能在处理超长文档时不丢失信息,记忆力几乎无限。在测试中,处理长文本找关键信息的准确率从百分之八十四提升到了百分之九十七。你可能有过这样的体验,用 ai 聊天,刚开始挺好,几轮之后他好像变笨了, 之前说过的事情记不住,回答也开始混乱。或者丢给他一份几十页的文档让他总结,结果发现丢掉了很多关键信息。为什么会这样?因为模型处理信息的时候需要一个临时空间,你可以把它理解为一张工作台,这张工作台的面积是有限的,所以他能处理的信息量就是有限的。 不管是简单的人名、地名,还是需要深度思考的问题,模型都得在这张工作台上处理。简单信息和复杂任务挤在一起,互相抢位置。文档一长,工作台就不够用了,要么忘掉前面的内容,要么丢掉关键信息。 ingram 怎么解决?他给模型加了一个外挂的知识点,专门存那些已知的信息,比如人名、地名、常见术语这些,不再占用工作台的位置, 直接查表就能拿到,这样子工作台就空出来了,就能专心处理那些真正需要思考的内容。还有一个好处,这个知识库不需要昂贵的显卡来储存,用普通内存就可以了,所以成本可以压下来。第二个, flash m l a 代码更新,这个是一月二十日被发现的。这个技术解决什么问题呢?原来的模型处理几十万字的内容时 能找到相关信息,但很容易搞错这个信息在文中的位置,导致回答张冠李戴。新架构让模型在处理长文本时不会看了后面,忘了前面位置信息,记得更准。对程序员来说,这意味着威斯能真正理解整个代码仓库的结构。 另外,新架构针对下一代芯片做的优化,响应速度会更快。第三个 o c r two 一 月二十七日发布,这个技术很重要,它解决的是复杂文档的时候,是从左上角开始一行一行往下扫的。 遇到双栏排版的时候,它会把左边一栏和右边一栏混在一起读,输出乱七八糟的东西。而且在遇到表格或者说其他复杂排版的情况下,也非常容易出错。但 o c r two 不 一样,它会根据语义逻辑调整阅读顺序,像人一样阅读,先看标题,再看正维,遇到表格的时候单独处理。它的测试准确率达到了百分之九十一,能处理数学公式复杂表格多栏排版以后,扫描版的论文财务报表合同可以直接丢给他。 这三个零件加上 v 三点二已经有了推理能力,就是 deepsea v 四,它非常强大,能处理百万集长文本记忆,几乎无限能读懂非常复杂的长文档。而我们在春节前后就能见到它了,它大概率能够成为媲美甚至超越 h i g p d cloud 和 gemini 的 开源模型。

ai 的 重磅消息来了!刚刚 deepsea 的 联合创始人发布了一条关于 deepsea v 四大模型发布的一个时间将定在二月十六号,也就是我们今年的春节。各位,这跟去年发布的时间一样, 会不会重新再引爆一轮 ai 浪潮?话说这 dpc 已经落后了,我感觉现在用起来是比较笨,那他会不会憋一手大的呢?让我们拭目以待。

二零二六刚开年,国产 ai 领域就火力全开。就在今天,梁文峰署名新论文再次炸场,首次公开曝光了新一代大模型 deep seek。 v 四的核心技术架构,引发广泛热议。一年前, deep seek 横空出世,震惊全世界。一年后,他试图用真智能再次定义未来 红灯王座。据爆料, v 四新模型或将于二月中旬,也就是春节前后重磅发布。这不是一次普通升级,而是一次质的跨越,即将携带底层架构创新的核武器归来,目标不再只是做一个聊天机器人,而 而是要做 agent 时代的操作系统。内部测试显示, v 四性能已逼近甚至超越美国顶尖模型巨头 chat、 gpt 和 cloud。 更关键的是,其可能彻底打破通用模型与推理模型的界限,尤其是长代码处理能力,被视为企业级开发的真正生产力、革命工程师的终极利器, 不仅学得快、记得牢,还越学越聪明。也许就在这个春节,当你还在抢红包时,第一批用上 v 四的极客已经用它搞出了颠覆性的新应用。而这一次, deepsea 能否复刻去年春节的核爆,撼动全球 ai 格局,让我们拭目以待。

deepsea 的 v 四大模型据说要在春节前后放大招了,这次可不是一般的更新。小许说,这个 v 四模型把所有的火力都集中在了编程能力上。内部测试显示,它在写代码、修 bug 这些事儿上, 表现可能已经超过了目前的国际主流模型。更厉害的是,它能够理解上百万字的超长上下文,这意味着什么呢?就好比以前 ai 是 个只能看一页图纸的学徒,现在它能一下子把一整栋建筑的所有设计蓝图、管道、线路结构说明全都记在脑子里,然后帮你从头开始盖楼。 这对开发大型软件、改造老旧系统来说,简直是革命性的工具。为什么这件事特别值得咱们投资者关注呢?因为他打出的是一套组合拳。第一,技术拳,瞄准了编程这个最硬核、最能直接创造生产力的领域。第二,成本权。 deepsea 一 直以来的绝活就是用更高效的架构和训练方法,在控制成本的前提下做出顶级性能。这就像在高端竞赛里,有人找到了性价比极高的新赛道。第三,时机权。 还记得去年春节前他们发布模型引发的一系列市场连锁反应吗?选择这个时间点,市场的期待值直接拉满。 那么,如果 v 四真如传言般强大,哪些方向的公司可能借着这股东方起飞呢?老薛给大家梳理几条线索。首先是提供 ai 发电厂的云计算厂商,模型再强,也得跑在算力上。 v 四这种高效模型恰恰降低了顶尖 ai 能力的部署门槛。 像金山云、优克德这样的公有云厂商,可以更方便地把 v 四作为一项重磅服务,提供给广大企业客户,吸引大量享用 ai、 提升效率的公司上门。 而对于顺网科技、网速科技这类拥有海量边缘算力的公司来说,他们的资源刚好可以用来高效、低成本的部署运行。 v 四模型可能成为 ai 能力触达用户的最后一公里。其次是 ai 生态里的核心伙伴和硬件链。 一个顶级模型的诞生,离不开强大的供应链。根据 deepsea 过往的合作情况,一些在国产算力领域深耕的公司值得我们长期关注,例如为其提供 ai 服务器支持的浪潮信息,以及在 ai 芯片领域与其有合作潜力的韩五 g 等。 它们的价值在于深度绑定了一个快速进化的技术核心。最后是那些能把 ai 用起来的行业应用高手。 ai 最终的价值在于落地在金融领域,像三六零、科大讯飞这样的公司,一直在探索将大模型用于智能客服风控建模 一个更强大、更经济的编程 ai, 能帮助他们更快地开发和完善自己的金融科技产品。而在更广阔的消费电子领域,里昂证券的分析指出, deep seek 的 普及可能加速 ai 硬件设备的更新换代, 这对整个消费电子供应链,包括联想、小米等中端品牌都可能是一个长期的拉动因素。当然了,老徐最后必须得提醒大家几句, 目前所有振奋人心的消息都还来源于媒体报导和内部测试模型的最终实力要等它真正发布后,经过广大开发者和市场的严格检验才能确定。对于我们投资者来说,关键不是去赌某一天的股价涨跌,而是理解这场技术革的底层逻辑。 一个在关键生产力工具上取得突破并且坚持高效路线的 ai 巨头正在搅动整个产业链。我们的目光应该投向那些为他提供电力、与他共同建造基础设施,以及擅长利用他的神力改造各行各业的公司。

我的妈,蒂布斯克将发布新一代具备强劲编辑能力的旗舰 ai 模型,也就是去年十二月发布的 v 三模型的迭代版本,代号为 v 四的新模型。 你要知道,去年蒂布斯克春节节发布的时候,直接震撼了全世界,这历史总是惊人的相似啊兄弟们!然后就开启了 ai 双十一的大行情,我的。

你们知道吗?真正恐怖的 deepsea 威士就要来了,传闻现在越来越多,也越来越真实,说是在春节的前后就会被公布出来,那真正的恐怖点是什么呢? 我告诉你啊,据说训练卡可以实现全国产替代,什么意思啊?咱们可以想象一下国产那些芯片厂商们股价会发生什么变化。现在透露出来的消息有一个最核心的点,就是推理速度和能耗都实现了质的突破, 基本上咱们有可能只上一块五零九零的显卡就能跑起来。本地模型什么概念啊朋友们?以前只有大佬才有资格触碰的游戏,现在一个中小企业想搞一个自己行业垂直的模型,完完全全是可能了。 还记得去年一月 deepsea 二 one 的 事情吗?就用了英伟达的普通卡,直接吊打 openai gbt 四 o 的 模型,当时堪称工程革命啊!英伟达当日暴跌了百分之十六点九七, 这次能给市场带来多大的冲击呢?大家可以想象一下,而且这次真的不是空穴来风啊,从 k 哈巴的代码意外泄露,到梁文峰亲自署名的 ngram 的 架构论文都被正式公开,再到内部测试,传闻与媒体报导不断发酵,国产科技颠覆性的时刻可能真的马上就要来了。 这次 deepsea 微四的颠覆性里面传出来的细节是什么呢?我给大家整理了一下。简单归为更省钱、更聪明、更自由。 首先,更省钱这一块自然就不用多说了,去年并不是一个横空出世,就是为了解决欧美芯片卡脖子的问题嘛,当时五百五十七万美元的成本,直接把花了数千亿美元的 openai 的 脸打肿了。 这次微四模型是优化了存储格式,在几乎不损失精度的情况下,把模型体积压缩到原来的二分之一到二点五分之一,再配合高效计算管理,推理速度和能耗就和前面说的一样,值得飞跃。 如果说真的五零九零显卡就能跑起来,那本地部署的成本大幅降低,现在可是五十万起步门,对于追求数据隐私的中小企业来讲,真的不要太香啊。 还有就是更聪明,哪里变聪明了呢?这次说借鉴了神经科学的记忆痕迹概念,把模型拆成两大模块,百分之七十到百分之八十的算力,专心纯思考,只用百分之二十到百分之三十的算力负责快速记忆, 知识调用,更高效解锁,几乎不占核心算力相当于给 ai 大 脑外接了一个高速的硬盘。结果就是同样的硬件下,推理能力大幅提升,数学代码、复杂逻辑都明显变强了。这不是堆参数,而是靠聪明分工实现了降本增效,彻底跳除了传统的框架, 而且传闻微视的上下文窗口轻松的突破了,一百万个拓客,一次性就能读完海量的信息,这意味着什么呢?上百篇的论文一次性喂给他,他马上就能全面的理解, 把整个中大模型项目的代码仓库扔进去,他就能像资深架构师那样,跨模块改功能、查 bug。 很多开发者都说了,如果这点能落地, ai 辅助编程将直接升级为 ai 的 主导开发,整个行业的作业模式都要被改写。 最后,为什么维斯更自由了呢?因为他是完全开源的,可以脱离云端,在本地完全的运行,没有日制上传,无需第三方审查。在全球越来越重视数据隐私、数据主权的背景下,这一点格外的重磅啊。 如果传闻是真的,二零二六年我们很可能看到三大变化,开源 ai 首次在数学、代码等硬核场景全面超越闭源巨头 ai 从昂贵的云服务变成了每个人桌面、每个企业都能拥有的基础设施。全球 ai 权力百度将迎来又一次彻底的洗牌, 中国也正式进入芯片、模型和应用深度联动新的阶段。先用算法突破,盘活国产算力,然后再用国产算力赋能百万工厂,最后用海量的产业数据和需求反哺出更强大的模型和芯片。 这道闭环如果未来能跑通的话,那么 ai 的 模型这一块,咱们可能以后就不是 ai 领域的追赶者。我们有可能一起见证中国商业领域 ai 发展的爆炸时刻。我是鲁克,欢迎关注碧海,我们一起来看通天下财经。

大家好啊,就在昨天, diffic 又发模型了,而且古代的一个很详细的论文啊,它发布了新一代的这个大语言视觉模型啊,叫做 diffic ocr 二啊,你记得几个月之前,他发过一个 ocr, 那 么这个是 ocr 二, 它是在升级版啊,而且呢,它发了同步的论文,这不仅是 ocr 技术的迭代,更是视觉编码从固定格式扫描向与因果推理的一次跃迁啊。而 且在相关的基本测试中,它以百分之九十一点零九的综合准确率刷新了相关的榜单,叫前代呢,提升了百分之三点七三,已经大幅领先 欧美其他的这些 ocr 的 模型啊,更重要,它用了一个让 ai 具备人类的阅读逻辑,而非简单的文字扫描。这个事咱们先解决什么叫 ocr, 你 们记得那个扫描仪吗? 扫描仪把那个纸放进去,或者把图片放进去,把它夸夸夸,把里面东西转成文字啊,这个东西的过程就叫 ocr, 就 把图片上的东西转成文字啊。所以他发的这个模型呢,不是 v 四,他发的模型依然是一个图形的解决模型,但这个模型的话呢,唯一的点就是说他让 ai 做了阅读逻辑,而不是以前的竹行的去扫描啊,以前的那个模型的话呢,长期依赖的这个编码器就是 c l i p 啊,这种编码器, 它就是光山扫描的顺序处理图像就是咵,扫出来发现这个东西一次是文字把它提炼出来啊,就从左上到右下,竹行呢,来 一行一行的来切分图像为固定的这样的一个一个行,然后强行将二维图像降为一维区域,忙扫,并不是这个里面有什么栏目布局,就直接把文字提炼出来,有什么样的标序什么的都不用管,段落也不管啊,甚至表格也不管啊,乱序的只要文字都提炼出来。是这样的一个东西, 这个 o c r, 它这个模型精妙在哪呢?它用了一个叫做 devin connor 这样的 v 二这样一个架构,然后这个架构用 l l m t 在 c l a p, 它实际上就让大模型自己去理解,它不用那个编码器了,用大模型就去开源相关的大模型作为这个编码的骨 啊,用重编码器而轻解码器的这个方式,将语言模型的因果推理能力注入视觉处理流程,这是一个。另外一个,他又做了一个因果查询机制,他那里面引入因果查询,通过独立的注意力机制演码策略实现两级的推理。一个全感知层,就是 把整个的东西呢感知做一遍啊,就把整个这张图上的所有东西他都理解一遍。另外一个是因果逻辑,他要推理每个部分之间是什么样一个关系啊,每个查询只能关注前面的,不能关注 其他的,他把这个因果逻辑弄明白,那这样打磨星就知道了啊。这张图上到底谁跟谁是什么关系?我是不是要给你做个表格啊?我是不是要这样留出段落,我是不是要这空格啊?他这样的最终产生的是一个非常类似于原本这样文字这样一个 o c r 结果啊, 淘汰结果,而且他在做动态的语气排语序排列,他根据大模型对这事理解,最后还是要去叫,对啊,而且呢,更关键的是什么?他在保持高精度的同时控制着计算成本? 他视觉 token 的 数量控制在多少呢?二百五十六到一千一百二十之间,也就是最多他就一千个左右的 token。 然后呢,跟那个 jimmy 三 pro 相当,但是它的规模参数呢?只是三 b 啊, jimmy 三 pro 是 多么庞大一个概念,而且它通过混合专家模式来实现的,所以在实际的生产测试环境中啊, 它在处理现行日制和 pdf 的 预训练的时候,识别的重复率分别下降了百分之二点零八和百分之零点八一, 极强的稳定性,而且得益于相关的压缩器的使用啊,它的模型支持动态分辨率是一零二四乘一零二四和一百加的语言,就是各种各样的语言的 ocr 移动端也可以实现文档处理。所以这个东西想什么啊,只要你要去识别图片中的文字,这个场景它都是可以使用的。更关键它是开源的啊,免费,它把什么都打在屏上了,而且它的成本极低,对吧?像那个拆 g p t 五点二啊,用这个事儿,它要大概要多少 token 呢?要用一万八千多个 token, 它有多少 token 呢?它最多用幺幺二零的 token, 所以 它的整个的算力的覆盖率和整体的成本的下降,那是限性的啊,而且它的开源,它的代码,它的论文全部都开出来了,所有人都可以在上面继续去 补刀,是吧?这个事就特别有意思了,而且昨天台元社区已经对这个事做了一个深度的解读,并且好多人就开始去尝试在自己的业务中接入这样的一个模型,而且我相信它逐渐的把这个事做了一个很多特性,大家都能看见了, 是吧?好吧,有朋友昨天晚上直播的人问我,老张,到哪去看你的会员视频,你会员视频好像很精致。这周的会员视频咱们着重在讲大芯片以及大芯片。为什么叫大芯片啊?为什么要用大芯片是吧?大芯片辅助有什么样的一些新的机会啊?这个东西呢?请大家关注小程序奥特斗斗与瑞克老张科普课。 关注这个啊,上面有那金卡,那是会员卡,点击那就可以了啊,咱们现在的会员幺三九九是平台给补贴的啊,一年一百八十个视频,三十二场以上的直播,是吧?所有专栏免费看,你说我不想加会员,没关系,我们有免费的专栏啊,那专栏是我们各个平台的内容精选,你就一网打尽了啊,就可以在这 进购,以后看,对吧?比如说我不知道我们会员讲的是啥,我们有会员的直播的回放,我们是特价九块九啊,可以买一个,可以先看一下,看一下对你有没有帮助,好不好啊?而且我们上面有客服的,可以加他啊,跟他好好聊。好吧,今天就到这,我是瑞克老张,关注我,带大家看中国科技的高度和温度,我们下期见,拜拜。

春节档还没开始, ai 圈的大新闻已经提前泄露了。如果消息属实,我们可能真要见证一次王座更迭。根据路透社专引权威科技媒体 the information 的 爆料, deep sick 的 下一代旗舰模型 v 四预计在二月中旬农历新年左右亮相,而它瞄准的正是 ai 目前最硬核的战场 编程。更刺激的是爆料升级,内部测试中的编码能力可能已经逼近甚至超越了当前的顶尖模型。这不是孔雀来访,看看去 年春节横空出世的 r 一 就知道, deep sea 很 擅长在关键时刻扔出王炸。第一,告别断片。如果你的 ai 助手看长代码像看片书, v 四可能解决这个问题。第二,追求稳定。他据称采用的新训练目标能让模型越学越扎实,而不是越学越偏。第三,输出更严谨, 就像自带一个代码审查员,有望大幅减少低级错误。第四,架构新猜想,他或许会用上类似 m、 h、 c 这样的新思路,从根本上提升训练效率。如果这些方向属实,那对开发者来说就是一次体验的革命。所以,威斯如果真这么强,意味着什么?意味着学生做项目、创业者是原型程序员,解霸的 门槛可能会大幅降低。而如果 deep sleep 能延续它之前开放透明的路线,那最大的意义在于,最顶尖的 ai 能力将不再只是巨头实验室里的秘密,而可能成为更多人触手可及的工具。当然,一切要等官方揭晓,我 会紧致后续,一旦发布,立刻为你深挖它到底藏在哪儿。在你看来, v 四能成功挑战王座吗?评论区等你预测!

deepseek 新版本可能要来了!有开发者发现了 deepseek 代码中的神秘符号, model 一。 从代码细节看, model 一 在内存管理、 kb 缓存布局上跟现在的架构完全不同,有可能集成了 deepseek 最近刚发的两篇重磅论文成果, 一个是能让模型拥有生物记忆的 ngram 模块,另一个是大幅优化训练稳定性的 mhc 技术。现在的头号选项是到底是全能战士 v 四还是天才大脑 r 二。新模型极有可能在二月春节期间推出,它的代码能力或许能直接 硬钢,甚至超越 openai 的 gpt 和 ansapatic 桌面。无论它最终叫什么, model 一 的出现都预示着 deepseek 准备再次掀翻大模型的桌子。你们觉得 deepseek 这次能超越国外的模型吗?

大家好啊,昨天晚上直播,觉得时间还挺有意思的啊,直播播了四十多分钟对吧?将近五十分钟,结束以后呢,正好晚上的时候,硅谷的朋友们给我打了个电话,我们就聊了一下近期这件事。我发现一个很有意思的事情, 他们已经有人参与过 deepsea 最新模型的测试了,当然有保密协议,所以没办法直接透露,但他说了几个点。第一个点,这确认啊,这是一个新的架构,不是 transformer 了, deepsea 单独做了一个新的架构。第二点,性能提升简直是无法想象啊。第三点,他认为闭源模型的路完蛋了, 闭源模型的路走死了啊,为什么这么说呢?就是 deepsea 这个东西,实际上他认为未来最核心的是什么?是核心小模型加专业大的这个参数库,或者叫智库的这种方式。也就是说,未来那个 deepsea 可能推出的那模型真正的核心啊,他说很可能是个 几十币,甚至是几币的这样的一个模型。那这个模型他的学习能力啊,逻辑处理能力都很强,你可以给他加挂上任何一个行业的啊,这个参数库,加完参数库以后,他就会变成在这个行业内的这样一个模型,你也不用去调整了, 你也不用去训练了,这些东西你只要插件一下插上就行。所以你想让这个模型干什么活?你给他插什么?而且他还有自己的延伸能力, 他如果找不到怎么办?他要去搜相关的东西,因为 deepstack 会给他单独构建几个云上的知识库,云上的大的参数库,他如果你心下没有,但你还要给一个问题,那他就联联网去搜这些去加载,自己去加载, 那这样就产生一个特别强的能力,就是离线,你懂吗?然后呢?他们预计三三个到四个消费级的显卡很可能就跑出来 deepsea 这个满血的模型,当然那个模型现在还没有完全正式上线了,但他们预计是这个样子,那如果是这样的,很多中小创业者从原本的那条路上又会回来, 又会用自己的设备来去跑更多的东西,这样的话对于整体的大摩羯创业是添了一把柴,而且是浇上汽油的一把柴啊。他们认为这个是二零二六年最值得期待的一件事,因为硅谷很多团队都已经在等了, 就他们内部交流完之后都已经在等,而且他们认为 open i 这样的弊源可能要完蛋了,因为你无非就是说我的模型啊,我回答的问题更专业,但是你专业比不了那些自己能做出来专业的这些参数或专业知识库的这些小模型, 那绝对是绝专业中的专业,对不对?那这些模型怎么那,那我要干什么?我就把我自己的一些经验什么的都提升好,放在这。这个模型跟我来说最适合的 deepsea 会成为一个千人千面的模型,而不是千人千面的结果啊,这个是它的一个过程,但这个过程中会产生一个非常强的创业的这样一个机制啊,但是这个东西就扑开的大了, ai 应用未来很可能会产生核心模型应用 和什么这个专业的参数或者知识库的设备商或者服务商这样的力量,所以这个会产生很强的一些完全不一样的这个需求了, 而他呢会产生一个完全不一样的市场和完全不一样的未来啊,所以这个是非常非常有意思的。他说未来再进化下去,很可能从这条路走下去,有可能就是未来我们的手机上部署的模型,全量的模型, 手机上能部署,眼镜上能部署手,这手表能部署啊,然后我需要什么,我就云上去接什么样的这个知识啊,他就会给我很准确的答案,那这样对我来说,我想干什么,我都有一个很合适的一个助理了,那就非常强了吗?云上的知识我可以租,对吧?我可以不用买,可以这样产生更多很能想象到的未来。好吧, 简单给大家说一下,那我觉得这个确实是我们现在能看到的趋势,而且趋势越来越明确,所以未来的东西呢,我们就等啊,春节前他这个模型带来的很可能是对于整个行业的一次 彻底的颠覆。那这样的东西啊,我想美国人会睡不着觉的啊,我们春节期间他们的股价又开始砸跌了。好吧,今天就到这啊,有朋友说,老张,你最近会不会老达到热点是吧?比如上周五咱们去啊,参观完海光,参观完龙芯,咱们做 的会员的直播,直接龙芯就上来了,是吧?那包括这两天是吧?我们也做很多老踩中热点。为什么踩中热点?我们的东西呢?是做了很多的深度研究的。那这到哪看呢?小程序,你搜 和豆豆与瑞克老张科普课啊,然后里边有会员卡点。那就行了啊,咱们现在幺三九九是补贴了三百块钱的平台给补贴的啊?补贴三百块钱的,你说我这台暂时还不知道该怎么买的,我告诉你,我们这个会员所有都能看啊,一百八十个会员视频,三十二场会员直播,所有专家都免费看, 你说我现在还不着急买呢,下面有免费的专栏,那专栏里面的内容都是我们在平台上发的精选内容,在里面的还有九块九这种特价的会员内容,你供你参考好不好?如果需要可以好好看一下啊。今天就到这,我是瑞克老张,关注我,带大家看中国科技的高度和温度,我们下期见。拜拜。

目前来看,反正大家都说过年出来的是 v 四啊, dipstick v 四不是二二啊,不是二二的话一切都好说啊。就是你们如果说是关注打字或者打字产业链相关的其他的上下游供应链的这些伙伴们啊, deepsea 训练怎么样啊?据国成老师说,他问来的情况是非常低的成本,卓越的性能啊,应该就会继续延续 deepsea v 三在编程领域的这个优势吧。不过其实我最关心还是 r 二啊, r 啥时候出来呢?想要了解更多 ai 产业资讯关注我哦!

二零一八,深度求索公司成立。两千零二十三, d c v e 手袋模型发布。两千零二十四, d c v o 迁移参数开源模型 pc 切对话优化版本发布。 两千零二十五, d f c 扣一,推理性能突破,多模态能力多向理解上线。两千零二十六,从全能学霸到代码专家大变身,明确主攻方向,专门解决复杂的编程问题。核心绝活,一块巨大的智能白板,具有超长的记忆能力, 将在春节前后强势来袭,敬请期待!

当你还在使用 gemini 三和 gpt 五点一的时候,国产大模型 deepsea 又悄悄放出了一个王炸。他们宣布将在春节前后发布 v 四大模型,编程性能直接超越 cloud。 这是一份来自 the information 的 重磅爆料,内部测试显示,编码性能已经超越 cloud 和 gpt, 特别是在处理超长代码提示词方面有了重大突破。这一切都源于一项新的技术创新,他们提出了一种全新的 ingram 框架,也就是条件记忆,它可以把记忆从计算中剥离,把固定的静态知识放到一个字典中, gpu 只处理需要计算的部分。 这样一来,就实现了推理能力的爆发式增长,同时大幅降低了成本。同样的时间, deepsea 将要再次震惊世界。同时,这也意味着 ai 智能化转型将比我们认为的更快到来。 现在有了 ai 工具的门槛在无限降低,但玩法的认知却在无限拉大。当别人已经用 deepseek v 四批量生产爆款文案自动写代码搞定自动化引流的时候,你由于不知道指令怎么写,还在原地踏步,这才是真正的危机。 这的春节,如果你想弯道超车,六哥已经把 deepseek 结合业务落地的全套实操 sop 整理好了,在评论区领取。

这里是奇观正界,你的 ai 前沿视野窗口。为什么说 deepsea 最新论文可能提前揭晓了 v 四的方向,也关系到大模型的下一个赛道。这篇论文的标题叫做 conditional memory via scalable look up。 简单说就是给大模型加了一个全新的条件记忆系统。 因为梁文峰亲自署名,再加上多家媒体都在猜这可能就是 v 四的底牌架构,所以整个圈子都在盯。 那这条视频我们就集中回答两个问题,第一,这篇论文到底在解决什么问题?第二,他对我们普通人到底意味着什么? 先从一个直观的点讲起,今天的大模型其实都还挺死脑筋的,就好像你问我二乘二等于几,我会直接说四,不用认真推理一遍。但很多模型在处理非常简单的常识问题时,还是要一层一层的重新算一遍,非常浪费脑力和算力。 论文里举了一个更具体的例子,模型看到 diana princess of wales 这种说法的时候,要一路算到第六层才真正意识到,哦,原来这是 diana 王妃。 前几层都还在犯糊涂,只能认出 wales princess of wales 这种局部信息。这背后反映出来的问题是,标准的 transformer 和 m o e 架构本身没有原生的知识查找机制, 所以它只能靠一层层计算把记忆算出来,而不是像人一样先去翻一下记忆小本本,再决定要不要认真思考。 deeppeak 在 论文里说的核心思路其实很朴素, 既然有一大堆固定不太变的知识,比如人名、地名、常识表达,那为什么每次都要重新算,能不能把这些东西提前整理成一张可以随时查的超级字典,该背诵的交给字典,该思考的交给大脑。 屏管做的事情,就是在原来的模型旁边再加一条条件记忆轴。简单讲,模型,先看一眼你说了什么。把这附近的一小段文本通过哈西印刷,去一个巨大的记忆表里查一查,看有没有相关的已经学过的固定模式。技术上,它借鉴了最古老的 ngram 思路, 但做了近代化改造,把局部上下文通过多头哈希映射到一个超大的嵌入表里,一次就查到对应的记忆向量。这一步几乎不怎么占用模型的算力,但能迅速把该背的内容找出来。但是直接查表也有风险, 同一个词在不同语境下意思不一样,不同的短语有时候会哈吸到同一个格子里。为了解决这个问题, ingram 又加了一层上下文门控,如果查出来的东西和当前语境不匹配,门就会关上。这些错误的记忆就不会参与后面的推理, 组合在一起,就是一个很像人类的工作流。简单重复的常识,直接去 ingram 这个外接记忆库里查复杂开放的问题,再交给 m o e 这种会推理的大脑去认真算。 从实验结果来看,这套背诵分家的设计并不只是在知识题上加了几分那么简单。在 m m l u c m m l u 这些知识密集任务上,苹果模型比同规格的 m o e 提升了几分。 更有意思的是,在 big benchmark、 a r c 数学和代码这些更偏动脑子的任务上,提升反而更大。在长文本场景上, ingram 也很猛。在三点二万 token 的 ruler 测试里,像尼鲁链的 haystack、 大 海捞针这种多查询任务, 它的准确率可以比基线模型高出十几个百分点。原因是局部的细节关系交给记忆模块来搞定,注意力机制就有空去专心建模全局逻辑 更炸裂的一点在于,这个超级记忆库不一定要放在昂贵的 gpu 显存里。论文和报导都提到,他们把一个一千亿参数规模的 ingram 私表直接挂在了普通服务器的内存上, 结果整体吞吐量几乎没怎么掉。换句话说,以后很可能是一张消费级显卡负责算几根便宜的大内存条,负责背书。 那对我们普通人来说,这篇论文的意义其实可以拆成三点,第一, ai 会变得更像一个真正会分清背诵和思考的人,推理更稳,不再轻易被细枝末节带偏。第二,因为大部分背诵工作被挪到了便宜的内存里,未来大模型的使用成本有机会进一步下降。 第三,当这套架构成熟之后,更大规模、更博学、但部署门槛更低的模型会更快出现在普通人的设备和应用里。 现在关于 dp 四的各种传闻暂时都还停留在爆料和猜测阶段,但 inggram 这篇论文已经把他们的技术取向和野心摊在了桌面上, 不是一味堆更大的模型,而是重新设计大脑记忆的分工。所以,如果把这篇论文放到更长的时间轴看,它可能是下一代稀疏大模型的一个关键拼图。等到 v 四正式上线,我们再回看今天的 inggram, 很 大概率会发现,真正的拐点其实已经悄悄写在了这篇论文里。

还没到春节,梁文峰就已经开始搞事情了, deepsea 发布了一篇新论文,这篇论文也是 deepsea 为的新架构提前曝光,提出了全新的条件记忆结构,这个突破可能会直接改写大模型在知识调用和推理上的天花板。目前 ai 模型最大瓶颈就在长文本记忆,全球都在攻克这个难题, 只有让模型真正记住理解长链路的信息智能体才能进化到解决大麻烦。这次 deepsea 的 论文核心就是查算分离, 查找知识和推理计算分开,通过引入可扩展的 ingram 查找记忆结构,在等参数等算力的条件下,在知识调用、推理代码和数学等任务上的表现都大幅提升。更厉害的是, ingram 模块已经开源,这意味着中国终于有了能承载顶级基础研究的平台。 deepsea 四预计二月春节前后就会正式发布,直接给行业送上一份超级大礼,大家都准备好见证中国 ai 的 下一个高光时刻了,喜欢这类前沿解读,记得点个关注,带你追踪 ai 行业大事件!
