00:00 / 02:34
连播
清屏
智能
倍速
点赞26
00:00 / 06:10
连播
清屏
智能
倍速
点赞1320
00:00 / 01:25
连播
清屏
智能
倍速
点赞7099
DeepSeek爆火背后:中国AI为何让世界重新估值? 2026年了,DeepSeek的下一代大模型呼之欲出,整个行业都在盯着。[1] 但今天我不想聊未来,我想往回看——聊聊这家公司到底是怎么走到今天的,它最初是怎么被全世界注意到的。因为这个故事本身,可能比任何一个单独的模型都更值得讲。 时间拉回到2023年。那会儿大多数人连DeepSeek这个名字都没听过。ChatGPT火遍全球,百度抢着发文心一言,无数创业公司融资动辄几十亿。而在杭州,有一家对冲基金的老板悄悄做了一件在当时看来完全不合常理的事——他决定把量化交易赚来的利润,全部投进一个纯粹的AGI基础研究团队。[2] 这个人叫梁文锋,1985年生于广东湛江,17岁考入浙大,30岁创办了幻方量化。[3] 幻方管理着几百亿规模的资金,在量化投资领域算得上头部玩家。但梁文锋没有拿这些利润去扩大交易规模,也没有搞什么AI应用赚快钱,而是成立了DeepSeek,招了一帮平均年龄28岁的年轻人,全部来自国内高校,坐在那儿从头开始研究大语言模型。[2] 没有接受任何外部融资,首期投入大约30亿人民币,全部自掏腰包。[2] 他后来在采访中说过一句话:"DeepSeek的出发点就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。"[4] 用量化基金的利润来养AGI研究,这种模式在当时全世界都没有先例。 但梁文锋真正让人侧目的,不只是敢花钱,而是花钱的方式。当硅谷的共识是"AI就是堆算力、堆数据、堆GPU"的时候,DeepSeek从第一天起就走了一条不同的路——研究怎么用更少的资源做到同样的事。2024年5月他们发布V2的时候,业内第一次看到了一个叫MLA的东西——多头潜注意力机制。[5] 传统大模型在对话时需要把之前说过的每个字都存在显存里,上下文越长越撑。MLA的做法是把这些记忆压缩到一个极小的潜空间里,需要用的时候再解压还原。具体有多夸张呢?DeepSeek每个token的KV Cache只占70KB,同类模型Llama需要516KB。[6] 内存直接砍掉七倍多。这不是微调,这是架构层面的根本性创新。
00:00 / 06:19
连播
清屏
智能
倍速
点赞2
00:00 / 00:45
连播
清屏
智能
倍速
点赞143
00:00 / 09:11
连播
清屏
智能
倍速
点赞NaN