炸锅了兄弟们, deepsea 微四春节大概率出来的,到时候大模型成本将暴跌百分之九十,几千块就能够训练 ai 了。就在二零二六年一月十三号凌晨, deepsea 悄悄在 github 上面上传了一篇重磅论文,署名梁文峰。 兄弟们,这可不是普通的技术更新,它的代码能力直接碾压 g p t 四,而这篇论文就是微四的核心股价。 以前的大模型有多少钱呢?给你们算笔账哈,跑个千亿的参数模型得八张 a, 一 百显卡,光硬件就得几十万,小公司想都别想。 为什么这么贵呢?因为传统大模型既要背课文,又要解析,不管是查常识还是写代码,全靠 gpu 硬扛,显存根本不够用。更离谱的是,它答题不靠调取记忆全靠参数,一层一层的算,写个简单的代码都要重新推导编纂原理, 那又慢又会之言呢?但是 deepsea 微视那直接是掀桌子,他靠 ngram 技术让 cpu 和 gpu 彻底分空,把代码模板、数学公式这些死知识全部塞进 cpu 内存当超级字典。 gpu 指专心干推理解题的核心活,而且人家还把字典玩出花样, 字典瘦身,那重复的内容合并体积直接减少百分之二十三,那是查找更快。摩托哈西一句话拆成多个片段,四种方法同时查,一秒,定位不混乱,智能过滤,精准匹配语境。 那你问亚历山大的战马,那绝对不会给你扯别的。更绝的是哈, cpu 查字典和 gpu 推理同步进行,那速度只降了不到百分之三,但是成本却直接砍了百分之九十。 以前几十万的硬件配置,现在一张消费级的显卡加四根六十四 g 的 内存,那一千两百多美元大概还不到一万人民币就能够搞定。 理论上还能挂万亿参数的支持库,那再也不用愁显存不够了。实测的数据更亮眼,中文支持题分数涨四分,代码能力涨三分,三十二 k 长文本处理准确率从百分之八十四掉到百分之九十七。 g p u 不 用被杂活拖累,专心攻克百分之二十的核心难题,那写代码自然是又快又准,这一波操作直接将改写 ai 行业的格局,那英伟达绝对是要慌了,以后大家不用抢高价位的 g p u 选存了,那买 cpu 内存 就可以了,那英伟达少赚几十亿都是小事啊。 ai 这类必然的技头,那估计也闲了,因为小团队用十分之一的成本就能够部署媲美大厂的模型,那连 ai 工程师的饭碗也都要变了,以后不会是面单就行了。得懂系统架构和系统算法, v 四双架构搭配,总参数破万亿,核心算力却只用五百亿, 性价比那直接是拉满了。虽然说还有数据量大的时候吞吐量下降,字典更新带优化的小问题,但侠不遮瑜。 兄弟们,这哪里是技术升级啊,分明是给 ai 行业降门槛。以后不再是大厂的专属游戏,小团队个人开发者几千块就能够玩转大模型,再往后每个人在家里就可以训练 ai 了。好了,说了这么多,你怎么看呢?评论区留言。
粉丝5584获赞5.4万

太扎列了, deep seek 要在春节前后直接发 v 四新模型看视频! what does this think about deep seek? and why does it have big tech titans trembling today, this new model um features uh very strong coding capabilities。 兄弟们, deep seek v 四真正恐怖的是,据说训练全用国产卡,成本更低, 代码能力硬钢 openai 今年一月啊,视频里说的 r 一 发布只用了英伟达普通卡花了五百五十七万美元就训练出性能媲美 gbt 四 o 的 顶尖模型。 消息一出,华尔街当时就直接炸了。英伟达盘后暴跌百分之十七六千亿美元市值,当时就蒸发了,成为史上单日最大暴跌日。 这事事实证明,只要我们的大模型算法够强,英伟达训练卡也能省着用。虽然 deepsea 当时给了美国一记闷棍,但你猜怎么着, a 股芯片那天没涨,反而跟着英伟达一起扑街了? 中兴国际港股大跌超过百分之八,韩五季股价大跌百分之十二。这原因很简单,就因为 deepsea 实在太猛了,导致大家以为算力神话破灭了,所有芯片都得死。 但其实啊,只是 deepsea 替我们杀出了一条血路,但芯片卡脖子的问题还在。兄弟们,现在 v 四传闻要是真的,那就是官宣六代机的时刻啊! 中国正式进入芯片模型应用深度联动的新阶段,先用算法突破,盘活国产算力,然后再用国产的算力赋能百万工厂,最后用海量的产业数据和需求,发布出更强大的模型和芯片。 这个闭环一旦在两到三年内跑通,我们将不再是追赶者。评论区聊聊你觉得哪个环节最关键?

大家还记得二零二五年年初那个震惊了全球金融圈的日子吗?英美达的市值一天蒸发了近六千亿美元。让华尔街恐慌的不是某家美国科技巨头的财报,而是 deepsea。 二一。就在前几天,一篇来自 deepsea 团队的技术论文再次震惊了全球科技圈。 为什么?因为这篇论文实际上是在说一件事,美国人引以为傲的算力护城河很可能即将被我们给填平了。 过去三年,美国对我们的逻辑很简单,封锁高端显卡,锁死待宽,让你算力永远不够,你的 ai 就 永远比我笨。 这是一场看似无解的暴力美学竞赛,但是这篇论文的出现,直接掀翻了桌子,他告诉世界,谁说搞 ai 一定要几万张 h 一 百?如果你换个脑子思考,普通的电脑也能跑出超级智能, 那么 deepsea 这篇论文到底说了什么?即将到来的 deepsea v 四,为什么让硅谷如此焦虑?首先,我们要听懂一个核心概念,叫 ngram 条件记忆。 以前的大语言模型呢?就像是一个死读书的书呆子,你问他李白是谁?他必须调动几千亿个参数,在大脑里进行疯狂的运算,把李白这两个字给算出来,这非常浪费, 因为李白是诗人。这是一个静态知识,它不需要推理,它只需要记忆。但传统的 ai 模型没有记忆体,它只有计算体。所以呢,它必须用昂贵的显卡算力去模拟记忆。而 deepsea 的 工程师做了一个聪明的决定,他们呢,给 ai 配了一本字典。这就是 deepsea v 四的核心, 它把大量死记硬背的知识,从昂贵的神经网络里给剥离了出来,存成了一张巨大的电脑内存里边,而不是几万块钱一张的显存里边。 当大语言模型遇到知识类问题,他不再思考,而是直接查表。专业术语呢,就叫 o 一 复杂度的知识解锁。说人话就说,不管这书有多厚,他翻开就能找到那一页,不需要从头读到尾。这项技术直接绕开了美国制裁的核心, 高贷款显存,等于说是用几百块钱人民币的内存条,干了几万块钱美金的显卡才能干的事。这个技术路线一旦跑通,游戏规则就全变了。 以前呢,你想用最强的 ai, 必须联网,必须把数据传给美国的服务器,因为只有他们的超算中心才能跑得动。但现在,因为 deepseek 把对显卡的依赖降到了极致,于是即将出现一个惊人的现象,侧端 ai 的 爆发, 传闻中的小米旋界、 o 二芯片,还有华为即将更新的鸿蒙 os。 为什么敢说把达模型装进手机,就是因为这个原理。 想象一下,如果你的手机里住着一个不需要联网的超级大脑,他呢,能看懂你所有的本地文档、微信聊天记录,帮你处理最隐私的事。而这一切数据,哪怕一个字都不会传到云端。这不仅仅是省钱,这是数据主权的回收。 美国呢,封锁了云端的算力,那我们就把算力分散到每一个人的口袋里,这就是中国式的人民战争。更让西方国家头疼的是 deep sea 的 开元外交策略。 微软呢,最近出了一份报告,在这份报告里,他们发现了一个恐怖的事实,在非洲、南美洲,在东南亚,甚至是在被制裁的俄罗斯和伊朗, deepsea 的 市场占有率正在呈指数级上升。 为什么?因为硅谷的 ai 太贵了,而且太封闭了。而 deepsea 呢?开源便宜又好用。对于这些发展中国家来说, deepsea 不 仅仅是一个工具,它是唯一一个能让他们用得起顶级 ai 的 船票。这正在形成一种农村包围城市的全球格局。 当全世界的年轻工程师都在用 deepsea 的 代码架构,都在用中国的标准开发应用的时候,硅谷构建的那个封闭花园实际上已经被孤立了。 技术无国界,但技术标准有国籍。回过头看, deepsea 的 成功确实带有一种悲壮的色彩。如果我们能轻易买到无限的 h 一 百显卡,我们可能也会像 openai 一 样去搞什么大力出奇迹,去堆算力。正是因为匮乏,正是因为被逼到了墙角,我们才被迫去压榨算法的极限,去寻找那条没有人走过的路。 他们封锁了硬件,我们就重构软件。他们封锁了道路,我们就重造地基。 deepsea 证明了一件事,这个世界没有所谓的技术天花板,只有被锁死的思维。当中国工程师决定不再死记硬背别人的规则,而是去改写规则的时候,封锁线就成了一张废纸。 二零二六年, ai 的 下半场才刚刚开始,这一次,我们不再是追随者,我们手里拿着的是通往下一个时代的入场券。致敬每一位在封锁中突围的中国科研人。好了,这里是 ai 探索新思路,关注我,带你在未来生存!
