为何DeepSeek，迟迟不发新模型？ #AI新星计划 #DeepSeek #人工智能 #媒体精选计划

为何DeepSeek迟迟不发新模型

4.9万

3181

4890

2922

举报

发布时间：2026-03-22 15:07

查看AI文稿

AI文稿

十四个月看不到重大更新，用户使用率从峰值腰斩切，就是此刻中国科技行业 ai 领域最为揪心的一个集体疑问。比比赛克为何陷入了长期进末？让我们先把时间倒回在十四个月以前。二零二五年春节前夕， d b c g r e 模型横空出世，以仅仅五百五十七万美元的训练成本，硬生生把性能拉到了当时全球 ai 的第一参数规模。数学推理、代码生成、文本理解，每一项核心指标都与 opena 的旗舰模型打的是有来有回，不分伯仲。而关键是什么？关键是 dbc 啊！从来没有大型融资，没有巨额投入，更没有行业大佬为他发声站台，跟美国那些氪金大佬走的不是同一个路线，仅仅是用白菜价就干出了旗舰活。所以啊，在去年的春节假期，华尔街上就流行起了一个词汇叫 dipsec panic。哎，如果说中国企业用五百多万美元就干出了我们好几千亿的效果，那美国这些科技企业到底掺杂了多少的水分？按说吃了多少的回扣？彼时的 dipsec 堪称着威风凛凛、紧迫巨马，在中国科技行业 ai 领域一夜之间扬眉吐气，宛如是天降了一颗紫薇星。创始人梁文峰出现在了新闻联播上，他的老家人流量不亚于网红景点，母公司换方联换也跟着得道升天，登堂入室。牛不牛？太牛了！甚至在我们的印象里，中国科技行业从来就没有打出过如此高调的大硬仗。我们擅长什么？我们向来是擅长隐姓埋名，为国铸剑是汗水石头。伊贝在默默无闻的领域里建设出大国，中级伟大无需多言，但是在拼速度、赶热点、追潮流这个层面，哎， deep，这个还真是我们为数不多和美国科技公司硬碰硬的一个典型案例。但是呢，高光时刻有多么耀眼，寂寞时刻就有多漫长。从二二一发布了，现在十四个月过去，新版模型杳无音讯，而同行呢，几乎都在用月更的速度狂奔进化。哎，差不多每隔三十天到四十五天，就推出一个大版本，更新上下文扩充推理速度、提升多模台变形工具调用 agent 能力， moe 架构也带着让人眼花缭乱。而在这个过程当中， tiffsag 就像是被按下了暂停键，核心功能没有重大跃升，幻觉陷阱无力修复，一个最基本的多模态反复推迟、长脸、 ag 的实时搜索增强全都还在开发之中，担不担心？太让人担心了。你再看当年的通讯生 open an anthropic，现在几乎是每个月都有模型产品接口同步更新，进展之快，你说不着急，不眼红，这是不可能的。哎，相比之下，放在同一个时间轴里， dbc 的大版本更新居然是零，是在划水吗？是在偷懒吗？是梁文峰功成名就之后，已经没有动力再去逆天改命了吗？不，其实最麻烦的问题还是那两个字，算命。马斯克旗下的 x c i 有一位高管前不久接受媒体采访，他说马斯克这人对于一线工作是很关心的，如果有谁报告算力不足等问题，他会马上出现，说， ok，我去和黄仁勋谈一谈。而且这样的画面在中国几乎就是科幻故事，我们拿不到英伟达最高端、最一线、最顶尖的 ai 芯片。同时呢，美国的白国也不让黄人心与中国企业有太多的来往。而这样一来，就产生了一个问题，那就是 dbc 现在有限的算力资源，既要死死保住 r 一底座持续训练，同时呢，又要撑住每天输一次的在线推理，根本腾不出富余的算力去把万亿参数级别的全量优化，还有多轮迭代，难不难？太难了！算法的创新确实可以弥补一部分算力上的差距，但是呢，客观了，物理规律也决定了算力胆怯，从根源上就锁死了模型规模的上限，也锁死了迭代速度的天花板。这一点，但凡是对技术有所了解的粉丝，应该都是心知肚明的。也正是因为如此，我们反而要对 d b c 哥保持真正的耐心和希望。因为在去年底那次看似不起眼的小更新当中， d b c 哥就已经明白了自己的真实战略 f p 八架构什么意思。这已经不是技术层面的小修小补，而是供应链层面一次彻底的动重塑，打破英伟达的软硬件垄断壁垒，实现国产 ai 大魔仙与自家芯片的无缝衔接，为国产高性能计算平台提供原始支持。这一句看似简单轻快的描述，背后隐藏的是整个中国 ai 生态的野心。其实从去年底 v 三点一这个模型更新开始， deftic 就已经在为国产的硬件平台不断施肥深度优化。而一旦华为升腾的 f p 八利用率被彻底打通，那么 depsag 未来的 r 二、 r 二三每一代新模型迭代速度都会迎来质的飞跃，哎，甚至整个中国人工智能产业都不会再被卡脖子卡的喘不过气来。而这样的工作，才是真正意义上的长期主义。十四 k k 的进步不是躺平，不是掉队，而是一次战略级别的闭关。 tiff 这个已经不满足于再搞一个 ai 大模型了，这种简单的工作别人都可以做，他们要干的是彻底去釜底抽薪，用最克制的节奏，把有限的算力、团队资金全部砸在最关键的国产替代节点上。当同行们还在因为给他的舒适区内卷参数卷速度的时候， dpc 啊已经把目光投向了三到五年后的中国 a 独立生态。所以此时此刻，别急着做出审判。真正的紫微信从来不是一闪而过的流星，而是那颗在夜色最深时仍然稳稳亮着的北极星。 dbc 的故事才刚刚进入到了第二站，而我们或许正处于中国人工智能产业真正腾飞的前沿。

粉丝596.7万获赞1.3亿

相关视频

03:26
DeepSeek V4迟迟不发：蓄力还是掉速？最近AI圈最热闹的话题，莫过于DeepSeek V4到底什么时候发。从春节前到2月中旬，再到3月，传言一轮接一轮，真应了那句调侃——"贾跃亭下周回国"式的跳票。眼看4月窗口又要来了，这次是"憋大招"还是"掉队"了？#deepseek
查看AI文稿
AI文稿
三分钟读懂 deep sick v 四为何迟迟不发？最近 a i 圈最热闹的话题莫过于 deep sick v 四到底什么时候发？从春节前到二月中旬再到三月，传言一轮接一轮，真应了那句调侃，贾跃亭下周回国式的跳票。眼看四月窗口又要来了，这次是憋大招还是掉队了？先看背景，去年十二月 deep sec v 三点二发布时，凭借在数学和代码上的强悍表现，加上图榜的 api 定价，一度让开发者沸腾。但此后整整三个月， deep sec 几乎静默了。而同期 openai 以月更频率推进 gpt 五， ospec 的 opus 和 sonate 也密集更新了两轮，把长任务 a 阵的能力玩出新高度。这种对比确实让不少开发者焦虑，那么慢下来是为什么？三个核心原因值得关注。第一，任务变重了， v 三点二开始主攻 a 阵方向，训练一个真正能干活的系统，和训练一个聪明的模型，工程量和数据复杂度完全不是一个量级。梁文峰一月发表的论文 conditional memory vs scalable look up，专门解决长上下文记忆瓶颈，可见技术攻坚的深度。第二，开源没有试错空间，闭源厂商可以频繁发小版本，舆论不会太苛刻。 gdp seek 背负整个开源社区的期待，一旦 v 四提升不够，经验或成本反而上涨，口碑反噬会很快，所以必须拍足够大才出手。第三，也是最硬核的约束。国产芯片适配。据多方信缘， v 四将深度适配华为升腾、韩五 g 等国产芯片，目标是成为首个完整运行在国产算力生态上的大模型。在中美技术博弈的背景下，这部棋战略意义重大，但研发周期确实被拉长了。从技术路线看， v 四压注的几大方向包括原生多模态架构、百万级长上下文支持强化代码能力等。三月十一日 openroute 平台出现的两个神秘埃尔法模型，也被不少开发者解读为辉度测试的前兆。市场反应方面， deepseek app 下载量已突破一点一亿，周活近九千七百万，基本盘依然稳固，但三个月未更新，确实有部分开发者的注意力转向了 inscrape 或国内的 glm 五等产品。资本市场和主流科技媒体的报道则相对克制，多持观望态度，这本身说明日内对 deepseek 仍留有较高预期。值得注意的是，腾讯会员新模型也将在四月发布，由回归腾讯的尧舜与主导，专注三百亿参数下的 agent 实用性两家同期竞争，让这场发布多了几分不可预测性。最后，威斯的四月发布能否真正形成技术代差，有几个观察维度。多模态能力是否补齐、国产芯片适配的落地效果，以及在 agent 真正干活这个新赛道上工程化迭代和产品闭环能力能否跟上。四月快到了，是经验亮相，还是还债式补全，我们拭目以待。
25大象无形
03:16
Deepseek新模型V4发布在即我们该如何看待 #Deepseek #deepseekv4 #openai #国产大模型 #AI
查看AI文稿
AI文稿
全世界都在等的 deepsea 微四版本终于快来了，它会是 ai 时代的拼多多吗？大家好，这是动力枪极速版，一个直讲前沿科技的账号。就在昨天著名的 ai 开发的社区 l 站上，有博主发帖称，自己正在内测的 deepsea 微四 light 测试版在本周二悄悄升级到了零三零二版，公开测试的部分成绩已经接近了美国 astonropac 公此基建模型 cloudsonnet 四点六，可以轻松地写出我的世界风格的游戏，相关的前端代码也非常的风格化。其他的测试人员也表示， deepsea v 四将在 app 和网页版首发，大概也是考虑到去年用户量激增对中国云基建产生的冲击， api 接口将暂缓发布，优先保证用户体验，要不然接口开了所有人一起用的话，又得跟去年一样挡机了。那么问题来了， deepsea v 四能不能成为下一个国运级的 ai 产品呢？答案是肯定的，因为大众对它的期待已经达到了历史的新高度，公众已经不允许它失败了。我们来看一组晚点统计的数据啊， deepsea 的中国用户粘性非常夸张，在春节期间红包大战和 cds 二零的冲击之下， deepsea 的用户使用时长在短时间内是暴跌的。但是随着其他厂家春节活动的结束， deepsea 的人均使用时长和使用频次又再次回升，回到了绝对第一的位置。再加上去年中国正体市场的推广，让大量的人手机里面都装上了 deepsea，这样的数据足以说明 deepsea 在中国是有绝对的基本盘优势的。第二就是 deep stack， v 四版本的能力没有拉垮，早在上个月的 ai 混战中， deep stack 就已经完成开发了，开始闭门测试了，有开发者和云浮厂商参与测试。根据测试人员透露信息，参数模型方面， v 四 light 版本估计为两千亿，而完整版的 v 四参数量可能突破一万亿，同时呢，也支持一百万 token 的上下文知识库也更新到了去年的九月份，在任务完成方面表现得更加出色。相关的测试也反馈啊，该版本在深层复杂的 svg、矢量图形等高难度任务上表现惊艳。 v 四版的性能明显是优于现有的网页端和 app 端的模型的各项泄露的跑分可以说是遥遥领先，然而却迎来了行业打假。部分媒体对流传的测试数据提出了质疑。新智源和多位技术博主的指出啊，网传跑分途中的数据存在硬伤，比如说这个数据竞赛得分在统计上是不合理的，权威机构也确认网传的数据是伪造的。然而面对泄露的信息和跑分传言， dpc 的团队选择沉默，没有进行任何回应。刚才我觉得啊 deepsea 团队还是一如既往的低调，他们是拿产品说话的。在过去两代模型里边， deepsea 一直在做一件事，那就是用工程能力把成本给打下来。在中美 ai 技术竞赛中，中国从一开始的技术追随者在两段时间内就走出了完全不同的路线。美国现在走的呢，是以 open ai、 algorithmic 和谷歌主导的高端技术路线，模型更大，训练成本更高，系统更封闭，但是呢，价格要更贵一些，可以理解为是资本密集型 ai。而像 deepsea， deepsea、 kimi， mini max 等公司在遭遇算力紧张的大背景下，思考如何优化成本。他们用上了专家混合模型架构，压缩推理成本，优化训练效率，最终结果就是百万投放的成本已经降到了接近一到两块钱人民币。虽然说相关模型的性能可能只有国外旗舰模型的百分之九十，但是它的成本却只有对方的百分之十，深受普通用户和重要企业的欢迎。所以啊，这个事就非常的，中国制造不拼谁最强，拼的是谁最便宜。好用这种方法呢，也打破了很多人的陈旧认知，美国在定义 ai 的上限，而中国正在定义 ai 的价格。东方商业历史，决定行业规模的不是上限，而是价格，这跟拼夕夕的逻辑是一模一样的，只有让更广大的用户用上了 ai，才能够继续谈 ai 技术突破和市场规模的事。所以啊， deepsea 微四版本，我既希望他快点来，又希望他不要那么着急。各位，你们期待 deepsea 微四吗？欢迎在评论区里面一起交流哦，记得点关注我们，下次见，拜拜！
1374动动枪极速版
02:22
DeepSeek的“消失”，算力耗尽凉凉了？最近后台被你们问爆了，DeepSeek沉寂这么久，外界众说纷纭。是不行了，还是在暗中憋着足以颠覆行业的王炸大招？今天木木带你打破认知盲区，深挖大模型背后的真实残酷博弈！#DeepSeek #AI大模型 #人工智能 #木木说科技 #商业思维
查看AI文稿
AI文稿
deepsea 怎么没动静了？之前火成那样，现在怎么连个声都不出了？是不是江郎才尽要凉了？废话少说，今天咱们就一口气扒开表象，看看这家 ai 圈最猛的黑马到底在下什么！大气，你先点个赞，我们走起！大众普遍以为，一家科技巨头要想活下去，就得天天开发布会，周周发新模型来刷存在感。但这其实是外行的错觉。咱们举个极简的例子，假设我开了一家木木武馆，前阵子刚用一招极其刁钻的自创拳法，把隔壁不可一世的武林霸主给打趴下了。按理说我该天天开门收徒大办宴席，对吧？但我突然闭门谢客了，你以为我是怕了？其实我是在后院极其昂贵的高压炼钢炉里，日夜不停的锻造一把能一剑封喉的绝世神兵。这就是 deepsea 现在的真实处境。你以为做顶级大模型是多招几个程序员，写几行代码就能迭代的吗？完全不是。揭秘一下现在 ai 大模型圈及其残酷的底层底牌，整个行业的技术路线正在经历一次降维大洗牌。之前 deepsea 靠着极致的架构创新，把推理成本打到了地板价，但现在顶级 ai 的竞争终局已经从比谁背书背的多，直接变成了比谁脑子转的深。要搞出下一代具有极强逻辑推理能力的深度思考模型，必须要用海量的高质量合成数据，去进行极其漫长的强化学习 r l 训练。这就好比让一个绝世天才去闭关解开世界级数学难题，这个过程需要吞视极其庞大的算力阵列，而且在结果出炉的前一秒，外界看他就像是在发呆。在底层模型的训练周期里，算力在轰鸣，数据在燃烧。这本就是一场沉默且极其烧钱的闭门战争。所以 deepsea 这么久没动静究竟是怎么回事儿？在这个浮躁的百魔大战里，天天发公关稿搞微调的往往是急着变现，而真正手握顶尖算力和极强技术执念的刺客，往往都是悄无声息的。咱们普通人面对这种科技跨时代的眼镜，千万别被表面的尘气骗了。看懂了这层技术博弈的底层逻辑，你就知道安静等待下一个王炸的降临才是正解。关注木木，每天带你看透科技底牌！
34木木观察室
02:07
传Deepseek下一代模型春节发布这一次还能震惊世界吗
查看AI文稿
AI文稿
据说 deepsea 的母公司换方量化去年赚翻了，基金平均收益达到了百分之五十多，一年是狂赚了五十多亿，在全国的电话基金里排名第二。现在知道为什么别的大摩星公司都着急融资上市，而 deepsea 一点都不着急，甚至拒绝外部投资吗？因为人家有主业撑着，一点都不发愁。不光是不发愁，人家钱多到花不完，根本花不完啊。去年七月， deepsea 从八千多万的下载量一度下跌到两千多万， app 的下载量也大不如前。那时候很多人觉得 deepsea 是昙花一现，已经跌下了神坛。外媒则 information 爆料说， deepsea 有可能在二月发布新一代旗舰模型 deepsea v 四。不得不说，梁文峰是真会调时候，每次都用新模型给全国人民拜年。这几天， deepsea 已经开始活跃起来了。十二号晚上， deepsea 发布了一篇新论文，聚焦大模型的条件记忆模块。简单来说，就是把那部分只需要死记硬背，不需要复杂计算的海量参数从昂贵的 gpu 显存里踢出去，放在了便宜的 cpu 内存上。这一更新无疑是延续和指向了对训练成本和效率的极致优化。结论中， deepsea 认为这将成为下一代模型中必不可少的核心构成。从去年春节， deepsafe r 一推出，用十分之一的成本就做出了全球顶级的模型，并且一举震惊了世界，甚至中错纳斯达克。之后一年中， deepsafe 除了几个小版本的更新，几乎没有什么动作。如今一年过去了， ai 行业用沧海桑田来形容一点都不为过。前几天，腾讯、阿里、智普、月之暗面的几家公司的 ai 负责人进行了一场行业瞩目的圆桌论坛，他们问及中国 ai 有多大概率能超过美国的时候，大家深思熟虑之后给出了一个答案，你猜是多少？百分之二十，就这两成的概率，还是在政策支持、创业精神迸发、研发路径弯道超车的情况下才能够实现。外媒还爆料说 deepsea v 四主打编码能力，内部测试结果显示已经超越了 anserypok、 cloud、 openai、 jbt 等一系列模型。没到最后发布的一刻，谁都不知道新一代模型的庐山真面目。不管如何，我们都有理由对这代模型充满期待，希望 deepsea 能够复刻去年的奇迹，王者归来，再次为全国人民送上一份春节大礼，不枉国之重器之名。
15艾克斯波
05:05
Deepseek再放送！来不及等R2了! ProverV2数学模型抢先发布？免费API上手指南！
#deepseek #deepseekv2 #ai
221神烦老狗
05:20
DeepSeek Engram又对大模型底层动刀了大家好，DeepSeek最近是大招频出，新模型肯定不远了。今天又发了个新论文，叫 Engram。
干什么的呢？大家可以先想一下戴安娜王妃是谁这个问题
对我们来说，这是从记忆里直接调取一个已知事实。但对于今天的大语言模型（LLM）来说，它得像现场组词造句一样，一层一层地分析“戴安娜”、“王妃”、“威尔士”这些词，通过复杂的注意力机制和神经网络计算，才慢慢“理解”并拼凑出这个实体。它在用"算"来模拟"记"。
这其实是当前大模型架构的一个根本性bug。#人工智能 #deepseek #Engram
查看AI文稿
AI文稿
大家好，这个最近是大招频出，新模型肯定是不远了。今天又发了一个新论文，叫恩，国人。干什么的呢？大家可以先想一下大元那王妃是谁这个问题。对我们来说，这是从记忆里直接调取一个已知的事实。但对于今天的大元模型来说呢，他得像现场组词造句一样，一层一层的分析戴安娜、王菲、威尔士这些词，通过复杂的注意力机制和神经网络计算，才慢慢理解并拼凑出戴安娜威尔士王菲这个实体。他在用算来模拟记。这其实是当前大模型架构的一个根本的 bug。原理有两类东西，一类是死知识、人名、地名、成语公式这些固定的，不需要推理。另一类是活思考，逻辑推断、因果分析，这些需要动态计算，但现在的模型只有计算这一把锤子，所以他把所有的问题都当钉子砸了。结果呢，宝贵的思考深度全浪费在背字典上了。就好像是九九乘法表，一个数学家当然能推算出来，但是显然是浪费 this 这篇论文的思路。是呢，既然有些知识不需要算，那别算了，直接查字典。他们给模型装了一个知识硬盘，叫 ngram。这个词来自神经科学，意思是记忆痕迹，当然，原来的意思是雕刻，它和 m o e 混合。专家价格不一样， m o e 是条件计算，根据问题动态选专家来干活。 ngram 是条件记忆，根据输入直接查字典找答案。 ngram 借鉴了一个古老的概念， ngram 就是连续 n 个词，词源 token 深度学习是两个 token 的组合，我爱学习是三个 token 的组合。 ngram 的做法是呢，给每个常见的 ngram 都存一个向量，放在一张巨大的查找表里。模型读到新词儿时，就去查疑这个词结尾的几个词儿是什么，然后把对应的向量拿回来用。但问题来了，所有可能的 ngram 组合，那得多大的表？根本存不下。所以他用了三个技巧，第一，压缩，把大写的 apple 和小写的 apple 应用到同一个编号，减少容余。第二呢，多读哈希，可以理解为多路查找词组太多。一张表容易撞车，怎么办呢？就同时查好几张表，综合结果，撞车的概率就大大降低了。第三，门控，这是最妙的设计。苹果可能是水果，也可能是个公司，查出来的项链到底该不该用呢？ ngram 会用当前上下文来判断，靠谱就多用，不靠谱就少用，甚至不用。有了 m o e 和 ngram 两个工具呢？问题来了，资源怎么分？全给 m o e 还是全给 ngram 呢？还是混着来？ deepsix 做了大量实验，发现了一个漂亮的 u 形曲线，全给 m o e，不好，模型被迫用计算去重现知识，效率低。全给 ngram 呢也不好。模型没了计算能力，复杂推理做不了混合分配，最佳比例是七到八成给 m o e，两到三成给 ngram。这个发现的意义在于呢，它证明了计算和记忆是两条腿，缺一不可。光推专家是不够的，模型需要一个专门的知识，硬盘效果如何呢？他们训练了一个二百七十亿参数的 ngram 模型，跟同等规模的 moe 模型对比，结果呢，是全面碾压，知识问答提升了三到四分，这不意外，毕竟 ngram 就是个测试库。但惊喜的是，推理任务提升更大，复杂推理涨了五分，科学推理涨了将近四分。为什么呢？因为模型不用再浪费脑力去背知识了，省下来的深度全用来思考代码和数学呢，也涨了三分左右。最夸张的是长上下文。在大海捞针任务里呢， m o e 极限百分之八十四， ngram 直接干到了百分之九十七。为什么呢？因为 ngram 接管了局部模式，注意力机制被解放了，可以专心处理长距离依赖。为什么会有这么大的提升呢？研究人员又可解释性空距分析，发现了一个惊人的结论， ngram 模型的第五层语义表示已经相当于 moe 模型的第十二层。什么意思呢？ ngram 通过查字典，直接让模型的思维深度提前了七层，这就像什么呢？也不用再花时间背乘法表了，直接查表，省下来的脑力全用来解方程。最后说一个让工程师兴奋的点， m o e 的专家路由是动态的，你不知道下一步会激活哪个专家，所以专家必须放在 gpu 上。但 ngram 不一样，它的查找是完全确定的，只要看到输入就知道要查哪些锁芯。这意味着整个查找表可以放在 cpu 内存里， gpu 算第一层的时候， cpu 就可以一步一取 ngram 所需要的数据。等模型跑到 ngram 层，数据已经传过来了。实验结果呢，一千亿参数的 ngram 表完全卸载到 cpu，推理速度只损失百分之二点八，这为万亿级知识库模型开了一扇门。最后总结一下这篇论文的贡献，第一，提出了条件记忆这个新维度和 m o e 的条件计算并列，概念清晰，洞察深刻。第二呢，找到了黄金分配比例，为下一代模型架构指明了方向。第三，在知识推理代码长上下文上全面超越了 m o e 基线。第四呢，工程上几乎零成本扩展，知识容量，算法和系统完美协调。一句话，这篇文章基本上指明了下一代模型的一个可能可行的方向，就看别家是不是跟进了。感谢关注未来博士，我们一起用跨界的视角探索未来的方向。
3272未来博士wepon
00:51
DeepSeek R2为什么推迟你知道吗？
#deepseek #deepseekr2 #你知道吗？ #ai #大模型
18果园科技（香港）控股集团有限公司
04:03
英伟达被deepseek冷落，背后值得深思 #英伟达 #deepseekv4 #燃起来了大国重器 #英伟达暴跌
查看AI文稿
AI文稿
英伟达有点危险了，因为 deepsea 要出新的模型了。你还记得去年 deepsea 出新模型的时候，英伟达有多惨吗？今年大家说，哎，好像没有去年那么爆炸。但是英伟达处的社会地位也不一样了呀，他现在也是前有狼后有虎啊，怎么讲？因为之前英伟达是推理训练两条腿走路的，都得用他家的模型，但是现在推理特因为云服务商的出现，已经不那么依赖于他的显卡了。为什么？因为云服务商直接就把库大这个事情给绕开了啊？上一次我跟大家说绕开，去年春节的时候大家说不信是吧？现在是实实在在在推理特啊，库达没那么重要了，你不管是你有什么样的模型，往上一提，接口一交，然后完了之后，你说你去找 gbt，那你去找 gbt，你说你去找 kimi，你去找 mate max 都没问题，然后完了之后剩下的就压根不用你管，你知道吗？更不用说他后边这个硬件到底是英伟达还是升腾，根本不用你管。那现在就变成两条路了，第一条路啊，我直接走国产这个模型啊，比如说我用的提米，然后完了之后，我用的背后用的英伟达卡也好，升腾卡也好，最后完了在中国的这个供电系统下，然后完把这个东西算完了，他便宜不便宜？那当然便宜了，我们的成本连模型带算力带电力全加在一起，也就是美国那边的十分之一。那你十分之一在啊，前段时间大家发酵那个什么 openclaw 那个龙虾是吧？大量的用 agent 消耗算力的情况下，美国人你也花不起啊。所以完了之后再推理测，就是春节期间，大家知道有两个我们港股上市的公司，然后涨得非常猛，为什么？因为大家在用这个 agent 的时候发现，哎呀，国外也太贵了，外国人都跑到中国来用这个模型来了。所以完了之后推理测，他现在英伟达并不是那么占优。那还好，所有的这种好，不管你是 kimi 也好还是 jpg 也好，大部分现在训练你其实还得用英伟达的卡，你别管你说禁令不禁令是吧？我偷偷用我也得用啊，毕竟训练啊，得用大规模的卡的提成，然后不容得一得插破是吧？大部分还是在用英伟达固氮再去练，但是最近一个消息，对不？这个新出来的这个微四模型，我不准备先去给英伟达和 amd 做优化了。那什么意思？那这就引人遐想啊，有两种可能啊，第一种可能说，哎，你还是用英伟达的卡训练的，然后，但是呢，为了让国产厂商能够跟英伟达一样的这种起跑线，是吧，我也给升腾去做一些适配。但还有一种可能，还有一种可能就是压根我训练就没用。因为啥？为什么呢？毕竟这个是全球瞩目的一款模型，那全球瞩目的模型，然后完了之后，每一次出来之后，他都是以小而美而著称的，而这个小而美如果再配上用的国产算力去做的训练，那他真的又要炸一次了。他这个炸在两个方面，第一个方面，你训练如果都不用因为他了，那就因为他是不是另一条腿就立马又给打折啊？然后大家说那没没问题啊，美国那些人还在用英伟达呢。美国人现在喜欢用英伟达吗？你去看一看 jimmy 是不是自己用自己的显卡在他的训练他用一部分。 ok 啊，他用一部分，英伟达大部分还是用他自己的吧。然后你再去看大模型 grog， grog 那个马斯克自己也在想着去建芯片呢。然后你再去看 open ai，之前跟那个英伟达应该签的是一千亿的合同，现在缩减到三百亿了啊。分批这一系列的一系列，指向的就是英伟达。现在是前有狼后有虎，就等着对能不能给出一击暴击的暴刺来了。嗯，我们拭目以待。到时候去，拜拜。
5348笨鸟怎么飞
07:11
一点都不卡，用起来丝滑！2种不同的DeepSeek本地部署，秒开+解锁隐藏功能
#deepseek #deepseekr1 #deepseek本地部署
2.2万直男山禾
00:52
为什么DeepSeek没有诞⽣在美国？ #科技 #人工智能 #语言模型 #ai
768小痣学姐
01:05
DeepSeek彻底摊牌了，深夜发布大一统模型Janus #人工智能 #玩儿个很新的东西 #科技热点 #Deepseek #AIGC
4.2万赛文乔伊
01:07
据路透社2月26日权威消息，DeepSeek即将发布旗舰大模型V4，这次完全不按套路出牌：不再提前把预版本交给海外芯片厂商优化，而是把数周优先适配权，直接给到华为等国内算力厂商，全力打磨国产硬件适配。#DeepSeekV4 #华为算力 #国产AI #大模型 #科技自主
222蚕哥聊军事
01:43
Deepseek为何要全开源？不怕西方偷走吗？ #Deepsee
3584大佬百科
02:52
Deepseek新大模型发布，比肩GPT5和Gemini3Pro，华为要加油了 #DeepSeek #AI大模型
731辣评手套哥
00:55
突发！平民的AI武器DeepSeek，被全球11国封禁#deepseek #deepseekv2 #deepseek模型 #AI大模型 #梁文峰
查看AI文稿
AI文稿
突发十一国封杀 deep sea，真的是隐私问题吗？别再被隐私两个字骗了。十一国接力封杀 deep sea 真正的原因就一个，它太便宜也太好用了。一个推理能力强成本低扩散快的中国 ai，在别人眼里不是技术进步，而是不可控威胁。路透社一篇协助军方的报导直接给他定了信，从此解释就是掩饰。这根本不是技术问题，这是地缘政治的成人礼。它标志着中国顶尖 ai 出海，从此默认带红码。技术再强也得先过安检。 deep sick 不是第一个，也绝不会是最后一个。
36JUN
00:17
Deepseek因华为芯片推迟上新？
1758甘露如醴
02:37
DeepSeek沉寂数月，到底是要颠覆行业，还是闹天大笑话极速切入热点！DeepSeek憋了这么久的新模型马上发布，全网都在盯！是算力枯竭被大厂绞杀，还是憋出了断层领先的终极武器？今天木木带你扒开AI大模型之战的真实底牌！前排提示：本期深度硬核，建议点赞收藏！#DeepSeek #AI大模型 #人工智能 #木木说科技 #大厂博弈
20木木观察室

热门推荐

热门分类