粉丝9331获赞6.4万

兄弟们,今天二月二十七号, deepsea v 四正式进入发布倒计时,辉度测试代号 c o n light 已经外泄。上次 v 三发布,英伟达单日蒸发五千八百九十亿美元,这次 v 四三大黑科技全部提前泄露。今天我把这些料全摊给你,它到底颠覆的是什么?这次谁最该紧张? 讲 v 四之前,先把 v 三的基准线说清楚,因为不知道起点有多高,就感受不到 v 四突破有多狠。 v 三六百七十一亿参数的混合专家架构,激活参数只有三十七亿,效率极致。 推理成本每百万 token 只要零点一四美元, g p t 五点三要十五美元以上,差了一百倍。看右边这张成本对比图, v 三那根条有多短,竞品的条有多长,这就是 v 三答出来的价格体系。 v 三发布当天,英伟达蒸发近六千亿, v 四预计保持同样的成本优势,但性能要在跨一个档位。 v 四三大核心突破,全部来自已发表的研究论文,不是空穴来风。第一, ngram 条件记忆, 你看页面上这两个对比,就方式,找信息要逐个扫描,像翻书。 ngram 直接一步定位,查找效率从 o 嗯变成 o 一 规模无关速度恒定。一百万行代码查起来和查一百行一样快。第二, mhc 流行约束超连接, 简单说让多个专家同时处理同一段逻辑,跨文件推理能力提升百分之三百。以前 ai 改一个功能经常顾此失彼, v 四把这个问题在架构层彻底解决了。 第三, em token 上下文,你看下方那个容量对比, v 三是幺二八 k, v 四是 em, 整整八倍,换成实际场景二百页 pdf, 整个项目代码库一次性全色进去,它真的能读完再回答你。 来看最新数据, swbench verified, 这是衡量 ai 处理真实软件工程任务的精准。 g p t 五点三目前约百分之八十二, cloud opus 四点五是百分之八十点九。第一个突破百分之八十的模型 gemini 三 pro 是 百分之七十六点二。 v 四的预期区间是百分之九十以上,但单看跑分还不够,你看页面底部那行字, v 四的差异化不是分数最高,是分数最高的同时成本只有 g p t 五点三的十五分之一,这才是真正的降维顶级性能,加急低成本,这个组合目前没有对手 技术。聊完说你最关心的, v 四发布之后,你能直接用上什么?第一,整个项目代码库扔进去,直接问 e m tokin, 大 概是十万行代码,你把整个项目丢给他,问这个 bug 的 根音在哪,他真的看完了,不是假装。第二,二百页行业报告一次性分析完, 季报、招股书,竞品调研,不用再分段位,直接出结论。第三, mit 开源私有部署零障碍,企业数据不出,网络金融、医疗政务客户直接本地跑,合规没问题。 顺带提一下, v 四发布前把优先适配权给了华为升腾,国产芯片加国产模型的闭环生态正在成型。这个话题太大,下期单独一期。 记住这句话, deep seek 每次发布不只是在发布一个模型,是在重新定价整个 ai 行业。 v 三让全球 ai 价格体系崩了一遍。 v 四如果三大黑科技全部兑现,会再崩一遍, 而每次崩受益的是你每个普通用户,每个享用 ai 提效的人。如果你觉得今天内容有收获,欢迎点赞关注,点关注不迷路,下期见!

我跟你讲啊,这个深度求索 deepsea 微四要来了,这一次啊,直接让美国的英伟达这些顶级的芯片公司坐了一次冷板凳啊。 因为呢,有业内人士透露啊, deepsea 微四的版本在现在的预览发布阶段,直接跳过了英伟达和 amd 等美国的这些 ai 芯片公司,而让国内的华为、韩五 g 等厂商提前至少两到三周进场来进行深度的适配。 这个为什么这么重要呢?以前呢,都是国产的人工智能啊,追着英伟达的模型去跑啊,人家出了一个模型呢,我们的国产模型就赶紧去跟进。 而现在呢,轮到了我们的国产的模型,在我们国产的芯片上去提前预热了。而且根据预测啊,国产的芯片的软硬件性能效率飙升之后的话,算力的利用率将从百分之六十提升到百分之八十五, 部署的成本呢,砍到了英伟达方案的三分之一。所以啊,这不光是一个大模型的升级,更是我们国产算力的一次商业突破呀。 另外呢, deepsea v 四作为一个多模态的模型,支持图片、视频和文本的生成,而且关键在于说,通过国产芯片的适配,它在华为的升腾、韩五 g 等芯片上面跑出来了,高效率推理的成本大幅度的降低。 而之前呢,有消息透露的测试就已经显示了, v 四在代码优化和视觉还原上的表现非常惊艳。所以这就证明了,国产芯片不光能够接得住我们的国产大模型,而且能够超预期地跑出点火花来。 所以啊, deepsea 这一次呢,是在全世界的面前放了一颗亮亮的信号弹,明确地表示,我们的国产大模型可以完全抛弃掉英伟达的 ai 芯片。 而在过去的一段时间里面呢,总有人表示啊,如果说 ai 离开了英伟达的芯片,那么 ai 就 玩不出什么花样。而现在呢,我们国产的 ai 芯片用实力去打脸了。而且啊,这次我们还让外媒给盯上了,他们就表示呢,这说明国产的芯片和大模型很有可能会一起联手走向一个新的生态闭环。 所以啊,这就已经不再是一个追赶的游戏了,而是我们中国 ai 定规则的开端。今年的年初呢,中国大模型的掉油量已经碾压了美国,全球前五大的模型当中,中国占据了四席。 而为了实现这一点呢,很重要的原因就是模型加芯片的自主闭环,国产芯片从低端市场突围,现在更是直接卡位了 ai 大 模型所需要的高端算力。所以啊,之前英伟达一家独大不可战胜的神话,似乎啊,已经完全被动摇了。 国产芯片厂商硬钢英伟达其实是一场不动声色却又波澜壮阔的革命啊。所以说,真的啊,国产芯片的时代真的要来了,你们同意吗?别忘了点点关注,文案内容来自我们公司自研的科研 asv 体,科研 asv 体,打造有价值的自媒体。

海外科技媒体的日常留言又来了。这一次,他们信誓旦旦地宣布, deepsea 将在三月四号发布下一代技术模型 v 四,不仅支持一百万头肯长上下文推理,还将具备图片生成与视频生成的多模态等。 同时, deepsea 还将使用华为、升腾、韩五 g 等国产 ai 芯片对 v 四新模型进行优化。对此,我的判断恰恰相反, deepsea v 四不应该也不需要是一款包含多模态能力的全能模型。长上下文才是 deepsea 真正应该压住的战略方向。 首先, deepsea 的 核心竞争力是极低的成本做到了接近顶尖的推理输出质量,这背后依靠的是高效的混合专家架构、极致的工程优化,以及在数学、代码等逻辑推理场景上的深度打磨, 本质上是用更少的算力撬动更强的智能。这是一场效率游戏,而不是规模游戏。长上下文推理正是 deepsea 能力的自然延伸。而多媒体生成就是主动放弃自身优势,去别人擅长的战场应聘的战略冒险。其次,多媒体生成是海量数据与算理对联。 sora cds、 可琳已经在这条赛道上投入了天亮的资源。这个赛道遵循赢家通吃的定律,用户永远只会选择视频效果最好的那一个,而不是每项功能都平平无奇的全能模型。 两年前, open air 发布 sora, 全球科技媒体近乎现实不存在了。然而两年后,现实给出了冷酷的答案, sora 社区的用户留存率在第三十天仅剩百分之一,而 open air 每天要为此支付约一千五百万美元的算力成本。 视频生成模型的竞争模式略显残酷,即便你做出了产品排名第二,也几乎没有什么商业价值。 tiffany 真的 有把握在自己 a cds 的 主场胜出吗?最后,长上下文的商业价值在目前阶段是被严重低估的。长上下文并不简单,意味着能处理更多的 token。 它的真正价值在于 不需要依赖 rgg 技术的企业级知识库全量解锁、超长代码仓库的整体理解与重构,以及跨文献的科研推理, 这些都是用户付费意愿极强的高价值投币场景。根据 openroute 的 统计, ai code 已经成为 token 消耗增速最快的场景,占所有 ai 应用 token 用量的接近百分之四十。 最重要的,实现百万 token 以上的有效长上下文深度推理技术难度极高,需要系统性的解决注意力机制的计算复杂度、位置编码的长城外推能力,以及长距离信息的有效解锁等一系列的深层出问题。这些问题一旦被突破,将成为 deepsega 最强大的技术护城河。

deepsea v 四下周就要发布了,即将成为第一个不需要外国芯片也能跑的世界级 ai 模型。作为原生多模态大模型,能同时处理图片、视频和文字,而且专门针对国产芯片做深度优化。你可能还记得去年 deepsea 发布 r 一 的那天,英伟达股价暴跌百分之十七,一天蒸发了将近六千亿美元, 创下美股单家公司历史最大单日跌幅。当时华尔街的人都在问一个问题,如果一家中国公司用十分之一的成本就能做出同等水平的模型,那美国科技巨头每年砸下去的几百亿美元还值吗?这个问题到现在都没有答案,而 v 四来了,问题可能会变得更尖锐。为什么这么说? 第一, v 四是真正的多模态。过去 deepsea 主要是文字选手,写代码推底一流,但图像视频能力是短板, v 四直接补齐了这块,能同时理解和生成图片、视频文本。 第二,上下文窗口据说达到了一百万头,啃什么概念?相当于能一次性读完好几本书,还记得住内容。第三,也是最关键的,它绕开了英伟达。 过去 ai 行业有个不成文的规矩,任何顶级大模型发布前,都要先跟英伟达做性能优化。这次 deepsea 反向操作,优先跟国产芯片厂商合作。 这意味着什么?中国 ai 正在从用别人的芯片刨自己的模型,走向用自己的芯片刨自己的模型。更有意思的是,就在 v 四快发布的时候,美国那边也没闲着, astropics 跳出来指控 deepsea 搞工业及政流攻击,说他们偷了 cloud 的 能力,结果网友发现了一个 bug, 用中文问 cloud, 你 是什么模型?他居然回答,我是 deepsea。 v 三, 你刚指控别人抄你,转头你的模型就在中文环境下认了别人当爹。那条推文下面几千条评论,超过七成都在嘲讽。但这种舆论战的意图很明显,就是在 v 四发布前,先埋下他们只会抄袭的框架。不管 v 四表现多好,都想引导到负面解读上。 为什么他们这么紧张?因为如果 v 四再次验证 deepsea 的 效率优势,用更少的计算资源达到世界一流水平,那胡尔杰就要再次面对那个令人不安的问题。 还有人爆料说, v 四的 api 成本会比竞争对手便宜五十多倍,这是什么概念?就是别人花五十块钱能做的事,用 v 四只需要花一块钱,这才是真正让人害怕的地方。回头看, deepsea 这一年多的路径其实很有意思。 r 一 发布后,他们进入了静默模式,没有新的旗舰模型,没有发布会,没有路演,没有炒作,就在杭州安安静静的磨刀,一次次小版本迭代,把 v 三和 r 一 的能力融合,引入稀疏注意力机制验证、自验证技术、发布架构。论文每一步都在为 v 四铺路。美国的出口管制,试图用卡脖子的方式遏制中国 ai 发展, 但 deepsea 的 存在,本身就是对这种策略最有利的回应。当你无法获取最顶级的芯片时,就被迫去思考更聪明的办法,更高效的训练策略、更精妙的架构设计、更极致的资源优化。而这些创新一旦形成,价值远超任何一款芯片,有竞争对手阵营的研究人员私下承认, v 四可能一发布就是登顶开元第一。 但真正值得铭记的是一个古老的道理,再次被验证。封锁从来不会杀死创新,反而迫使创新在中国大地上野蛮生长,结出属于自己的果实。下周的 v 四发布,全世界都在看,而中国 ai 已经不需要别人的目光来确认自己的方向。


正月十三号,我是数码博主文澜公子,今天咱们聊一个,二零二六开年 ai 圈最大炸弹 deepsea v 四全亮铺光, 不管是技术参数、性能、跑分,还是战略选择,都直接改写国产大模型的格局,甚至让海外巨头都坐不住。 先把时间线说清楚。二月十一日已经开启辉度测试,网页端和 app 都上线了,百万上下文体验版正式发布定在二零二六年三月第一周,节奏非常快,这次不是单款模型,而是双版本齐发。轻量版 v 四 light, 代号 c i n 杠 light 海石清亮版,现在闭门内侧,后面再上完整版 v 四旗舰版,一清一主,覆盖个人用户与企业场景。最炸的还不是发布节奏,是技术直接拉到全球顶流。第一个突破一百万 tokins 超长上下文,直接是上一代 v 三点二的近八倍, 普通人不用记数字,我翻译一下能一口气吞掉一整本书。三十万行完整代码,酷,全程不丢信息,逻辑不乱, 读得完记得住,答得准,不管是律师看卷宗、程序员改项目,学生读论文,直接一步到位。第二个突破,编程能力全球登顶,内侧 s w e 杠 bench verified, 跑分百分之八十三点七,直接超过 g p 杠五点二, koopas 四点五, 这是国产大模型第一次在权威编程基础上压过海外顶流。不止跑分高,复杂工程调试、跨文件关联、漏洞定位、字动生成、测试用力,全都是企业级刚需程序员,直接多了个全能队友。 第三个突破,三大底层架构创新,听着专业,我用大白话讲杠,流行约束,超连接 mhc, 让大模型跑得更稳更大, 还不诈算力杠、印记条件、记忆 ngram 给模型装了超级海马体常文本,不忘精准调取杠,稀疏注意力,制定关键信息,速度更快、成本更低、响应更跟手。三者合一,不是堆参数, 是从架构上重新做模型,效率、成本、稳定性全面升级。第四个突破,原生多模态文本、图片、文档、图标、代码截图,一起输入 osr 精准识别图标,直接解读截图,秒转代码不用切,工具不用拆,步骤一站式搞定,办公、学习、开发都更顺滑。 但这次最有分量、最有态度的不是技术,是战略转向。以往大模型更新,都会先给英伟达、 a m d 等海外芯片厂预发布版本,优先适配海外硬件。但 deepsea v 四完全反过来,先开放给华为等国内芯片厂商 深度适配、联合优化,没给美系芯片厂商权限,这一步意义太大。国产大模型加国产算力,芯片从被动兼容变成主动协调,算力利用率、推理效率、成本全面优化,真正走向自主可控、软硬一体, 不再被卡脖子。再看性价比,直接卷死行业。 a p i 定价网传每百万 t 仅零点二七美元,差不多是海外顶级模型的四十分之一。企业用得起,个人用得爽,彻底打破好用就贵的惯例。 同时, svg 使量图生成、企业级 a p i 集成,多端适配全都拉满。 gigahub 近期密集更新,明显是为大规模商用做准备。我给大家总结一下, deepsea v 四到底意味着什么。第一, 技术上不追平,直接超越,在掌上下文、编程能力这两个核心赛道站稳全球第一梯队。第二, 生态上换赛道,带头走国产模型加国产算力的闭环,给整个行业打样。第三,普会上降门槛, 用极致低价把顶级 ai 能力放开,让中小团队、个人开发者都能用得起。以前我们总说国产 ai 在 追赶,这一次 deep cq 一 四直接从跟跑跳到领跑,不只是参数好看,是真解决痛点,真建立壁垒,真扛起自主可控的大旗。 二零二六年注定是国产 ai 爆发的一年,而 deep seek v 四就是开年第一声惊雷,正月十三,顺心顺意。你平时用 ai 最多是写文案、写代码还是读长文档?期待 v 四正式上线吗? 评论区一起聊聊!

twitter 四本周就要正式发布了,我知道大家想问什么,他到底有多强?会不会又是狼来了今天这条视频呢?用四分钟的时间,把 v 四的真本事和对咱们国家 ai 未来的影响一次性给你讲透。先说记住,这一次的 v 四最大的突破不是简单的堆参数,而是换了一条路。 以前的大模型越大越聪明,但是呢,越容易学完,后面望前面。但是 v 四呢,用了两个黑科技,一个叫 mhc 流行约束,一个叫 ingrand 记忆模块。听不懂没关系,你只需要知道,它让模型在冲向万亿参数的同时,解决了灾难性遗忘的这个老大难问题。 更狠的是,它的上下文窗口直接拉到了一百万 tokins。 什么概念?三体三部曲一口气读完,还能帮你画一张降维打击的示意图出来。但真正让行业失眠的,是它的编程能力。 v 四在编程任务上的表现已经超越了 cloud 和 gpt 系列。一百万 tokins 的 长上下文,意味着它能一次性理解整个代码仓库几百个文件之间的依赖关系。看门清,那 以前的 ai 是 帮你写一行函数,现在呢,它能帮你重构整个老旧系统。什么叫 ai? 程序员的待机飞跃?那这就是答案。但如果你以为 v 四只是技术强,那就太小看它了。这次最大的杀招是它的生态策略。 v 四发布前, deepsea 做了一个史无前例的决定, 优先向华为、深腾等国产芯片开放给国内厂商数周的优先适配期,而英伟达和 amd, 抱歉,你得后面排队。 这意味着什么呢?意味着未来的游戏规则变了,不是芯片厂商定义模型怎么跑,而是顶尖模型倒逼芯片去适配。国 产芯片第一次有机会和世界级模型深度绑定,软硬一体,自主可控。那讲完技术,说点实在的,这东西对我们到底意味着什么呢?咱 们的基础软件、工业软件,比如操作系统、 cad、 eda, 跟国外呢?还有差距。为什么?因为那些软件呢,是人家几十年代码一点点堆出来的,我们想追,但是代码量太大,算法太复杂 不动。而 v 四来了之后,局面呢,可能会被改写。它的工程级代码理解能力,可以帮助工程师快速解析国外成熟软件的算法逻辑,甚至辅助生成国产替代的核心代码、操作系统的内核、工业软件的求解器。这些最难啃的骨头,现在有了一个超级助手。再看应用层, v 四延续了 deepsea 一 贯的高性价比路线,推理成本极低,意味着 ai 会从一个独立的 app 真正融化进我们每天都在用的软件里面。微信里面可能直接有个超级助理帮你处理工作, wps 里能一键生成复杂报表,甚至你刷的短视频背后的推荐算法都会更懂你。 过去呢,只有大厂玩得起 ai, 未来三线城市的创投团队也能用,这就是技术民主化的力量。当然,一个模型不能解决所有问题, 操作系统几十年的生态壁垒,工业软件背后的海量行业 no 号,不是一朝一夕能抹平的。但是 deepsea 微四的出现,证明了一件事,在算力受限的情况下,靠算法创新和工程优化,我们一样可以走出自己的路,它可能不是银弹,但是呢,它是一把火, 这把火点燃的是国产算力、国产软件、国产应用,全面突围的,希望本周发布,我们拭目以待。我是老朴,点赞中国科技。

今天呢,陆续刷到不少和 deepsea 微四相关的信息,一开始呢,我真没太注意,结果越扒越觉得这事不简单。之前全网都在传 deepsea 微四春节可能要上线, 就因为这个消息,多少互联网公司的 ai 部门直接逆向过年,全员春节不回家,在公司轮班蹲发布,就怕错过这波行业大地震。 要知道腾讯的元宝是怎么起来的,他可是全网第一个接 deepsea 的, 结果呢?大家熬完春节刚结束调休返岗,这事居然可能爆出准信了。 据多方权威媒体进行实锤, deepsea v 四可能根本没打算春节发,而是本周有可能就要进行亮相了,最早可能就在十几个小时以后。更关键的是,这次发布时间刚好撞上全国两会重要窗口, 这时间点的分量不言而喻吧。今天三句话给你们扒透这次 v 四王炸硬货,全是行业最关心的核心亮点。 第一,一万亿参数,旗舰架构,直接拉满一百万 token, 超长上下文,整个项目代码库,长篇文档一次性喂进去, 就能精准处理泄露跑分里代码能力直接超过 gpt 和 cloud。 第二,独家 ingram 记忆黑科技, 把 ai 的 知识记忆和推理计算彻底分开,直接绕过高端 gpu 显存限制,还专门为华为含五这些国产芯片做了深度优化, 卡脖子也能跑出世界级性能。第三,性能冲顶流,价格却打骨折。此前 deepsea 的 api 报价只有海外大模型的二十分之一,甚至五十分之一, 这次 v 四大概率会延续这个超高性价比。所以说,这已经不是一次简单的模型更新,是国产 ai 在 关键节点向世界亮出的技术底气。 你觉得 v 四能不能正面硬钢 cloud 评论区,一起聊一聊?关注我,每次聊点不一样的。

当整个 ai 圈还在为千亿参数模型的算力消耗叫苦不迭时, deepsea v 四抛出了一枚重磅炸弹。 万亿总参数加三百二十亿激活参数的末混合专家架构,直接改写了大模型的发展规则,这背后是对传统稠密模型的根本性颠覆。过去大模型陷入 参数竞赛的死循环,要提升性能就必须扩大参数量。但筹密模型每次推理都要激活全部参数, 导致计算成本延迟与参数量呈限性增长。训练一个千亿参数筹密模型需要数千张 a 一 零零 gpu 运行数月,单条推理请求的算理消耗堪比普通用户一年的用电总量。而末架构的核心魔法在于 吸出激活,将模型拆分为数百个独立的专家网络,通过门控网络动态选择与当前任务最相关的一到二个专家参与计算。就像医院的专科门诊, 感冒无需惊动外科专家。 deep c v 四的万亿参数是全科医疗资源库,而三百二十亿激活参数是 对症的专科团队。这种设计让它的总餐数量达到 g p t 四的五倍以上,实际计算量却仅为传统稠密模型的三分之一, 推理效率提升三倍以上。更关键的是, deepsea v 四采用了二零二六年最新的流行约束超连接 m h c 门控技术,让专家匹配精度提升百分之四十,彻底解决了早期某模型专家闲置的负荷均衡难题。 这意味着它的万亿参数不是虚有其表的数字,而是真正能被高效调用的潜在智慧。如果说末架构是效率革命, 那么一百万 tucker 上下文窗口加原生多模态,则让大模型的能力边界实现了次元突破。先看一组震撼的数据, 一百万 tok 相当于七百五十万字的巨著,是 g p t 四上下文窗口的二十倍,足以容纳整部红楼梦加三国演义的文本量,或是十小时的会议录音,转写 一千页的科研论文、完整的工业设计图纸集,这背后攻克了三大技术难关。计算复杂度突破。通过分块处理与注意力缓存技术, 将 transformer 的 o n 平方复杂度优化为近似线性,避免了百万级叙略所需的 r t b 显存占用。长距离依赖建模。采用动态位置编码与关键信息铆定机制, 让模型能精准关联五百亿前的细节,解决了长文本处理中的信息衰减问题。数据训练创新构建了全球首个百万 tok 级高质量语料库,含盖学术、工业、医疗等领域, 确保模型在超长文本场景下的连贯性与准确性。而原生多模态则彻底告别了 文本加图像的简单拼接。 deep c v 四的多模态能力从预训练阶段就深度融合文本、图像、音频、视频、数据共享同一套专家网络,能够理解图表中的数据趋势加报告中的文字结论 加演示视频中的场景细节,真正实现了跨模态场景重构。例如,它能直接解析一段包含实验视频数据表格、论文、论文的科研资料,自动生成完整的实验复盘报告, 这是传统多模态模型无法企及的高度。 deepsea v 四的技术突破正在引发全产业链的连锁反应,其核心影响在于 高性能与低成本的结偶。对于企业用户而言,最直观的改变是成本革命。根据 deep speed mod 的 实测数据, 同等性能下, mod 模型的训练成本降低五倍,推理成本降低九倍。这意味着中小企业无需再为使用大模型支付天价 a p i 费用,百万滔滔的长文档分析成本从数千元降至百元起。工业场景中 ai 质检、 设备运维等实时性要求高的任务,可通过端测部署梦模型实现毫秒级响应,功耗降低百分之四十。科研机构能以极低成本处理基因组学、 天体物理等领域的超长系列数据,加速前沿研究进程。具体到落地场景, 三大变更已经显现,办公领域处理一千页的合同文本,自动提取关键条款、识别风险点,效率提升十倍。医疗行业整合患者完整病 历、文字影像检验数据,生成个性化诊疗方案,解决多元数据割裂问题。工业制造解析整套设备图纸加运维、日制 加实时传感器数据,预测故障风险,并给出维修指导,停机时间缩短百分之五十。更重要的是, deepsea v 四宣布优先向华为等国内供应商开放测试, 推动算力与模型的自主可控。这意味着中国 ai 产业将在某架构的赛道上实现换道超车,无需重复传统稠密模型的算力依赖,直接进入效率驱动的发展新阶段。 deepsea v 四的发布,标志着大模型从参数均被禁赛, 进入效率革命时代。其核心启示在于,模型的强大不在于参数多少,而在于参数的利用效率。当万亿参数可以被三百二十亿激活,参数高效驱动,当百万 token 上下文成为标配。当原生多模态打破数据壁垒, 大模型将真正从实验室工具走向普惠性基础设施。未来我们可能会看到,单侧 ai 设备搭载轻量化梦模型,实现离线处理超长文本与多模态数据。行业大模型的训练成本降至现在的十分之一, 每个吸粉领域都能拥有专属的高性能模型,跨领域协调成为常态。 ai 能同时处理法律文档、工程图纸、医疗影像等多类型数据,成为真正的通用智能助手。当然,挑战依然存在, 百万滔氣场景的推理延迟优化、多模态数据的隐私保护、行业及专家网络的定制化开发都是需要持续攻克的难题。但不可否认的是, deepsea v 四已经为大模型的发展指明了方向,效率才是 ai 规模化落地的核心密码。 当技术的翻离被打破,大 ai 的 能力与成本达到平衡,一个万物智能的新时代正在加速到来。


路透社等多家媒体都证实了国产大模型 deepsea v 四发布已经进入倒计时,最快下周就要正式亮相了。这个消息一出来,可是在全球都引发了广泛关注。这里有个特别的点, deepsea v 四允许华为提前访问和使用, 但却没给 amd、 英伟达这些美国芯片制造商早期访问权限,这可打破了行业惯例,以前 ai 公司开发大模型,基本都会和英伟达紧密合作, 确保模型能在主流硬件上顺畅运行。这次 deepsea 的 选择背后的意义可不小,华尔街现在都担心再出现 deepsea 交易呢。咱们先来看看大家对 deepsea v 四都有哪些预期。基于国内外尤其是海外 reddit、 twitter 等平台的讨论和猜测。 预期主要分为高预期项和推测项。高预期项里可能性比较高的有这几点,首先是编程能力提升, 大家预计它的代码能力会有显著提升。其次是长上下文窗口,在春节前的灰度测试版中,上下文就能拓展到文明链级别,推测是极长的百万 tokens 级别,而且在长上下文编码任务里,性能已经超过 cloud 和 gpt 系列了, 正式版 v 四预计会正式支持。最后是国产算力适配,预计它会对华为、升腾、海光等国内主流 ai 芯片进行深度适配,这也符合国产模型的发展趋势。推测项的不确定性就比较高了。一是技术架构更新 明确,它还会采用 m o e 混合专家架构,有人猜测总参数量能达到万亿级别,通过稀疏化实现高性价比。还有可能引入 eingram 技术, 这是基于 deepsea 之前发表的论文,这项技术核心是存算分离和哈希解锁,能把知识从模型权重里解放出来,存到外挂的记忆库向 cpu 内存里,再通过高效解锁调用。这么做有不少好处, 能以较低成本扩大模型参数规模,让小参数模型外挂知识库也能高性能,还能降低幻觉率,这可是从记忆层面进行的架构创新,海外开发者都特别期待。二是多模态能力。 deepsea 之前发布过多模态相关论文,所以大家有多模态的期待,但普遍觉得 v 四可能还是会先专注文本和代码能力,多模态不一定会上线。再来说说国产大模型技术路线的演进。本周 openerer 数据显示,国产模型掉用量首次超过美国模型。 这就引出一个核心问题,国产模型是怎么用高性价比达到类似效果的呢?其实中北大模型在注意力机制上已经走上了不同的路, 国产模型创新分化很明显,主流路线是追随并发展 deepsea 的 稀疏化路线。 deepsea v 一 点三在二零二五年发布的时候,就像行业里的核弹, 它的 mla 多投潜在注意力机制,把查询压缩到潜在空间,大幅减少了 kv cache, 降低了内存占用和成本。 有两个案例特别能体现这一路线的优势,第一个是 kimi k 二点五,他明确沿用 m l a a 来进一步极致稀疏化,专家数量从 deepsea v 一 点三的两百五十六个增加到三百八十四个,注意力投数从一百二十八减到六十四, 进一步减少内存占用,用小参数就达到了接近 cloud 四点零的水平。第二个是智普 ai 的 glm 五,它的前代 glm 四采用受高结构,每走稀疏化路线,效果和性价比都不理想。 glm 五完全转向 deepsea 路线,采用和 deepsea v 三点二非常相似的 dsa 架构, 总餐数量七四五 b, 专家数量两百五十六个,和 v 一 点三一样,结果在代码等任务上效果接近 clout 系列,成本却只有后者的三分之一到四分之一, 掉用量在 open router 上登顶了。除了主流路线,还有其他差异化路线。 mini max 的 m 二采用 four tension 架构,他觉得在通用 gpu, 尤其是英伟达卡上, 投密注意力能更好地发挥算力,对工业落地场景兼容性可能更好。阿里通易千问主要面向凸臂部署,采用国际主流的 gq a 架构, 和 cloud gemini 类似,优势是开箱即用,兼容性好,国产卡和英伟达卡都能适配,降低了开发者部署难度。 但缺点是推理成本相对较高,这可能影响了它在 open ledger 上的排名。阶月星辰的 step 三点五选择 s w a 注意力机制,目标是端侧推理,想用极小参数在笔记本电脑等设备上实现快速低成本推理。 和云端推理路线不一样,对于 deepsea v 四的技术方向也有一些预测,它预计会比 v 三点二更加极致,稀疏化走向原生稀疏,可能会取消。 v 三点二里选择注意力 token 的 light indexer 模块儿, 让注意力机制从头到尾完全稀疏,专家数量可能也会更多,和海外模型的路线差异会更明显。那 deepsea v 四以及国产大模型的这些发展会对行业产生什么影响呢? 首先,立好定制化国产 ai 芯片极致稀疏化路线需要和芯片深度俄合国产定制芯片优势更大。其次,能持续降本, 通过稀疏架构、 ingram 等创新,减少存储和计算消耗,甚至对 cpu 参与推理都有好处,最终大幅降低成本,推理价格也会急剧下降。未来云端推理价格可能降到现在的三分之一甚至更低,比如达到百万 tokens 一 分钱级别, 这样大模型应用就会变得特别廉价和好用。最后,模型和硬件特定场景的讹合会越来越强,定制化程度会加深。总的来说,国产大模型靠着在注意力机制上的创新,尤其是 deepsea 引领的稀疏化路线, 走出了一条以极致性价比为核心竞争力的差异化道路。 deepsea v 四预计会继续深化这条路线,在长上下文、代码能力、国产适配等方面带来提升, 进一步推动整个行业成本下降和应用普及。同时,行业里也有了能针对不同部署场景的差异化技术的选择。

deepseek v 四这波发布,从目前流出的信息看,确实够得上登顶这个说法,但它的意义不只是在技术榜单上刷个高分。我对它的定义是,这是一个既有面子又有理子的战略级全能选手, 是中国 ai 从单打独斗转向生态自主的标杆。第一看面子,技术上补齐了最大短板, 之前的 deepsea 强在文字和推理,但像个偏科天才。 v 四最大的进化是原生多模态,一出生就能看懂图,看懂视频,还能直接生成不再是外挂的插件,加上一百万透坑的上下文,它能一口气处理超长视频或者整本小说, 这个吞食量意味着他能处理更复杂的逻辑任务,把高智商变成了全感知。第二,看李子,战略上打破了行业惯例,这次最狠的一招是没有优先给英伟达送测,反而让华为、韩五 g 这些国产芯片提前 适配。以前都是国外芯片定义模型能力,现在是国产模型,给国产芯片为数据做优化,这是要构建中国芯片加中国模型的闭环生态,让国产算力不再是备胎, 应用场景直接炸开。一、极致的代码与设计辅助,爆料说它生成 svg 矢量图非常强,程序员直接画 ui, 工程师出草图, 一句话的是,这是生产力工具的革命。二、影视与内容创作。以前做视频分析要拆真,现在他能直接理解,剪辑师找素材做粗剪,效率会大幅提升。 三、企业级数据分析,百万上下文能直接吞下财报会议视频,结合数据进行推理,做投资分析会非常实用。简单说, deepsea v 四不仅是秀肌肉,更是宣告国产 ai 不 仅能打,还要自己搭台唱戏。

大家好啊,呃,这两天又有新东西对吧?然后先是前天的夜里边是吧,那个 deepsea 悄然间的上了一个新模型,当然这个模型它自己啊,对,话说也说它不是 v 四啊,不是 v 四啊,但是呢,你可以把它看懂成 v 三的终极进化版 啊。我们去跟很多的朋友们去聊的话呢,发现呢,基本上能确认这个是发 v 四之前的最后的一个灰度测试啊,它主要是上线了几个,一个是智智酷呢,更新到了二零二五年的五月,一个呢是什么呢?是整体的上下文突破了百万 token 的 级别 啊,当然还有点别的小的细的东西,但这两个是最主要的变化,然后呢?哎,然后接着就是智普 gl 五是吧?啊,已经发了,然后他的这个东西的话呢,在没发之前啊,在那个 各个这开源社区都已经出现了啊,这个神秘模型啊,其实是中国的神秘模型,然后引爆了整个,大家觉得什么呢?他的编程能力啊,已经追上了是吧?追上了最先进的美国的模型,然后在这个基础之上质朴发了, 发了以后的话,他在整个发的过程中也说自己参考了 deepstack 啊相关的一些新的技术好了。那这些东西的话呢,放在一起怎么看?其实我们今天的主题呢,非常的明确啊,这今天主今天这一个视频的主题就叫什么 deepstack, 在 春节期间发不发 v 四都不重要了,我们已经进入到了新的一个阶段。 什么意思?实际上你包括这段时间那个啊,字节在发视频模型对吧?其实字节发视频模型,我说啊,一直在说,我说字节应该去做这样一个视频模型,应该把全世界所有的这些做这个视频生成模型的都给他干掉才对,因为字节有全世界中国乃至全世界 最大的这样的一个视频库,对不对?那这种数据和使用场景都具备情况下,他没有理由跑不出来,果不其然自己也跑出来了啊,那而且的话,一下子就属于跟其他的那些模型断代似的这样的一个变化, 再加上智普的发发布啊,再加上这段时间啊,包括千问,包括其他几家都要发新的模型好了。那这些东西放在一起的话呢?其实有这么两点一点的话呢,是 deepsea 呢,它做了很多的技术, 已经被中国的传这些开源模型的话,逐渐吸收并形成了新的这样一个技术体系,这个技术体系是基于开源的啊,稍微一手回到一下,回答一下大家的意见。有些朋友问,哎呀,那那个美国那些模型能不能用啊?能用,但如果他用的话,就必须遵循啊,这个 deepsea 整个那论文里面的要求,你用了我的技术,你就必须在社区开源啊,在社区开源你才能继续用我的技术,否则的话,对不起,你不要用我的技术。 这个意思的话,也就是说对于美国的这些闭源模型来说,这比杀了他们都难受,所以他们是不可能去做的啊,不可能,如果说偷偷的用的怎么办?偷偷用被发现,那就是大的这样的一个,呃,属负面的这个事件啊,那会被整个的这个整个这个圈层口诛笔伐的啊,所以 他是绝对不可能去用这些开源的技术,但他参考相关的技术去做自己的技术,这个是可能性有的。但但是像 deepsea 他 们这种更多的是为了节省资源啊,那个是为了把整个的效率提升,那这事对于他们来讲的话,跟他们现有的整个的资产上的布局是冲突的, 因为他们现在用什么?用这个算利的这个资产啊,去挂定自己的估值或者是市值,那这样的话呢?算利的资产变得最大,估值就变大最大,对吧?因为这个大模型的本身的市场是无法去估量的,不好去估量的, 那他就用这种方式来去估量。那如果用 dips 的 话,那意味着他要用,他不用这么多的这个卡了,不用这么多的数据中心了。那你觉得他的估值和市值有什么样变化没有,对不对?所以这个事的话呢,两个方面决定了,美国的模型 只能是参考啊,不可能使用啊, deepsea 的 技术。好了,回到我们的主题,那么在这种情况下,中国这些模型反而是全开源,所有的全全部开源,那么我用 deepsea 的 技术,然后我甚至可以在基础上再去做新一代的这个自己的东西,它产生了一个什么?开源模型的速度和开源模型的成本, 这两个东西如果都并驾齐驱,目前的话,你看智普的这个啊,跟那个,呃,美国的这个编程模型,最好的编程模型已经并驾齐驱了,很多人说没有什么大的差距了。并驾齐驱,那这个情况下就闭源被开源追上,而且开源是免费的,而且开源模型的成本要远远小于闭源模型。好了,那这些事放在一起大家会意味什么? 意味着,哎,接下来开元的春天就到了,对不对?那,那美国模型的这个,这个整个的基础就会挖空,对吧?那这个事就很好玩了,好吧,后续我们再看。所以从角度来看, deepsea 发不发微四啊,我觉得都不重要了, 重要的是这条路已经打开了,重要的是中国的开源模型已经形成这种激对式的冲击了,重要的是我们能看到这个场景了,重要的是美国人开始难受了。好吧,今天就到这啊,我是瑞小张,然后很多朋友说,哎呀,老张,那个你的那个会员怎么看呢?好多视频,还挺好,你看这两天我们 去上个星期我们说的这个,呃,夜冷是吧,这两天又变成热点了。那么,哎,关注一下我们的这个小 程序啊,我们小程序奥德豆豆与瑞克老张科补课啊,关注这小程序,这个小程序的话呢,我们是有那个会员专区的啊,那个我们那会员卡那放着,现在会员卡还有优惠啊,还有二十多个啊,那个年卡优惠一四九九啊,你们赶紧看,然后咱们的月卡呢?到春天春节那个这段时间,哎,我们给大家的最 好的限时的优惠啊,一百一十九,一百九十九的月卡,咱们一百一十九啊,如果需要可以赶紧看,赶紧看啊,因为这个咱们月卡跟年卡之间其实就是时间的不同,其他东西都一样,以前的所有的视频都能看,好不好啊?今天就到这,我是瑞小张,关注我,大家看中国科技的高度和温度,我们下期见,拜拜。

关于 deep sea v 四的核心洞察发布时间,二零二六年三月首周。这是一个战略级的时间节点选择。全国两会前夕,根据多方权威媒体报道, deep sea v 四将在二零二六年年三月三日至七日之间正式发布, 而辉度测试早在二月十一日就已经启动。这种预热加正式的双重节奏,既能通过真实用户场景验证技术稳定性,又能在政策窗口期获得最大声量技术突破的三个维度上下文革命的八倍跃迁从一百二十八 k 到一百万 token, 这不是简单的数字游戏, 这意味着法律文件可以整本上传,代码库可以全量分析,学术著作可以一次读完,在大海捞针测试中达到九十七的检测准确率,让长文本处理从能用升级到好用。编程能力的全球登顶。 s w h verite 八十三七的分数 首次让国产模型在硬核编程基础上超越 e p t 五二和 cloud opus 四点五。更重要的是,这不再是实验室里的成 三百三十八种编程语言支持数十万行代码一次性理解、全站工程自动化。这些都指向同一个趋势。 ai 正从编程辅助工具进化为开发团队核心成员 架构创新的成本重构。 mhc 流行约束超连接和 ingram 条件记忆两大技术将推理成本最高降低了九十。当 api 定价可能低至零点二七美元百万 toc 时, 企业月均使用成本可控制在千元以内。这彻底改变了刚性能等于高成本的行业铁律。战略转向从适配全球到国产优先,最值得玩味的是,硬件设备的逆转不再优先给英伟达、 amd 提供早期版本,而 是首选华为升腾、韩五 g 等国产芯片。这不仅是供应链多样化的全一之际,更是中国模型加中国算力生态闭环的主动布局。当华为升腾九一零 b 在 f p 八精度下算力密度达到 h 一 百的八十九,国产算力已经从能跑进化到跑得快,未来影响的三层联一。 第一层,开发者生态的爆发,低成本、高性能、多膜态的组合将催生一批新的应用形态。法律科技、金融分析、代码审查、账文档处理等垂直领域将迎来 ai 原生产品的密集诞生。 第二层,算力产业链的价值重估。韩五 g、 海光信息、中科曙光等国产算力企业将从替代选择升级为标准配置, 拓为信息、华坤阵雨、神州数码等深层服务器订单。第三层,全球 ai 格局的再平衡。 当中国企业在核心算法、工程效率、成本控制三重维度上实现突破,开源加低成本的路径,正在挑战闭源、高投入的西方范式。这不是简单的技术追赶,而是产业范式的一次重新定义。争议与风险。技术突破之外,也需冷静看待两个问题, 一是训练数据的透明度争议。 deepsea 二,一在自然发表论文时,数据来源仍面临质疑。二是开源生态的可持续性。 m i t 许可证虽然宽松,但如何平衡技术开放与商业变现仍是长期挑战。

春节后人工智能板块表现不佳,不过大家别着急,利好马上就要来了,现在有消息称 deepsea v 四快要推出了,今天这个视频就和大家唠唠 v 四对股市有哪些利好。简单来说, v 四相对于前代 v 三, 预计将是一次跨代季的重大升级,重点是四个方面,一是 v 四将原生支持多模态, 在生成复杂适量图形等任务上表现惊艳。二是超长上下文窗口从 v 三的一百二十八 tokens 直接拉升到一百万 tokens, 预示着大模型推理能力将显著提升。 三是 v 四将是一款万亿参数级别的巨型基础模型,规模远超 v 三,这将极大带动基于基础模型的应用创新。 四是 v 四的两个创新技术只在从算法和工程层面突破算力芯片与内存的瓶颈,进一步压缩训练和推理的成本,用技术创新弥补中国在半导体领域与美国的 待机差距。 v 四优先向华为等中国芯片供应商提前开放访问权限,是中国大模型首次优先适配国产芯片的战略转向。说白了就是 v 四 更倾向适配国产芯片,确保模型能在国产的算力平台上高效运行。最后,这点对中国人工智能发展极具战略意义。 此外,中国大模型在海外攻城掠地,全球最大的 ai 模型 api 聚合平台最新周度数据显示,平台前十模型总偷看量约八点七万亿, 其中中国模型独占五点三万亿,占比百分之六十一。而同期美国模型掉量是下降的, 编程和智能体正成为大模型的两大核心比拼点,当前 token 的 消耗呈现明显的通胀趋势, 随着国产模型的编程智能体能力提升,正带动中国算力出口快速增长,国内算力过剩的局面将会显著改善。未来当 v 四推出后,可以重点关注数据中心、半导体和 ai 应用等板块。

美国用三年时间围堵中国芯片, a 一 百、 h 一 百均被限制,高端 gpu 供应受控,连阉割版都要审批。他们本以为只要掐住 gpu, 中国 ai 就 难有一线突破,但最近 deepsea v 四的相关信息流出,让这套逻辑开始松动。百万 token 上下文能力性能对标 cloudy opus 的 顶级模型,更关键的是,首批适配华为芯片,而非英伟达。过去几年,中国 ai 最大的焦虑确实来自芯片。很多人默认没有最先进的 gpu 就 不可能跑出顶级模型,但现实正在发生变化。 deepsea 阿 e 通过算法优化和工程压缩,用远低于预期的训练成本,依然能打出 世界级效果。如果 v 四在国产芯片上跑出接近主流 g p u 的 表现,市场就必须重新评估全球算力格局。百万头肯上下文,意味着长文党、完整代码库、大规模合同等内容可以一次性处理。更重要的是,产业逻辑会被重构, 千亿美元堆出的 gpu 需求逻辑还会不会像过去那样牢不可破?因为它可能不会消失,但垄断溢价会被削落。差距从来都存在,但方向更重要。美国路径偏向资本密集与算力堆叠,但中国路径更强调工程优化与自主可控。 真正的转折从来不是喊口号,而是跑通一条可复制的路径。如果 deepsea 与华为的组合能够稳定落地,中国 ai 将从受限转向自建体系。真正的意义不在一款模型,而在方向。被封锁未必是终点,有时反而是重构规则的起点。