twitter 四本周就要正式发布了,我知道大家想问什么,他到底有多强?会不会又是狼来了今天这条视频呢?用四分钟的时间,把 v 四的真本事和对咱们国家 ai 未来的影响一次性给你讲透。先说记住,这一次的 v 四最大的突破不是简单的堆参数,而是换了一条路。 以前的大模型越大越聪明,但是呢,越容易学完,后面望前面。但是 v 四呢,用了两个黑科技,一个叫 mhc 流行约束,一个叫 ingrand 记忆模块。听不懂没关系,你只需要知道,它让模型在冲向万亿参数的同时,解决了灾难性遗忘的这个老大难问题。 更狠的是,它的上下文窗口直接拉到了一百万 tokins。 什么概念?三体三部曲一口气读完,还能帮你画一张降维打击的示意图出来。但真正让行业失眠的,是它的编程能力。 v 四在编程任务上的表现已经超越了 cloud 和 gpt 系列。一百万 tokins 的 长上下文,意味着它能一次性理解整个代码仓库几百个文件之间的依赖关系。看门清,那 以前的 ai 是 帮你写一行函数,现在呢,它能帮你重构整个老旧系统。什么叫 ai? 程序员的待机飞跃?那这就是答案。但如果你以为 v 四只是技术强,那就太小看它了。这次最大的杀招是它的生态策略。 v 四发布前, deepsea 做了一个史无前例的决定, 优先向华为、深腾等国产芯片开放给国内厂商数周的优先适配期,而英伟达和 amd, 抱歉,你得后面排队。 这意味着什么呢?意味着未来的游戏规则变了,不是芯片厂商定义模型怎么跑,而是顶尖模型倒逼芯片去适配。国 产芯片第一次有机会和世界级模型深度绑定,软硬一体,自主可控。那讲完技术,说点实在的,这东西对我们到底意味着什么呢?咱 们的基础软件、工业软件,比如操作系统、 cad、 eda, 跟国外呢?还有差距。为什么?因为那些软件呢,是人家几十年代码一点点堆出来的,我们想追,但是代码量太大,算法太复杂 不动。而 v 四来了之后,局面呢,可能会被改写。它的工程级代码理解能力,可以帮助工程师快速解析国外成熟软件的算法逻辑,甚至辅助生成国产替代的核心代码、操作系统的内核、工业软件的求解器。这些最难啃的骨头,现在有了一个超级助手。再看应用层, v 四延续了 deepsea 一 贯的高性价比路线,推理成本极低,意味着 ai 会从一个独立的 app 真正融化进我们每天都在用的软件里面。微信里面可能直接有个超级助理帮你处理工作, wps 里能一键生成复杂报表,甚至你刷的短视频背后的推荐算法都会更懂你。 过去呢,只有大厂玩得起 ai, 未来三线城市的创投团队也能用,这就是技术民主化的力量。当然,一个模型不能解决所有问题, 操作系统几十年的生态壁垒,工业软件背后的海量行业 no 号,不是一朝一夕能抹平的。但是 deepsea 微四的出现,证明了一件事,在算力受限的情况下,靠算法创新和工程优化,我们一样可以走出自己的路,它可能不是银弹,但是呢,它是一把火, 这把火点燃的是国产算力、国产软件、国产应用,全面突围的,希望本周发布,我们拭目以待。我是老朴,点赞中国科技。
粉丝16.6万获赞53.3万

兄弟们,今天二月二十七号, deepsea v 四正式进入发布倒计时,辉度测试代号 c o n light 已经外泄。上次 v 三发布,英伟达单日蒸发五千八百九十亿美元,这次 v 四三大黑科技全部提前泄露。今天我把这些料全摊给你,它到底颠覆的是什么?这次谁最该紧张? 讲 v 四之前,先把 v 三的基准线说清楚,因为不知道起点有多高,就感受不到 v 四突破有多狠。 v 三六百七十一亿参数的混合专家架构,激活参数只有三十七亿,效率极致。 推理成本每百万 token 只要零点一四美元, g p t 五点三要十五美元以上,差了一百倍。看右边这张成本对比图, v 三那根条有多短,竞品的条有多长,这就是 v 三答出来的价格体系。 v 三发布当天,英伟达蒸发近六千亿, v 四预计保持同样的成本优势,但性能要在跨一个档位。 v 四三大核心突破,全部来自已发表的研究论文,不是空穴来风。第一, ngram 条件记忆, 你看页面上这两个对比,就方式,找信息要逐个扫描,像翻书。 ngram 直接一步定位,查找效率从 o 嗯变成 o 一 规模无关速度恒定。一百万行代码查起来和查一百行一样快。第二, mhc 流行约束超连接, 简单说让多个专家同时处理同一段逻辑,跨文件推理能力提升百分之三百。以前 ai 改一个功能经常顾此失彼, v 四把这个问题在架构层彻底解决了。 第三, em token 上下文,你看下方那个容量对比, v 三是幺二八 k, v 四是 em, 整整八倍,换成实际场景二百页 pdf, 整个项目代码库一次性全色进去,它真的能读完再回答你。 来看最新数据, swbench verified, 这是衡量 ai 处理真实软件工程任务的精准。 g p t 五点三目前约百分之八十二, cloud opus 四点五是百分之八十点九。第一个突破百分之八十的模型 gemini 三 pro 是 百分之七十六点二。 v 四的预期区间是百分之九十以上,但单看跑分还不够,你看页面底部那行字, v 四的差异化不是分数最高,是分数最高的同时成本只有 g p t 五点三的十五分之一,这才是真正的降维顶级性能,加急低成本,这个组合目前没有对手 技术。聊完说你最关心的, v 四发布之后,你能直接用上什么?第一,整个项目代码库扔进去,直接问 e m tokin, 大 概是十万行代码,你把整个项目丢给他,问这个 bug 的 根音在哪,他真的看完了,不是假装。第二,二百页行业报告一次性分析完, 季报、招股书,竞品调研,不用再分段位,直接出结论。第三, mit 开源私有部署零障碍,企业数据不出,网络金融、医疗政务客户直接本地跑,合规没问题。 顺带提一下, v 四发布前把优先适配权给了华为升腾,国产芯片加国产模型的闭环生态正在成型。这个话题太大,下期单独一期。 记住这句话, deep seek 每次发布不只是在发布一个模型,是在重新定价整个 ai 行业。 v 三让全球 ai 价格体系崩了一遍。 v 四如果三大黑科技全部兑现,会再崩一遍, 而每次崩受益的是你每个普通用户,每个享用 ai 提效的人。如果你觉得今天内容有收获,欢迎点赞关注,点关注不迷路,下期见!

deepsea 啊,又发新论文了,而且这篇新论文啊,也是由梁文峰署名的,一般有老板署名就是说,哎,比较重要,而且很多人说这篇论文很可能就是即将推出的 deepsea v 四的新架构。那今天的视频我们来解决两个问题,第一,这篇论文说了什么?第二,这篇论文对我们普通人的意义又是什么呢?我们开始, 首先我们要来看这篇论文的研究背景, ai 呢,会浪费很多算力,就比如说你问他亚里山大大帝是谁, 那他呢,就需要先理解你的问题,然后激活记忆,再去推理组合。最后呢,给你生成一个回答,这就像你问我二乘二等于几, 那按照我的常识,我会直接说,四,我根本就不用算嘛。但如果是 ai, 他 没有这个常识的记忆,他就得从头去推理二加二到底等于多少,他为什么等于四?这样的问题,其实也是目前 ai 界 最常用的模型的一个弊端。这个模型呢,叫做 m o e, 翻译为混合专家模型,像 deepsea, jimmy night 还有 kimi 的 一些模型啊,其实都是用这个原理做的,它本身呢,是遵循于 tencent 架构的,这种架构呢,它缺乏用于知识查找的原生机制。那么为了解决刚说的问题呢, deepsea 团队联合北大就 推出了一种叫做 engram 的 新模块,它的逻辑非常天才,就是给 ai 增加一个条件记忆维度。经过这个优化呢, ai 以后干活就分两步走。首先啊,简单的尝试跟固定搭配, ai 呢,会直接去查表,到了需要复杂逻辑推理的时候, ai 才会真正调用自己的大脑,也就是把原先我们强大的 m o e 来结合 ngram 形成智能的双重支柱。那你的问题可能就要来了,这个表是怎么查的?这个记忆我又怎么加呢? ok, 我 们来看一下。图上呢就是 ngram 的 架构图,我来做了一次拆解,大家可以看到最下面这一行实际上是我输入的一个语料。 ngram 会先自以来进行一个处理,它通过哈希的快速定位, 直接去字典里面去查询有没有这样的词意,它的词意查完之后呢,会经过一个门控,这个门控你可以把它理解为是一个智能检查站,它会对比这个字典查来的知识啊,跟当下的背景是否匹配,这个当下背景呢?是从这里 来加进去的,如果我查到的知识跟当下的背景不匹配,它就会关闸,那么这个知识就不会影响后续的逻辑推理。然后呢,我们可以看到左侧的这个整体写作,去读懂长句。第三步, m o e 才是真正进行逻辑推理的一个地方,即 ai 怎么知道什么时候应该去开这个门,什么时候应该关这个门呢?论文中提到的一个原理是给 ai 装上了一个可以自动调节的阀门,研究人员就告诉 ai, 如果你查出来的资料对答这个题有帮助,你就把阀门拧大,没帮助呢,你就把阀门拧小,把答案丢掉。然后我们来了第二个问题, 就是 m o e 跟 ingram 它是如何搭配跟组合的呢?如果呢,我们把模型的消耗预算全都给到 m o e, 模型就会忙着重构知识,它的效率会变得很低。如 如果呢,我们把预算全都给他 ngram, 那 么模型就会缺乏思考能力,他会变笨,毕竟他只会查字典嘛。然后呢,研究人员就发现了一个完美的 u 型曲线,大概呢,是从整体预算中给到 ngram 百分之二十到百分之二十五的这样的比例,可以让整体模型达到最优。这其实也就说明了, ngram 这个记忆模块它并不是多余的, 它是真的可以提高一个模型的质量的。那前面你说的原理,我们来看一下结果本身 ngram 这个模块提出的一开始是希望去优化处理知识密集型任务的,这个问题当然是通 通用推理代码跟数学,其实也达到了一个很好的提高效果。那为什么这个优势可以做到呢?就是因为这样的新架构解放了 ai 的 大脑,可以让 ai 呢,不再需要在底层知识上去浪费自己的体力跟算力,这样之后, ai 就 可以全神贯注地去处理更加复杂的问题了。第二个优势就是这样处理之后, 模型变得更加省钱省力了,因为 engram 们他把巨大的记忆库都存在了,普通的内存只在用的时候稍微抓一下,这样呢,其实几乎就不会占用宝贵的显存,也不会拖慢整体模型的速度。前面呢,我们讲完论文的原理, 最后呢,我们来说一下这篇论文对于普通人的意义,那毕竟模型呢,都是要给人用的嘛。而 engram 的 最大贡献呢,就是让 ai 分 清了背诵跟思考, ai 呢,由此会变得更加聪明,实现了全方位的智力进化。另外啊,像之前 ai 可能会关注太多局部细节而忽略大局的逻辑,而现在用了 engram 这样的模块, ai 呢,可以释放重力,带宽就可以使得整体逻辑更加准确。第三,当然就是更便宜啦,未来的 ai 会更博学,而且价格也更低,甚至呢,可能在普通的设备上也能够流畅的运行。第四呢,就是 ai 还会变得更加迅速。 总的来说, deepsea 这篇论文确实是一个非常具有里程碑意义式的大跃进,非常让人期待 deepsea v 四上线后会有什么样优异的表现。静待二月吧,估计二月就发了。好,我是铃铛铛,我们下次再学点别的。

老师,中国 ai 在 憋什么大招?这次真的不一样! deepsea 微四下周正式登场,见证历史的时刻又要到了。 如果你觉得 ai 已经没有什么新鲜的了,那一定要看完这条视频。这次 deepsea 玩的不是跟随,而是彻底的换赛道超车是中国 ai 从硬件追赶转向架构创新的标志性事件。给大家拆解一下 deepsea 微四的三大核心突破点,你就知道为什么我说这是中国 ai 的 历史性时刻。第一, 技术路线彻底变了。 v 四是原生态多模态大模型突破文本局限,实现图像视频文本跨模态生成与理解,内侧显示 svg 图像质量已经超过了 v 三点二四考模型。最关键的是, deepsea 重构了底层架构,不再跟着西方划定的路线走,这是中国团队在底层技术上的原创突破。 第二,国产芯片战略突围。以往的 ai 大 模型都得先适配英伟达芯片,拿到早期的优化权限才能跑得胜。但 deepsea v 四打破了行业惯例, 优先适配国产芯片推理环节,全跑在国产芯片上。这意味着中国 ai 不 再被英伟打翘脖子,国产算力芯片终于有了真正的用武之地,而且成本杀疯了,同样的任务比海外的竞品便宜五十倍,这直接倒闭,全球的 ai 商业模型 重新洗牌。第三,发布时间大有深意,为什么选在下周?懂得多懂,这不是巧合,这是中国 ai 向世界展示硬实力权,降条突破啊!弯道超车正在变为现实。把最近的国际局势和 deepsea 微四放在一起看,你会发现,旧霸权靠战争维系,新力量靠科技崛起。一边是战火,一边是代码, 两条截然不同的路。而中国在 ai、 芯片、新能源、高端制造上的持续突破,证明我们选择的路是走对了,发展才是硬道理,科技才是第一竞争力。

我跟你讲啊,这个深度求索 deepsea 微四要来了,这一次啊,直接让美国的英伟达这些顶级的芯片公司坐了一次冷板凳啊。 因为呢,有业内人士透露啊, deepsea 微四的版本在现在的预览发布阶段,直接跳过了英伟达和 amd 等美国的这些 ai 芯片公司,而让国内的华为、韩五 g 等厂商提前至少两到三周进场来进行深度的适配。 这个为什么这么重要呢?以前呢,都是国产的人工智能啊,追着英伟达的模型去跑啊,人家出了一个模型呢,我们的国产模型就赶紧去跟进。 而现在呢,轮到了我们的国产的模型,在我们国产的芯片上去提前预热了。而且根据预测啊,国产的芯片的软硬件性能效率飙升之后的话,算力的利用率将从百分之六十提升到百分之八十五, 部署的成本呢,砍到了英伟达方案的三分之一。所以啊,这不光是一个大模型的升级,更是我们国产算力的一次商业突破呀。 另外呢, deepsea v 四作为一个多模态的模型,支持图片、视频和文本的生成,而且关键在于说,通过国产芯片的适配,它在华为的升腾、韩五 g 等芯片上面跑出来了,高效率推理的成本大幅度的降低。 而之前呢,有消息透露的测试就已经显示了, v 四在代码优化和视觉还原上的表现非常惊艳。所以这就证明了,国产芯片不光能够接得住我们的国产大模型,而且能够超预期地跑出点火花来。 所以啊, deepsea 这一次呢,是在全世界的面前放了一颗亮亮的信号弹,明确地表示,我们的国产大模型可以完全抛弃掉英伟达的 ai 芯片。 而在过去的一段时间里面呢,总有人表示啊,如果说 ai 离开了英伟达的芯片,那么 ai 就 玩不出什么花样。而现在呢,我们国产的 ai 芯片用实力去打脸了。而且啊,这次我们还让外媒给盯上了,他们就表示呢,这说明国产的芯片和大模型很有可能会一起联手走向一个新的生态闭环。 所以啊,这就已经不再是一个追赶的游戏了,而是我们中国 ai 定规则的开端。今年的年初呢,中国大模型的掉油量已经碾压了美国,全球前五大的模型当中,中国占据了四席。 而为了实现这一点呢,很重要的原因就是模型加芯片的自主闭环,国产芯片从低端市场突围,现在更是直接卡位了 ai 大 模型所需要的高端算力。所以啊,之前英伟达一家独大不可战胜的神话,似乎啊,已经完全被动摇了。 国产芯片厂商硬钢英伟达其实是一场不动声色却又波澜壮阔的革命啊。所以说,真的啊,国产芯片的时代真的要来了,你们同意吗?别忘了点点关注,文案内容来自我们公司自研的科研 asv 体,科研 asv 体,打造有价值的自媒体。

据可靠消息, deepsea 将在本周发布 v 四。据金融时报报道, deepsea 这次绕开了英伟达,没有向全球芯片巨头提供 v 四的早期接入权限。 过去,任何一个顶级大模型发布前,都会先跟英伟达做性能优化。这一次, deepsea 打破了 ai 行业长期以来的惯例。 deepsea 用 v 四告诉全世界,我们不挑芯片,也能做出世界一流的模型。英伟达虽然在训练阶段芯片上占据主导地位,但在推理阶段, v 四可能已经实现了国产芯片的全面适配。 推理环节是大模型商业化落地最核心的一环,这一环节突破意义非常重大。 过去, deepsea 模型写代码一流,做推理一绝,但图像和视频能力一直是短板。但 v 四是一个原生多模态模型,能够同时理解和生成图片、视频和文本。 如今,威斯不仅在模型能力上更进一步,更在芯片层面发出了国产替代的明确信号。这无疑向世界宣布,中国 ai 不 只是在追赶,还在重新定义规则。著名投资者马克安德森称, deep sec 为我见过的最令人惊叹和印象深刻的突破之一。 如果 v 四发布后的精准测试再次验证其效率优势,用更少的计算资源达到世界一流水平,华尔街投资人最恐惧的问题将浮出水面。 如果一家中国公司用十分之一的成本就能做出同等水平的模型,那美国科技巨头每年花费数百亿美元用来基础设施投资还值得吗?英伟达的高端 gpu 还会有那么大的需求吗?想必全世界都在等这个答案,让我们一起拭目以待。

哈喽,大家好,欢迎收听我们的播客。然后今天呢,我们要聊的呢是这个 deepsea v 四这个多模态的大模型 马上要发布了,而且呢它是深度适配了华为和韩五 g 的 这些国产的芯片。我们会在今天的节目当中给大家聊一聊这个 v 四到底有哪些升级的地方,尤其是在多模态和对国产算力的这个适配上面。我们会再聊一聊背后的一些技术的提升啊,是哪几个技术提升带来了这样的效率的提升。 最后呢,我们也会给大家聊一聊这个东西的发布,对于整个产业链,包括对于投资可能会带来什么样的影响。 ok, 那 我们就开始今天的内容吧。我们先来聊第一个部分啊,就是这个 v 四的这个亮点揭秘啊,多模态和这个国产算力的适配升级。 咱们先问第一个问题啊,就是这个 deepsea v 四在多模态方面到底有哪些突破性的表现?这个 v 四它最大的一个特点就是它是原生的,支持文本、图像和视频的 多模态的输入和输出,就是它把这三个东西在底层就打通了。对,它不再是说像以前一样,你要靠一些外挂的东西把它拼在一起,对,它是真正的一体化的。哦,那这个确实是比 比那种拼拼凑凑的方式要强多了。对,没错,然后它在这个图片加文字的这种联合的处理上面是非常强的,你无论是做这种 ui 的 设计稿转代码,还是做这种复杂的分析,它的准确率都是比 g p t 五三 codex 要高的, 它甚至可以做到根据一段描述直接生成高清的图像或者视频,它的这个上下文的窗口可以支持到一百万 tokens, 所以 它可以处理非常非常长的这种 输入,而且它的这个多模态的应用场景就非常非常的广泛了。然后这个新的这个模型在跟咱们国产芯片的适配上面有哪些具体的进展?这个它这次是专门跟华为的升腾还有韩五 g 还有海光它们几件做了深度的适配。 然后他的这个适配率啊,在常用的这些国产的芯片上面都可以达到百分之八十五以上,就非常非常高了。这个就已经是那这个实际运行起来效果怎么样?在升腾九一零 b 上面的话,他的这个推理速度可以达到八十托克斯每秒, 然后他的这个显存的占用也减少了百分之六十,他的这个整体的成本是使用英美达的方案的三分之一,甚至可以更低, 所以这个就是真正的让企业可以大规模的去使用这种国产的算力,而不需要再依赖进口的这种高端的芯片了。那就是说这个 deepsea 微四到底给行业和社会带来了哪些真正的价值呢? 就这个模型他跟我们国产的芯片做了深度的适配之后,就可以让政企、金融制造这些关键的行业彻底的摆脱对国外的这种硬件和算法的依赖,然后 数据的安全和自主可控就大大提升了。那对于一些比较小的公司呢,或者说一些创新型的团队呢,就是因为它的这个推理的成本降低到了 g p t 四的十分之一以下, 所以就是说中小公司也可以用得起这种高级的 ai 了,然后创业门槛也大幅的降低了,就是这个整个的国产的这个 ai 产业链的竞争力和想象空间也被打开了。我们接下来就聊一聊这个技术底牌啊,就是这个 v 四到底是靠哪些技术 大幅的提升了效率?对,那我想这里面就不得不提的就是这个 ingram 这个条件记忆架构到底它带来了哪些具体的性能上的变化?这个其实就像是给这个大模型外挂了一个超大容量的,而且是高速的这种知识库,就是它把这个大部分的这种静态的知识都存到了这个 呃便宜的内存里面,然后让这个 gpu 可以 专注地去做这个推理,所以就是说它的这个硬件的压力就小了很多,所以说就是说这个模型的这个反应速度和这个内存的使用都有很大的提升。没错没错,就是它这个呃 十亿参数的这种大模型,你也可以在普通的消费级的显卡上面去运行了,然后他的这个推理的成本也下降了九成,这个查找的速度也几乎是不随这个知识库的大小而变化的。对,就是他可以支持这种非常大的上下文的这种任务,也会非常的稳。 它的这个在这种长文本的这种测试里面,它的准确率是比同类的这种模型要高出来一大截的。然后呢这个 mhc 这个流行约束超连接,这又是个什么黑科技?它到底给这个模型带来了哪些具体的提升?这个技术其实它就是一种 高速公路的这种机制啊,就是他可以让这个信息在这个深度网络里面可以非常高效的去穿梭,嗯,然后他也可以自动的去防止这个信号变得过大,或者是说这个训练变得不稳定,所以他就是让这个模型可以非常稳定的去学习到非常复杂的一些关系, 听上去就像是给这个模型的这个大脑加装了一个稳定器,没错没错,而且他不光是这个呃跨文件的这种推理的能力是翻了三倍,他的这个 训练的过程也更加的平稳,然后他的这个对算力的利用也更加的充分,他可以把这个硬件的这个潜能都压榨出来。嗯,是模型的这个准确率和实用性都是有大幅的跃升的。 这个所谓的双轴稀疏架构和这个深度的国产芯片的适配,这又给我们带来了哪些具体的性能和实用性上面的变化呢?这个双轴稀疏架构呢?其实他就是,嗯把这个模型的这个静态的记忆 和这个动态的计算啊分得更清楚。嗯,然后他会让这个模型在做这个推理的时候啊,只激活他真正需要的那一小部分的参数,所以他的这个效率会更高, 同时呢他的这个能耗也会下降非常的明显啊。嗯,他的这个训练的能耗是可以降到原来的三分之一,嗯,推理的速度是可以比这个 传统的这种稠密的模型要快两倍以上,听起来对于实际应用来说,这个效果应该很直观,没错,而且他跟这个国产的芯片做了深度的适配之后啊,嗯,这个算力的利用率是可以飙到百分之八十五以上, 就是他的这个推理的成本是可以压到这个国际上的这种主流的大模型的七十分之一啊,就他既可以省钱,然后又可以让这个本地的部署啊,包括这个产业的落地啊,都变得容易了非常多。 咱们来来到第三个主题啊,咱们来聊一聊这个 v 四的发布,到底给这个产业链带来什么样的资本的震动。首先第一个问题啊,就是这个大模型的升级,到底是怎么 让这个国产的这个算力的生态一下子就破局了?这个我觉得就是以前大家做这种大模型的适配,都是先把英伟达的那一套弄好了,然后再考虑国产芯片。但是这次呢,这个 deepsea v 四,它是一开始就在国产的平台上做的底层的优化, 就他的这个算子啊,包括他的这个推理框架,都是为了华为的升腾含五 g 的 思源这些芯片量身定做的,所以他的这个效率是可以直接提升几倍甚至几十倍的啊,这个 就直接把这个国产算力的这个性能天花板就给打开了,这听上去已经不只是技术突破了,感觉像是产业格局的重塑。对,因为以前就是大家虽然说有这个大模型去协同,所以你始终是一个配角, 但是现在就是相当于这个旗舰的大模型跟你这个国产的芯片深度绑定之后,你这个算力的利用率一下子从百分之六十提升到了百分之八十五以上。然后呢,这个企业的部署成本一下子就减少了将近三分之一, 大家也不用再去等这个英伟达的那一套了,就可以直接去推动这个硬件和这个模型一起去升级,就彻底的把这个主动权就掌握在了自己手里。就是说这个 deepsea v 四的发布,具体会让产业链上哪些公司最先尝到甜头?最直接的就是芯片端,就是华为的升腾, 还有这个韩五 g, 还有海光信息这几个就是大家的这个订单和出货量都是跟着飙升的,然后包括这个思源的这个五百九十,还有这个 d c u 这一些 就是国产的这个高端的芯片在多模态推理上面性能也是翻了几倍。服务器和这个硬件层面的服务器的话,就是整机的厂商,像华坤振宇,然后还有这个拓维信息, 还有这个神舟数码,他们都是这个出货量大幅增长。那当然这个配套的这个零部件,像这个高速的连接器光模块,还有这个液冷散热 这些也是跟着一起量价齐升的。软件端的话就是这个软通动力,还有这个金山办公,还有这个科大讯飞, 他们都是在这个大模型和行业应用的融合上面是收益非常明显的。就是说这个 deepsea v 四的发布到底给这个整个资本市场带来什么样的新的变化,就是这个国产的这个算力产业链,因为这个消息就是全面爆发嘛, 就从这个芯片到服务器到这个应用这一条龙的,这个龙头公司的股价都是大幅上涨,然后大家的这个订单和业绩都是有很明显的提升, 这整个板块都被带动起来了,这会不会彻底改变国内的这个 ai 投资的格局呢?完全会啊,就之前大家都是围着这个英伟大转嘛,现在大家就是说国产的这个算力的公司变成了主角,然后大家的这个资金和这个技术都在往这个 本土的这个生态去聚拢。所以大家就是说这个自主可控和生态的卡位会成为接下来几年的一个新的主线,所以就会有很多的投资机会不断地涌现出来。对,今天我们聊了这个 deepsea 微四的这个多摩态的能力,聊了他对国产算力的这个推动, 然后聊了他可能会带来的一些产业和投资的机会。那其实说白了,这一波升级它不仅仅是技术的进步,它更是中国的 ai 产业在主权和生态上面的一次全新的洗牌。 所以说这个东西到底能不能够真的去重定义这个 ai 的 边界,我们其实是可以期待一下的。好了,那么这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见。拜拜。

关于 deep sea v 四的核心洞察发布时间,二零二六年三月首周。这是一个战略级的时间节点选择。全国两会前夕,根据多方权威媒体报道, deep sea v 四将在二零二六年年三月三日至七日之间正式发布, 而辉度测试早在二月十一日就已经启动。这种预热加正式的双重节奏,既能通过真实用户场景验证技术稳定性,又能在政策窗口期获得最大声量技术突破的三个维度上下文革命的八倍跃迁从一百二十八 k 到一百万 token, 这不是简单的数字游戏, 这意味着法律文件可以整本上传,代码库可以全量分析,学术著作可以一次读完,在大海捞针测试中达到九十七的检测准确率,让长文本处理从能用升级到好用。编程能力的全球登顶。 s w h verite 八十三七的分数 首次让国产模型在硬核编程基础上超越 e p t 五二和 cloud opus 四点五。更重要的是,这不再是实验室里的成 三百三十八种编程语言支持数十万行代码一次性理解、全站工程自动化。这些都指向同一个趋势。 ai 正从编程辅助工具进化为开发团队核心成员 架构创新的成本重构。 mhc 流行约束超连接和 ingram 条件记忆两大技术将推理成本最高降低了九十。当 api 定价可能低至零点二七美元百万 toc 时, 企业月均使用成本可控制在千元以内。这彻底改变了刚性能等于高成本的行业铁律。战略转向从适配全球到国产优先,最值得玩味的是,硬件设备的逆转不再优先给英伟达、 amd 提供早期版本,而 是首选华为升腾、韩五 g 等国产芯片。这不仅是供应链多样化的全一之际,更是中国模型加中国算力生态闭环的主动布局。当华为升腾九一零 b 在 f p 八精度下算力密度达到 h 一 百的八十九,国产算力已经从能跑进化到跑得快,未来影响的三层联一。 第一层,开发者生态的爆发,低成本、高性能、多膜态的组合将催生一批新的应用形态。法律科技、金融分析、代码审查、账文档处理等垂直领域将迎来 ai 原生产品的密集诞生。 第二层,算力产业链的价值重估。韩五 g、 海光信息、中科曙光等国产算力企业将从替代选择升级为标准配置, 拓为信息、华坤阵雨、神州数码等深层服务器订单。第三层,全球 ai 格局的再平衡。 当中国企业在核心算法、工程效率、成本控制三重维度上实现突破,开源加低成本的路径,正在挑战闭源、高投入的西方范式。这不是简单的技术追赶,而是产业范式的一次重新定义。争议与风险。技术突破之外,也需冷静看待两个问题, 一是训练数据的透明度争议。 deepsea 二,一在自然发表论文时,数据来源仍面临质疑。二是开源生态的可持续性。 m i t 许可证虽然宽松,但如何平衡技术开放与商业变现仍是长期挑战。

当整个 ai 圈还在为千亿参数模型的算力消耗叫苦不迭时, deepsea v 四抛出了一枚重磅炸弹。 万亿总参数加三百二十亿激活参数的末混合专家架构,直接改写了大模型的发展规则,这背后是对传统稠密模型的根本性颠覆。过去大模型陷入 参数竞赛的死循环,要提升性能就必须扩大参数量。但筹密模型每次推理都要激活全部参数, 导致计算成本延迟与参数量呈限性增长。训练一个千亿参数筹密模型需要数千张 a 一 零零 gpu 运行数月,单条推理请求的算理消耗堪比普通用户一年的用电总量。而末架构的核心魔法在于 吸出激活,将模型拆分为数百个独立的专家网络,通过门控网络动态选择与当前任务最相关的一到二个专家参与计算。就像医院的专科门诊, 感冒无需惊动外科专家。 deep c v 四的万亿参数是全科医疗资源库,而三百二十亿激活参数是 对症的专科团队。这种设计让它的总餐数量达到 g p t 四的五倍以上,实际计算量却仅为传统稠密模型的三分之一, 推理效率提升三倍以上。更关键的是, deepsea v 四采用了二零二六年最新的流行约束超连接 m h c 门控技术,让专家匹配精度提升百分之四十,彻底解决了早期某模型专家闲置的负荷均衡难题。 这意味着它的万亿参数不是虚有其表的数字,而是真正能被高效调用的潜在智慧。如果说末架构是效率革命, 那么一百万 tucker 上下文窗口加原生多模态,则让大模型的能力边界实现了次元突破。先看一组震撼的数据, 一百万 tok 相当于七百五十万字的巨著,是 g p t 四上下文窗口的二十倍,足以容纳整部红楼梦加三国演义的文本量,或是十小时的会议录音,转写 一千页的科研论文、完整的工业设计图纸集,这背后攻克了三大技术难关。计算复杂度突破。通过分块处理与注意力缓存技术, 将 transformer 的 o n 平方复杂度优化为近似线性,避免了百万级叙略所需的 r t b 显存占用。长距离依赖建模。采用动态位置编码与关键信息铆定机制, 让模型能精准关联五百亿前的细节,解决了长文本处理中的信息衰减问题。数据训练创新构建了全球首个百万 tok 级高质量语料库,含盖学术、工业、医疗等领域, 确保模型在超长文本场景下的连贯性与准确性。而原生多模态则彻底告别了 文本加图像的简单拼接。 deep c v 四的多模态能力从预训练阶段就深度融合文本、图像、音频、视频、数据共享同一套专家网络,能够理解图表中的数据趋势加报告中的文字结论 加演示视频中的场景细节,真正实现了跨模态场景重构。例如,它能直接解析一段包含实验视频数据表格、论文、论文的科研资料,自动生成完整的实验复盘报告, 这是传统多模态模型无法企及的高度。 deepsea v 四的技术突破正在引发全产业链的连锁反应,其核心影响在于 高性能与低成本的结偶。对于企业用户而言,最直观的改变是成本革命。根据 deep speed mod 的 实测数据, 同等性能下, mod 模型的训练成本降低五倍,推理成本降低九倍。这意味着中小企业无需再为使用大模型支付天价 a p i 费用,百万滔滔的长文档分析成本从数千元降至百元起。工业场景中 ai 质检、 设备运维等实时性要求高的任务,可通过端测部署梦模型实现毫秒级响应,功耗降低百分之四十。科研机构能以极低成本处理基因组学、 天体物理等领域的超长系列数据,加速前沿研究进程。具体到落地场景, 三大变更已经显现,办公领域处理一千页的合同文本,自动提取关键条款、识别风险点,效率提升十倍。医疗行业整合患者完整病 历、文字影像检验数据,生成个性化诊疗方案,解决多元数据割裂问题。工业制造解析整套设备图纸加运维、日制 加实时传感器数据,预测故障风险,并给出维修指导,停机时间缩短百分之五十。更重要的是, deepsea v 四宣布优先向华为等国内供应商开放测试, 推动算力与模型的自主可控。这意味着中国 ai 产业将在某架构的赛道上实现换道超车,无需重复传统稠密模型的算力依赖,直接进入效率驱动的发展新阶段。 deepsea v 四的发布,标志着大模型从参数均被禁赛, 进入效率革命时代。其核心启示在于,模型的强大不在于参数多少,而在于参数的利用效率。当万亿参数可以被三百二十亿激活,参数高效驱动,当百万 token 上下文成为标配。当原生多模态打破数据壁垒, 大模型将真正从实验室工具走向普惠性基础设施。未来我们可能会看到,单侧 ai 设备搭载轻量化梦模型,实现离线处理超长文本与多模态数据。行业大模型的训练成本降至现在的十分之一, 每个吸粉领域都能拥有专属的高性能模型,跨领域协调成为常态。 ai 能同时处理法律文档、工程图纸、医疗影像等多类型数据,成为真正的通用智能助手。当然,挑战依然存在, 百万滔氣场景的推理延迟优化、多模态数据的隐私保护、行业及专家网络的定制化开发都是需要持续攻克的难题。但不可否认的是, deepsea v 四已经为大模型的发展指明了方向,效率才是 ai 规模化落地的核心密码。 当技术的翻离被打破,大 ai 的 能力与成本达到平衡,一个万物智能的新时代正在加速到来。

每日三条重磅!二零二六年三月四日第一条, deepsea v 四旗舰版将于三月下旬推出。这款大模型支持百万级上下文处理, 在长文本理解、多模态交互、复杂逻辑推理等方面拔到国际第一梯队水平。 deepsea v 四优先适配华为、升腾、韩五 g 等国产芯片,推理端已实现纯国产算力部署,降低企业部署与使用成本, 提升国产 ai 生态的自主可控。第二条,华为今日发布鸿蒙智界智行全站解决方案,一托鸿蒙生态,实现车机交互、车云协调一体化,感知精度达到厘米级, 决策响应速度缩短至两百毫秒内,比人类刹车反应快一倍以上,座舱操作时延低于五十毫秒, 流畅无感,行车安全防护覆盖全场景,高速与城区拥堵路况,可实现更稳定的智能辅助驾驶,降低驾驶疲劳与事故风险。第三条,昨夜美股三大指数涨跌分化,国际贵金属跳水, 黄金大跌,原油大幅上涨。国内成品油调价窗口将于三月九日二十四时开启,预计器柴油每吨上调一百九十到两百五十元,折合每升涨零点一五到零点二零元。关注我,投资心中有数!

朋友们,你敢相信吗? deepsea 微四要来了!这次不光性能炸裂,最关键的是,它直接绕开了英伟达芯片,优先适配咱们自己的国产算力,尤其是华为的芯片。 消息一出,美国慌了,整个科技圈都沸腾了。以前几乎所有做人工智能的公司,发布新模型前,都要先找英伟达帮忙调优,因为全球百分之九十以上的 ai 训练都依赖它的高端显卡。可这次, deepsea 没走老路, 而是把手批测试机会给了国产芯片厂商。这不只是换个合作对象那么简单,而是一个强烈的信号,我们不再被卡脖子了。 过去几年,中国 ai 最大的痛点就是芯片,美国一直禁令不让卖 a 一 百、 h 一 百这些顶级芯片,连阉割板都要严加管控。他们的想法很直接,只要掐住算力,中国 ai 就 永远追不上。很多人一度也信了,但中国人有个特点,越是被逼到墙角,越能激发出创造力。你不让我用,我就自己造一个更好的。 还记得去年的 deepsea 二一吗?用极低的成本干出了世界级的效果,直接让英伟达股价一天暴跌百分之十七,市值蒸发近六千亿美元,那是第一季重拳。现在 v 四来了,而且和华为联手。 据提前流出的消息,它有两个版本,小的约两千亿参数,大的高达一点四万亿参数,上下文窗口更是达到惊人的一百万字, 相当于一整本红楼梦,扔进去他也能一口气读完,理解透。更厉害的是,他原生支持图像、文字等多种信息一起推理,能力直追国际顶尖模型。最让人振奋的是,已经有国内服务商拿到了测试权限,效果好到藏不住, 据说完整版一周内就会上线。如果 v 四真如传言所说那么强,那就不只是技术突破,更是一次战略翻身。全球每年花几千亿美元买英伟达芯片的逻辑可能要被重新审视了。 不是说英伟达会倒下,而是他的唯一选择地位正在被打破。中国 ai 走的不是堆钱堆芯片的路,而是靠极致优化、工程巧思和自主创新。 deepsea 加华为如果真跑通了这条路,就意味着我们彻底撕掉了芯片卡脖子的标签。 历史告诉我们,封锁从来挡不住进步,反而会催生更强的自立。今天的中国 ai 正站在真正独立自主的起点上。 你觉得这次 deepsea 微四能不能成为国产 ai 的 高光时刻,让我们彻底摆脱芯片限制?欢迎在评论区聊聊你的看法。我是率先在全球提出硅基生命与硅基文明的硅基智能创始人司马华鹏,关注我,每天传播正能量,带你解锁更多硬核科技!

deepseek v 四这波发布,从目前流出的信息看,确实够得上登顶这个说法,但它的意义不只是在技术榜单上刷个高分。我对它的定义是,这是一个既有面子又有理子的战略级全能选手, 是中国 ai 从单打独斗转向生态自主的标杆。第一看面子,技术上补齐了最大短板, 之前的 deepsea 强在文字和推理,但像个偏科天才。 v 四最大的进化是原生多模态,一出生就能看懂图,看懂视频,还能直接生成不再是外挂的插件,加上一百万透坑的上下文,它能一口气处理超长视频或者整本小说, 这个吞食量意味着他能处理更复杂的逻辑任务,把高智商变成了全感知。第二,看李子,战略上打破了行业惯例,这次最狠的一招是没有优先给英伟达送测,反而让华为、韩五 g 这些国产芯片提前 适配。以前都是国外芯片定义模型能力,现在是国产模型,给国产芯片为数据做优化,这是要构建中国芯片加中国模型的闭环生态,让国产算力不再是备胎, 应用场景直接炸开。一、极致的代码与设计辅助,爆料说它生成 svg 矢量图非常强,程序员直接画 ui, 工程师出草图, 一句话的是,这是生产力工具的革命。二、影视与内容创作。以前做视频分析要拆真,现在他能直接理解,剪辑师找素材做粗剪,效率会大幅提升。 三、企业级数据分析,百万上下文能直接吞下财报会议视频,结合数据进行推理,做投资分析会非常实用。简单说, deepsea v 四不仅是秀肌肉,更是宣告国产 ai 不 仅能打,还要自己搭台唱戏。

你俩论文谁抄的?谁的啊?咋可能,我是用 deepsea 写的。我去,我也是啊,你们咋不用知网写出稿啊?打开知网点,高级剪索论文主题,关键词就填在这里,筛选近五年内的文献,在需要的参考文献前面打勾, 在导出和分析这里选中查询理论格式,复制到剪切版,然后再扔给 deepsea, 让他给你写一段研究思路。 打开这个工具,写上题目和研究思路,然后选中技术要求和学校的模板,刚才的参考文件也粘贴进来,就会生成一个大纲,在需要图表的地方就点击这里速导不就有了,而且内容也是根据你的参考文件来的。

别掐脖子,等了整整一年,憋出终极王炸,直接干到全球第一,把 g p t 按在身后,中国大模型今天正式站起来了!这条新闻的价值,怎么强调都不过分。二月二十八号,深度球所正式官宣, deepsea v 四下周登场。 这不是一次普通更新,是中国大模型第一次在核心能力上登顶全球第一,是真正意义上从跟跑到领跑的历史性跨越。从此, ai 不 再是海外巨头的专属游戏。 知识点来了,我给你把王炸拆的明明白白。第一,编程能力全球第一,权威精准 s w e v 去 verify 拿下百分之八十三点七,直接超越 g p t。 五点二,成为全球第一个登顶的国产大模型, 支持三百三十八种语言,啃大型代码库如喝水。第二,上下文突破一百万头啃,是上一代八倍,精准度百分之九十八点二,一本书扔进去,细节给你扣的明明白白。 第三,全新架构,杀疯成本,推理成本低至 gpt 的 七十分之一,企业每月只需千元,普通电脑五分钟本地部署。第四,捉魔肽封神 design, 二扣的准确率百分之九十二,超 gpt 五点三,七个点设计图,一键变代码,彻底解放生产力。 最让人热泪盈眶的是,它彻底解决了卡脖子。 deepx v 四,深度适配升腾,含五 g, 适配率百分之八十五,在华为升腾上优化后,速度暴涨三十五倍。 这意味着我们终于实现国产模型加国产芯片的完整闭环,再也不用看别人脸色,再也不怕断工,不怕限制,不怕卡脖子,我直接给你做最强对比,优越感、拉满 比性能,它编程全球第一,比成本,它只有 g、 p、 t 的 七十分之一。比部署,它五分钟本地跑起来,比安全,它百分百国产自主,比适配,它完美支持中国芯片。一句话,海外模型有的,它更强,海外模型没有的,它全给你补上! 这不是追赶,这是降维打击!我直接给出最强预判, deepsea v 四一发布,中国 ai 应用生态直接进入爆发期,低成本、高性能、全自主,将彻底引爆千行百业! 中国大模型将从全球舞台的边缘直接站到 c 位!这件事值得每一个中国人深度思考。真正的强大,从来不是喊口号,而是默默攻关,死磕技术,做到世界第一。今天,我们能告别卡脖子,是因为有人。

最近几天 deepsea 梁文峰团队在 github 上发布了 ingram 新的一个架构革命,可以说这个 ingram 是 人工智能继全是 former 这种架构之后的又一次划时代的革命。 它主要是把静态知识直接塞进内存,这样 ai 大 模型在需要静态知识的时候,它可以不要经过神经网络学习去推理,也不需要去 欲训练,你只要把这些静态的常识的知识,我们毕竟大部分的是静态常识的知识,对不对?需要推理的那毕竟是少部分,这一部分他把它拿出来就近放到存储上面。 当这个大模型需要这些知识的时候,像之前都需要去推理,每次都需要去大量的推理,而且有的还要事情要去训练,这些都是常识知识,没必要经这么复杂,直接 在就像给你装了一个知识库,一个外挂一样的,他直接在上面拿取就好了,需要的时候就拿取,于是就可以把很多的算力给省下来了,你知道吧? 这个厉害之处就在于说将来省下的算力他效率就更高,他可以集中精力去做推理,做预算。当你需要这种常识的这些数据的时候,就在你的外挂的知识库上去获取。 关于静态知识放到就近的内存里面的这种跨时代这种架构,它对存储意味着什么你知道吧?它可太有利于存储,现在这个市场进一步的爆发之前全是 form 这种架构之下 需要大量的存储, gpu 需要做推理的时候到存储里面去获取,用完以后再把这些数据再送出去,所以来回倒腾, 它要耗费很多的 talk, 浪费很多的这个效率很不划算,因为 gpu 的 算率很昂贵,但是你运输来回传输数据,你等于 gpu 是 闲置的,要浪费掉了,对不对? 所以在模型训练当中,你的 gpu 要不断的去用最先进的 gpu, 但是你的存储这块,这个效率你没有跟上来,但是现在英国人这种技术你不需要那么麻烦了,他把大量的这些知识,这些数据直接就近存储的 内存里面,当你 ai 需要这些常识的东西,你就过来直接就拿取好了,不需要经过那么繁琐的推理,也更不需要之前去做那些预训练动作,所以等于是在把大量宝贵的 gpu 给节省下来,集中精力去做你的推理好了。 柠檬,所以这样一来就意味着什么?意味着将来一方面不需要那么多 gpu 了, gpu 的 重要性要开始大大的下降了,但是存储的重要性就在原来那种需求上又进一步的爆发出来了,因为它需要更多的存储, 你明白我的意思吗?也就是说 deepsea 微四这个模型推出来,它主要是在架构上面啊,做了一次新的一次革命,就是 ingram 这种记忆机制推出来之后,它会促使存储需求进一步的爆炸, 等于是在原来存储就缺乏,原来存储就非常紧张,供需非常紧张的情况下,供不应求的情况下,又进一步火上浇油,现在的存储市场等于是烈火烹油,所以你看你要不要做存储啊?存储 这一趟列车,你真的可以上车了。好,再见,就是这么触手可及。