粉丝231.5万获赞1.2亿

ai 的 重磅消息来了!刚刚 deepsea 的 联合创始人发布了一条关于 deepsea v 四大模型发布的一个时间将定在二月十六号,也就是我们今年的春节。各位,这跟去年发布的时间一样, 会不会重新再引爆一轮 ai 浪潮?话说这 dpc 已经落后了,我感觉现在用起来是比较笨,那他会不会憋一手大的呢?让我们拭目以待。

大家好,二零二五年一月,差不多就是去年的这个时候, dipsek r one 版本横空出世,立刻震撼了美国硅谷和华尔街, 英伟达的股价一天之内暴跌百分之十七,这个影响是非常的大,直接把中美两国人工智能大模型竞赛的差距,从落后美国两到三年的时间呢,直接拉近到了落后两到三个月的时间。 当时不只是美国硅谷人工智能企业的惊魂夜,更是全球 ai 格局重新洗牌的开始。 那是我们记忆当中,中国 ai 第一次用开源两个字,而且用极致性价比把硅谷的臂源直接撞出了一个缺口。时隔一年,我在描述这个 过程的时候呢,现在想想也绝对不夸张,过去一年,中国科技股能够不断的上涨,很大程度上呢,也是源自于中国的 dipsec 时刻对资本的强烈震撼,对很多朋友的信心的提升。 而如今整整一年过去了,很多人问 deep sec 是不行了吗?怎么没有更新版本呢?当然我们知道做 it 的都懂, deep sec 在这个过程当中,其实发表了很多论文,也更新了很多的代码库 啊,这个过程当中包括底层的图片呀,这个上下文长文本的算法呀,其实有很多贡献那,只不过呢,到现在没有出现第二次像去年一月份那样震撼硅谷,震撼华尔街,引发全球关注的重磅时刻。那于是乎呢,很多人在期待眼下 dbc 的新动作。于是乎,一月二十一号的凌晨, deepsick 的 gave up 的仓库当中啊,这个大家如果做过 it 的都懂啊, gave up 的是开源仓库,就是他的代码,就是放在这个开源平台上的。 然后 dbc 可做了一次悄无声息的一个重要的更新,没有发布会,没有 ppt, 甚至也没有任何一条官方所宣发的推文。 但是这一次的更新,看似平静的开元周里面,敏感的开发者通过数万行的代码的深处, 挖到了一个可能再度引发全球科技界高度关注的神秘的标示符,这个字符就是 model one m o d e l。 那什么是 model one 呢?我们今天这期节目就带着大家 穿透 dbc 的代码底层,去触碰这样一个被忽略的,或者说呢,被外界所看到。美国英伟达哎 gpu 引发全球关注时刻所掩盖的中美两国人工智能竞赛最残酷的物理底层的真相。 这不仅仅关乎于所谓的硅芯片啊,更关乎于电子,不仅关乎于算力的战争,而是关乎于中美两国人工智能的未来发展的博弈。 dbc 可官方在 get up 上更名的一系列名为 flash m l a 的代码库,这是他们在二零二六年开元周所打出的第一枪。 表面上看,这是一个针对 hop hop gpu 架构优化的内存访问库啊,你其实也不用理解太多,你就知道这是一个 算法,这是一个软件更新,对吧?技术性比较强,因为底层算法和我们平时讲的上层代码编写,哎呀,改一改图片,改一改颜色,改一改字符的大小,那是完全两个性质,这是非常底层的非常算法性的更新, 技术性强,很枯燥对不对?但是呢,我前面讲了很多的程序员呢,下载了 get get up 上面的原代码之后,就发现里面所藏的魔鬼细节, 在涉及的一百一十四个核心代码文件当中,有眼尖的开发者就发现了其中反复出现的从未公开过的型号的代码 model one。 我们知道以前呢,这个 deep seek 呢,他的代码代码命名呀,都是有呃有这个脉络和传承的,比如说 v 三版本,我们 熟悉的 v 三点二呀, v 三点一呀, v 二版本啊,等等等等啊,那么这一次呢,通通不是完全命名规则完全改变,他被并行的列到了一个全新的分支当中。 根据我们所看到的 dbc 内部初步的测试的数据,这个 model y 在极度复杂的逻辑推理和编程任务上展现出了惊人的统治力。 那你想想看,如果说二零二五年的 r one 版本让世界看到中国大模型的可能性和性价比,那么这个 model one 极有可能就是 dipsyk 为二零二六年所准备的核武库, 那么或许他就是传闻已久的 deepsick v 四版本,或者我们称之为叫做 r one 版本之后的 r two 版本的完整完整的这个 啊,代码库,或叫做完整的大模型。那如果说从去年过年到今年过年,我们讲的过年前后,在这个一月份的时间段之内推出跨跨越一年的周期呢,这倒是一个比较好的时间点。 更有意思的是,我们注意到 dbc, 可最近呢,所发表的两篇非常硬核的技术论文,一篇是关于优化残差连接叫 m h c 啊,很多朋友可能未必了解啊。另一篇呢,是更为科幻感的人工智能 ai 记忆模块,叫做 in gram, 那你想想看,这两个呢,都是关于非常底层的大模型算法,而且很多是原创。我们得来聊一聊这个有科幻馆科幻感的叫人工智能记忆模块 in gram。 这个是 dipsec 联合北京大学 所发布的重磅成果,其中也出现了这个 deep seek 的老板啊,梁文芬的名字。这篇论文当中呢, 其实戳中了目前市场上中美以及全世界大模型领域最著名的、应用最广泛的开源的架构 transfram 的一个死穴。 什么此学呢?就是现在最广泛应用的大模型架构,他的记性不好,而且检索所消耗的成本太高,简单的说就是太贵,而且呢,容易忘事情。什么叫容易忘事情呀?就是我们让他处理一个任务,对吧?如果文本太长 啊,那么大模型我们知道,比如说以后的人形机器人,对吧?哎,你和他相处,相处了一天两天还好,相处了一个星期,一个月之后呢,他就把你之前的事情都忘 忘记了,那你想想看,这能相处吗?对不对?很多东西都得重新再来啊。我们现在和人相处呃,和我们的同学,时隔三年,五年,十年,二十年过往的事情,一些激动人心的时刻,依旧会记忆犹新,对不对?这是我们人类的一个记忆的能力。 但是呢,大模型目前中美和全世界应用最广泛的当然是基于这个啊, transform 架构的,它的问题最核心的就是记不住东西,记性不好啊,而且成本很高啊,这个解锁起来呢,这个价格很贵啊,消耗太多的电力和 token, 那么你想想看, 这个东西本身也是需要解决的啊,解决不是通过简单的堆叠,所谓的暴力出奇迹,堆叠 gpu 算力,而是怎么样呀?要通过底层的算法,底层的结构啊, 进行原创。我们讲了这么多,解释这么多,实际上这就是这一次梁文峰带队所发表的这篇技术论文,英国人们的这个架构人工智能记忆模块,他所要解决的问题。 目前的 ai, 我们讲每聊一句话,都要把前前面的上下文重新的算一遍,就像是一个换了 阿尔兹海默症的天才,虽然你是天才,但是呢,你老是记不住,对吧?前脚忘拿个东西,后脚就忘了,你每次问他一个问题,他都要重新把所有的事情从头再来搞一遍 啊。那么这个呢,就第一是很慢,第二我前面讲了非常的烧钱啊,非常的费电啊。 deepsick 所提出的英国 m 的这个记忆模块呢,它实际上是是做什么呀?它是模仿我们人类大脑的海马体的机制,而它不再是通过暴力计算,而是进行 所谓的条件记忆啊,这就是底层的科技创新了啊,我们这个现在很多东西,你包括很多飞机、战斗机,你看现在这个很多人说中国的第六代战机就是没模仿了,一种鸟 啊,一头鸟,包括他的嘴巴呀,还有他的翅膀的形状啊,这个叫仿生啊,实际上是非常重要的啊,在这个数亿年间,人类包括生物界,大自然的演化过程当中,积累了非常非常多的, 这应该说是成果啊,走到今天,所以大自然的仿生非常厉害。那么我们讲这个记忆啊,未来的人工智能机器人,他怎么记忆呢?哎,现在呢,这个 dbc 公司,他所推出的最新的 in gram 模块啊,就是模仿人类大脑的海马体啊,进行条件记忆啊,这样呢,就不用消耗太多的力量,太多的成本。你想我们人 人类记住以前几十年前的事情,对吧?当然是一些重要的时刻,我们也大脑里面消耗的能量是很低的,但你现在一个,呃,比如讲大模型,一个机器,对吧?他的福气,那你要消费耗费太多的电力,才能记住很久以前的东西。那么这个呢,我们再说一下 dipsec 这次所推出的这个记忆模块呢,其实也说明了 dipsec 在二零二六年的整个打法可能发生了根本性的变化。 如果说前两年是在拼所谓谁的模模型更聪明,那么从今年开始,梁文峰和他的团队正在拼所谓谁的模型更省电,更高效,更能榨干每一滴的油水,这背后有着雄厚的资本意志。 我们看看最新的上海证券所发布的数据换方量化,也就是 dibsick 背后的金主 爸爸哈,二零二五年的收益均值达到了恐怖的百分之五十六点五五,管理的规模呢,超过七百亿。 另一家巨头这个所得到的啊,这个投资的收益率呢,也是来到了百分之七十三点五一啊,这个公司叫做啊,均零均投资,这意味着什么呢?意味着 deep seek 他是不缺钱的,他有足够的弹药去堆算力。但是问题点就在意在于,既然不缺钱,为什么 deepsick 还要发疯一样的去搞 flash, m l a 这种极致的代码优化,底层算法优化呢? 为什么要在显存分配当中去抠抠搜搜,要把每一个字节的传输效率提升到小数点后面的三位数呢?因为他们比谁都清楚,当下中国人工智能产业发展前面 最核心的关卡最高的那一堵墙已经不仅仅是啊,美国的商务部的禁令,也不仅仅是拿不到所谓 h 一百, h 两百, b 两百芯片等等等等, 而是真正的强是物理世界,美国当下的解决方案,他即便是把全世界所有的天然气、石油什么分店、水电全用完,还不够机器人用的,也就是说这是不可持续的, 美国目前在人工智能的这个解决方案,过度消耗我们人类的资源是不可持续的。 明,大家知道我的意思吗?目前性价比最高的记忆模式,真的就是我们生物界演化了上亿年的,甚至数亿年的记忆模式,比如说我们人类和一些动物的记忆,对吧?它会形成一种 这个消耗我们大脑用电,你想想看,那几乎没什么电吧?这个电流啊,是非常非常的低的,对吧?这个神经信号呀,它本质也是一种能量嘛,对不对?那么这个东西本身呢,是目前用我们现在的科学手段要去解决的问题。 美国当下不是我们说拿不到美国的芯片,所以我们才会做这个努力,而是即便是我们拿到所有的美国的芯片,即便是美国自己,他目前的技术方案呢,他也难以跨越物理世界的这样一个高强,因为他消耗太多的能源。 那么说到这里呢,就引出我们今天的一个啊,另一个重要的主题方向,就是一个被英伟达 gpu, 英伟达股价不断上涨等等所掩盖的中美两国人工智能最残酷的物理的真相。过去两年,每当我们谈论中 为两国的人工智能的差距,目光总是聚焦在所谓算力鸿沟上面,我们会说 open ai 有十万张的, h 两百, ah 一百,我们只有几千张,因为达到库达的生态护城河很深,我们的国产的这个啊,这个 gpu 呢,还在追赶等等, 上面这些讲的呢,都没有错啊,但是我们看待一个问题,我们要站在更高的纬度,不能够仅仅就事论事, 如果你的视野只停留在显卡 gpu 上面,那实际上就是被当下的特别是美国硅谷华尔街的叙事呢给带偏了。就在所有人的眼睛都盯在所谓硅芯片的时候呢, 大洋彼岸的华尔街的精英和硅谷门,正在因为所谓电子,也就是电力的问题,电力的短缺,电力的基础设施而陷入非 非常的深的焦虑。微软 ceo 纳德拉在最近的财报会上,语气已经不再像两年前如此那般的从容。 特斯拉的马斯克,他最近发表了一个长达三个小时的演讲,对话更是直言不讳,他警告说留给旧世界的时间只剩两千天。虽然有些危言耸听,但是呢,他们给出的逻辑我觉得也是有一定的道理,原因是什么呢? 因为显卡已经不再是唯一的瓶颈,真正的人类迈向未来的所谓归机世界,或叫做机器人人工智能世界的瓶颈呢,正在变成所谓的机瓦 gw 级别的电力 和那些能够承载惊人热量的数据中心,而这背后呢,都是能源的转变。那么这里呢,有一组来自全球 顶级投行的最新的估算数据,大家可以来看一看,这个数据呢,有多么的惊悚。到二零三零年,中国人工智能发展所需要的电力的增量,仅相当于过去五年中国新增发电发电能力的百分之一和百分之五,大家注意这个数字啊,到二零三零年,也就是 四五年之后吧,我们讲五年之后吧,中国 ai 发展需要的电力只相当于中国未来五年增长电力的个位数百分之一到百分之五。那么作为对比,我们来看,同一个时间段之内,美国人工智能按照现在的发展的模式,他所需要的电力的增量呢, 要占据美国发展的新的发电能力的百分之五十到百分之七十。请问各位朋友,你觉得这不是一个巨大的瓶颈吗?你怎么可能 美国的新增的发电能力的百分之五十到七十通通给人工智能呢?你美国其他地方难道不用电了吗?不发展了吗?对不对?不可能吧,所以这个很清楚的,而中国呢,是个位数百分之一到百分之五,那么这个就是什么意思呢?就是说在物理世界当中 啊,那你电力,你没电,你怎么解决问题呢?这其实很大程度上是一个降维打击,所以我们在对比中美两国人工智能产业发展的时候呢,也不要总说 gpu 啊,光客机我们落后啊,我们这个好像就输了,这个东西本身呢,就是只见树木不见森林了, 对吧?管中汇报只能看到局部啊,没有看到整体。中国的电网就像是一个蓄满水的巨型水库,过去五年呢,中国疯狂的造分店,光伏、水电、核电等等,二零二三年 一年中国新增的发电装机的容量呢,就是四百二十九级瓦,美国是多少呢?五十一级瓦,中国是美国发电的这个八倍之多 啊。而且我们看到最新的规划,中国未来几年呢,要在电力电网建设上的投资四万亿人民币,这个规模是非常大的,为什么要做这件事情啊?很清楚嘛,这就是对未来的就是总体规划,他这个需求嘛,对吧?所以这不仅仅是一个 所谓的数字的问题啊,这是一个工业能力的鸿沟。当 dpc 格或者华为想要在我们大西北某省部署一些新的万卡集群的时候呢, 国家电网就会说, ok, 特高压线路已经准备好了,这电呢,马上就送到,但是我们看到美国的 openai, 对吧?奥特曼在美国四处游说, 声称要融七万亿美元来重购芯片的产业链的时候,他的内心当中并没有说因为英伟达的芯片供应不上或是成本问题,对吧?即便是你有了这七万亿的所谓的芯片,你在美国这片土地上,你到底要到哪里把这些芯片给接上电呢? 在美国弗吉尼亚州的数据中心走廊,那是全球互联网的心脏地带,哎,美国相关的电力公司已经无数次的警告,数据中心的建设必须慢下来,原因很简单,再建下去啊,老百姓就别用电了,电都被你们给吃光了。 书店瓶颈被卡死,变压器要等三年才能到货,环保审批要要拖到你这四五年时间啊,等等等等等等,这一切其实都是基础设施的瓶颈, 所以我们看到了这个微软公司呢,自己主动要去买核电站,亚马逊呢要去核能源区建数据中心,谷歌呢,要去搞地热,哼!不是因为他们多么的热爱环保, 主要问题是这些科技公司,他们手上有非常巨额的资金,但是他们没有美国的公共电网的支撑,因为美国自身的电也是极为有限,速度很慢,所以这些科技公司反正有钱就开始进行所谓去中心化的自救,自己来建电力基础设施。 但是这个成本,这个效率,你怎么可能和中国的国家电网对吧?一盘棋,从大西北到中国的东南、华南、华北等等,那你怎么可能有这样的效率呢?这个大家都知道,规模就是效率,对吧? ok, 说到这里呢,有些朋友可能会觉得,那听你这么一说,肯定就稳了呀, 对吧?那这一局中国就赢定了呀,啊?有电吗?对不对?他美国没电不就输了吗?但是这也不是故事的全部,我想呢,我们用这个最残酷的这个啊这个词汇来形容当下的局势呢,也并不为过。 虽然我们拥有世界上最充沛最廉价的电力,但在人工智能这场战争当中,中国也面临着同样的尴尬,甚至是可以说是同样面临着致命的效率的黑洞。 这就是什么呢?这就是我前面说到中美两国都在使用当下的 transform 这样的一个 ai 的大模型架构,它本质上呢就是难以为继的, 就说你按照这个模式本身继续发展下去的话,你就是中国,你再能发电,你再牛,你把全世界的电都给发了,你还是不够这个机器他去用的。 那这就是问题啊,对不对?这表示什么呢?表示我们可能走错了路啊,走错了路,或者说我们可能有更好的路,更好的方案去解决。 这就要回到半导体物理学的基本常识,目前美国最顶级的 ai 芯片呢,比如英伟达的 b 两百呀, gb 两百呀,用的是台机电最先进的四纳米、三纳米和两纳米的工艺。而我们呢,众所周知,我们这个芯片的制成被封锁,中国目前主流的 ai 的国产芯片呢, 不得不停留在七纳米啊,有些呢,多重曝光可能等效五纳米的芯片上。那个制成的落后呢, 不仅仅意味着你的算力可能会低,更意味着你的能效比呢,也是比较低。在微观的物理层面,晶体管越小,驱动他所需要的电压就越低,电子的漏电率的控制呢,就 越好。那反之呢,如果我们为了落后之城上堆出同样的算力工程师,就必须堆叠更多的新晶体管的面积,哎,拉高频率,这就意味着发热和能耗的指数级的上升。 最近一些非常扎心的场景模拟,我们看到比如说华为所推出的基于国产芯片的啊,这个呃,算力集群和英伟达的 gb 两百集群的对比, 结论就是要在同样的算力输出上对标英伟达国产系统消耗的能源是美国对手的二点五倍,甚至在某些极端的大模型的训练场景之下高达四点一倍, 这是什么概念呢?这是可怕的陈述效应。那么比如说我们来算一笔账,这笔账可能会颠覆大家对中国电费便宜的认知。 假如美国的工业用电平均成本是每千瓦时零点一二美元,那么中国依靠能源优势把成本压到零点零八美元,这已经不得了了。我们的发电是美国比他便宜百分之三十三,这个已经是在电网发电能力方面已经把这个成本压缩到极致了, 对不对?但是呢,如果你在国产芯片上去跑这样的 dbc 的模型呢?你需要消耗二点五倍的电力,那么最终呢,你生成一个 tok, 或者每训练一个参数,中国电力成本实际上是美国的一点四倍, 那这个又是一个问题,除了 transform 架构本身的问题,这个成本呢,又是一个问题。所以这就是我前面所说的叫做残酷的真相。即使我们的电网里面流淌着世界上最充沛的电子,但由于终端转 换设备芯片的能效瓶颈,这些宝贵的电子呢,在转换为智能的过程中,被大量的热销耗白白的浪费掉了, 对吧?那我们首先把这个问题先给大家讲明白,说清楚,然后呢,有问题咱就解决问题吧,对吧?这个科技的进步每次都是这样对不对?克服困难,解决问题啊!这就解释为什么 迪布斯可等中国的大模型公司要像发了疯一样的去搞 flash m l a, 那这样的底层的效率算法,去搞所谓的英国人们这样的记忆模块,去抠每一个代码的内存的占用 啊,这个东西本身不仅仅是要优化速度,很大程度上呢,在为人类面临未来的 ai 的时代呢,在进行可行性方案的探索和创新。 在硬件能效笔被锁死的情况下,软件算法的极致优化不再仅只是锦锦上添花,而是雪中送炭。 dbc 是在用软件的智商去弥补硬件的代差,用精妙的算法去对抗物理世界的残酷 啊,这是一个现实。梁文峰和他的团队很清楚,如果我们不把计算效率给提上去,那么就算国家电网给再多的电,我们也只是在制造全球最大的暖气片,算力中心发热啊,全变成热能消耗出去啊,并不是所谓的最强大脑。 讲到这里呢,我们看清楚了这样一个效率黑洞,我们就能够看懂现在中美两国截然不同的战略打法。这是一场从点到面的较量。美国的打法呢,就是单点突, 分布式突围啊,他们最锋利的毛,因为达到最先进的芯片,他们的策略是继续把芯片做强,把能效比做到极致。面对拉胯的电网巨头们,绕过国家的基建能力,自己来搞核核电的这个发电基地, 自己来搞所谓小型化、模块化的核电反应堆。这是一种典型的美国是个人英雄主义,靠技术天才和资本巨鳄来解决问题。而中国的打法呢,是系统级的碾压,全战士的对冲。 既然我的单点芯片我不如你,那我就用整个系统来压倒你。你看这个华为,哎,不仅仅在卖升腾芯片,他在卖什么呢?卖数字能源?你看 dbc, 他不仅仅在搞模型,他还在做什么呢?他在做 flash、 m、 l a, 做底层 的通信库的重购,各种算法的优化创新。中国的逻辑是,虽然我的费芯片费电,但我可以通过特高压把西部哎这些非常便宜的风能、光能、光能给输送过来。 我可以通过液冷技术把数据中心的能效转化,转化率压到一点一以下,我可以通过精妙的算法创新来减少一半以上的无效计算。那很大程度上呢,这是中美两国的一场田记赛马 啊,大家可能可能会说,那日本呢?那欧洲呢?俄罗斯呢?韩国呢?在这个领域基本上没他们什么事啊。这个我把话讲到这里,包括印度也一样。 那么所谓田机赛马,美国人的做法是,上等的马是芯片,下等的马呢?是美国的基础设施,国家电网。 中国的田径赛马是什么呢?中等的马是芯片啊,中国的算力芯片并不差,华为的这个芯片啊,等等的,在全世界来说的话,那也是中上等的,这没有问题,只是说你和英伟打比目前,呃,是有差距,这是客观的。那中国的上等的马是什么呢?是我们这么多年的辛辛苦苦的克高压的 这个效率极致化的国家电网。这个你也不得不承认。我们客观的说,那中国还有一个上等的码是什么呢?是系统工程 啊,我们前面讲了一大堆啊,比如说极致的液冷技术对吧?还有中国大西北的分能、光能等等,然后通过国家特高压电网的传输技术啊 等等,再通过像 dbsco 这样的公司进行的极致的算法优化、效率优化的创新技术,这是我们的一个系统工程,你可以理解为啊,上下左右全 供应链一盘棋,而美国是个人英雄主义,大家各凭本事搞创新。在这场博弈当中, dipsyk 扮演的角色就是让那一个中等的马要跑出上等马速度的一个骑尸, dipsyk 就是这样的一个骑士啊,骑马的师傅呀。 这就是为什么我们开头讲的叫做 model one, 这个模型的曝光如此的重要。如果 d 不是一个真的通过架构创新,比如说 incream 的记忆模块,把大模型的推理成本降低一个数量级,那么中国在芯片能效上的劣劣势就会瞬间被抹平,甚至有可能会实现反超。 那么讲到这里的话呢,我们不妨把视线拉长,看一看这场战争中美的芯片,这个,这个啊,人工智能的竞赛,他的中局可能的模式,虽然中美当下打的不可开, 但是全世界呢?说句实在话,很多国家呢,也渴望搞一搞人工智能,沙特呀,巴西呀,东南亚等等都渴望。那么到二零二七年,二零二八年,这些国家想要建立自己的 ai 数据中心的时候,可能会面临两个选择,第一个选择使用美国的模式, 就是花大价钱买英伟达的 h 两百 h 三百的芯片,前提是美国商务部,商务部批准,买回来之后呢,他会发现自己的国家电网根本带不动。 那么另外呢,还得想办法去搞定发电的问题,然后自己去建昂贵的液冷设施的问题,然后还要忍受漫长的交付周期的问题, 对于很多基础设施建设薄弱的国家来说,很大程度上美国模式根本上很难推广,甚至可以说是不可承受之重,哎, 你有最好的锅,但你没有米,没有柴火,没有厨房,你做不了。那么这里呢,我就要说第二个选择,这些国家可能会看看中国模式,中国模式给出了一整套的解决方案,我不是说 不仅仅要卖给你所谓的算力中心服务器,这个呢,能效比可能比美国要差一点,但是呢,算力结果上来说可用,哎,我还打包卖给你什么呢? 一片一这个几瓦级别的光伏电站, ok? 中国新能源解决方向,铺上一套宁德时代的巨型的储能电池系统, 对吧?你晚上的时候,哎,这个什么一些电没有太阳能了,我就把白天的电存起来,晚上用,对不对?然后呢,我这个发洪水的时候,那那水电多,东南亚水电特别多,对吧?然后呢,我把电存起来了, 然后用,对不对?然后另一个一整套的华为的全液冷的数据中心的基础设施的建设方案,再加上 dbc 这种极致优化的开源软件等等,那么形成一整套的解决方案。 那么这个呢,是不仅是要卖铲子了,是要把矿山、运矿的车啊,提炼的厂一起打包给卖出去。这就像我们当下在东南亚,在南美,在这个非洲,我们不仅是说 去做了一个工业园区,一个工厂,我们把工业园区的自来水给建好,我们把工业园区的道路给铺好,我们把工业园区的电网给架好啊,我们呢,甚至呢,把你整个港口直接和工业园区呢连接起来,这个是中国基建的真正的魅力,为什么南方国家愿意和中国搞一带一路 不合作呢?对吧?你说你光去咔,去挖矿,其他不管,那,那你这个国家,你那没有用呀,对不对?所以在沿一带一路的沿线的这个国家呢?呃,这种绿色能源、数字基建加高效算法的组合,其实在未来会展现出非常强的竞争力,所以很多时候我们不需要妄自菲薄。 美国或许在芯片最颠最尖端的方面拥有无可比拟的竞争力,但中国正在掌握把算力落地为物理现实的完整的产业链。这两者之间,你如果是一个相对没有那么发达的国家,你说你会选择哪一个呢?所以我说呀,这场游戏啊,才刚刚开始, 我们回到开头啊。一月二十二号 deepsick 的 model one 的曝光,很多人只看到了一个新模型啊,在我看来,这几行代码代表的是中 中国 ai 产业在意识到物理瓶颈之后所发出的最新的这个创新的怒吼,也标志着中国 ai 正在从单纯的追赶参数转向深度的计算生态的重构 啊。这个东西不仅关乎于我能不能拿到什么先进的芯片,他关乎于在未来的现实的物理世界。那中国为这个世界提供的解决方案到底是什么? 美国焦虑的是啊,没有米下锅,他们有最好的炉子,但是没有柴火。中国焦虑的是柴火有了,嘿,有米,有炉子,但是我这个柴火的利用率, 对吧?那所以呢,这两种焦虑本身呢,将会塑造未来十年中美两个超级大国的科技术的走向。那作为观察者呢,我们要看到这一些区别,那么 对于我们无论是投资还是一些把握未来的机会呢,我想就能够看得更为清楚,中美两国可以说是各有优势,在这里面呢,我们既不能够因为我们有强大的电网设施就认为我们稳超胜券,也不能因为我们算芯片不如别人呢,就妄自为菲薄 啊。所以呢,我们今天借着这个话题, deep seek 最新的 model one 的这个模型呢,我们为大家做上述这些分享, 反正在这个归波与波鬼云绝的啊,二零二六年呢,让我们继续关注这样一场关关决定人类未来的物理战争,这一仗呀,其实才刚刚开始,后续的走势我们持续的为大家做观察。

中国人工智能领域的霸主之争正愈演愈烈,科技巨头字节跳动和阿里巴巴集团都准备在二月中旬的农历新年假期前后发布各自的下一代旗舰人工智能模型,这可能是中国科技领域影响最为深远的一场较量。 据两位知情人士透露,字节跳动计划下个月发布三款全新的人工智能模型,旗舰级大型语言模型豆堡二点零图像生成模型 cds two。 而阿里巴巴计划在同一假期期间推出新一代旗舰级人工智能模型,这些模型具备强大的数学和编程能力。 此外,该公司还计划在假期期间大力推广其面向消费者的宽人工智能应用,以挑战字节跳动旗下广受欢迎的聊天机器人逗宝。 据早些时候的消息, deepsea 预计于除夕夜发布 deepsea 微视模型。这场高级玩家之间的竞争可能会影响中国十四亿人口在未来几年如何在日常生活的各个方面使用人工智能,而获胜者还可能控制中国的人工智能云市场。

deepseek 计划于二月中旬推出新一代旗舰 ai 模型 d e e p s e k v 四,该模型搭载全新架构,有望大幅提升写代码能力。近期, deepseek 在 github 平台上更新了一系列 flashmla 代码,其中出现了此前未公开的 model 标识符,引发了业界热议。 deepseek 的 研究团队此前已连续发布两篇技术论文,极受生物学启发的 ai 记忆模块。 根据开发者分析, model 一 与现有模型 v 三二在关键技术上存在明显差异,主要体现在键值缓存布局、稀疏性处理方式及对 f p 八数据格式的支持等方面。 c i t a t i o n 二这些技术核心只在解决模型运行中的内存占用与计算效率问题,为模型性能提升奠基基础。业内人士猜测,即将发布的 d e e p s e k v 四 或将整合这些最新研究成果,进一步增强 ai 模型在复杂任务处理中的表现。随着 deep seek 持续推动技术创新,这款新模型的上线备受期待,或将引领 ai 领域的新变革。

大家好啊,就在昨天, diffic 又发模型了,而且古代的一个很详细的论文啊,它发布了新一代的这个大语言视觉模型啊,叫做 diffic ocr 二啊,你记得几个月之前,他发过一个 ocr, 那 么这个是 ocr 二, 它是在升级版啊,而且呢,它发了同步的论文,这不仅是 ocr 技术的迭代,更是视觉编码从固定格式扫描向与因果推理的一次跃迁啊。而 且在相关的基本测试中,它以百分之九十一点零九的综合准确率刷新了相关的榜单,叫前代呢,提升了百分之三点七三,已经大幅领先 欧美其他的这些 ocr 的 模型啊,更重要,它用了一个让 ai 具备人类的阅读逻辑,而非简单的文字扫描。这个事咱们先解决什么叫 ocr, 你 们记得那个扫描仪吗? 扫描仪把那个纸放进去,或者把图片放进去,把它夸夸夸,把里面东西转成文字啊,这个东西的过程就叫 ocr, 就 把图片上的东西转成文字啊。所以他发的这个模型呢,不是 v 四,他发的模型依然是一个图形的解决模型,但这个模型的话呢,唯一的点就是说他让 ai 做了阅读逻辑,而不是以前的竹行的去扫描啊,以前的那个模型的话呢,长期依赖的这个编码器就是 c l i p 啊,这种编码器, 它就是光山扫描的顺序处理图像就是咵,扫出来发现这个东西一次是文字把它提炼出来啊,就从左上到右下,竹行呢,来 一行一行的来切分图像为固定的这样的一个一个行,然后强行将二维图像降为一维区域,忙扫,并不是这个里面有什么栏目布局,就直接把文字提炼出来,有什么样的标序什么的都不用管,段落也不管啊,甚至表格也不管啊,乱序的只要文字都提炼出来。是这样的一个东西, 这个 o c r, 它这个模型精妙在哪呢?它用了一个叫做 devin connor 这样的 v 二这样一个架构,然后这个架构用 l l m t 在 c l a p, 它实际上就让大模型自己去理解,它不用那个编码器了,用大模型就去开源相关的大模型作为这个编码的骨 啊,用重编码器而轻解码器的这个方式,将语言模型的因果推理能力注入视觉处理流程,这是一个。另外一个,他又做了一个因果查询机制,他那里面引入因果查询,通过独立的注意力机制演码策略实现两级的推理。一个全感知层,就是 把整个的东西呢感知做一遍啊,就把整个这张图上的所有东西他都理解一遍。另外一个是因果逻辑,他要推理每个部分之间是什么样一个关系啊,每个查询只能关注前面的,不能关注 其他的,他把这个因果逻辑弄明白,那这样打磨星就知道了啊。这张图上到底谁跟谁是什么关系?我是不是要给你做个表格啊?我是不是要这样留出段落,我是不是要这空格啊?他这样的最终产生的是一个非常类似于原本这样文字这样一个 o c r 结果啊, 淘汰结果,而且他在做动态的语气排语序排列,他根据大模型对这事理解,最后还是要去叫,对啊,而且呢,更关键的是什么?他在保持高精度的同时控制着计算成本? 他视觉 token 的 数量控制在多少呢?二百五十六到一千一百二十之间,也就是最多他就一千个左右的 token。 然后呢,跟那个 jimmy 三 pro 相当,但是它的规模参数呢?只是三 b 啊, jimmy 三 pro 是 多么庞大一个概念,而且它通过混合专家模式来实现的,所以在实际的生产测试环境中啊, 它在处理现行日制和 pdf 的 预训练的时候,识别的重复率分别下降了百分之二点零八和百分之零点八一, 极强的稳定性,而且得益于相关的压缩器的使用啊,它的模型支持动态分辨率是一零二四乘一零二四和一百加的语言,就是各种各样的语言的 ocr 移动端也可以实现文档处理。所以这个东西想什么啊,只要你要去识别图片中的文字,这个场景它都是可以使用的。更关键它是开源的啊,免费,它把什么都打在屏上了,而且它的成本极低,对吧?像那个拆 g p t 五点二啊,用这个事儿,它要大概要多少 token 呢?要用一万八千多个 token, 它有多少 token 呢?它最多用幺幺二零的 token, 所以 它的整个的算力的覆盖率和整体的成本的下降,那是限性的啊,而且它的开源,它的代码,它的论文全部都开出来了,所有人都可以在上面继续去 补刀,是吧?这个事就特别有意思了,而且昨天台元社区已经对这个事做了一个深度的解读,并且好多人就开始去尝试在自己的业务中接入这样的一个模型,而且我相信它逐渐的把这个事做了一个很多特性,大家都能看见了, 是吧?好吧,有朋友昨天晚上直播的人问我,老张,到哪去看你的会员视频,你会员视频好像很精致。这周的会员视频咱们着重在讲大芯片以及大芯片。为什么叫大芯片啊?为什么要用大芯片是吧?大芯片辅助有什么样的一些新的机会啊?这个东西呢?请大家关注小程序奥特斗斗与瑞克老张科普课。 关注这个啊,上面有那金卡,那是会员卡,点击那就可以了啊,咱们现在的会员幺三九九是平台给补贴的啊,一年一百八十个视频,三十二场以上的直播,是吧?所有专栏免费看,你说我不想加会员,没关系,我们有免费的专栏啊,那专栏是我们各个平台的内容精选,你就一网打尽了啊,就可以在这 进购,以后看,对吧?比如说我不知道我们会员讲的是啥,我们有会员的直播的回放,我们是特价九块九啊,可以买一个,可以先看一下,看一下对你有没有帮助,好不好啊?而且我们上面有客服的,可以加他啊,跟他好好聊。好吧,今天就到这,我是瑞克老张,关注我,带大家看中国科技的高度和温度,我们下期见,拜拜。

在他的带领下,美国在 ai 领域不仅是领先,而且是远远领先于中国。但问题来了,不停的堆算力真的是通往强人工智能的唯一路径吗? 朋友们,这里是日听说,讲讲热点背后的故事。时间过得真快,距离那个震惊全球的日子,二零二五年一月二十日, dipsic 正式发布 r 一模型,已经过去整整一年了。 回想一年前,那不仅仅是一个模型的发布,更像是中国 ai 产业向世界发出的存在宣言。 转眼一年过去,中国的 ai 崛起已经是我们身边有目共睹的现实。但就在这个节骨眼上,美国总统特朗普语出惊人,他对着镜头自信满满的宣称,在他的带领下,美国在 ai 领域不仅是领先,而且是远远领先于中国。这两种声音碰撞在一起,让很多朋友 感到困惑,现实究竟如何?今天咱们日行说去,回顾一下人工智能发展的历史与现实,去看看这场世纪博弈究竟走到哪步了。 在 ai 这条赛道上,美国确实具有强大的先发优势。从一九五六年达特摩斯会议定义人工智能,到二零一六年阿尔法购击败李氏时, 再到二零二二年 cat gbt 横空出世,美国确实在很长的一段时间内引领了算法与框架的眼镜,并掀起了逻辑主义、廉洁主义深度学习三次人工智能浪潮。但常言道,白纸好做图, 在人工智能领域,后发者的前进道路并没有封死,因为对于人工智能的发展路径,当下并不存在一个共识。美国这波 ai 热潮形成突破的技术起点,本质上是大力出奇迹。在美国科技界看来,只要我把 模型参数做的足够大,只要我把训练数据堆到千亿万亿,智能就会像魔法一样涌现。于是, ai 竞赛迅速变成了算力竞赛,变成了芯片性能的比拼。华尔街疯狂砸钱,英伟达的股价一飞冲天。美国政府把芯片当成武器,搞各种出口禁令,企图锁死别国的算力。 但问题来了,不停的堆算力,真的是通往强人工智能的唯一路径吗?现在的学术界已经出现了不同的声音,越来越多的论文指出,规模化法则正在撞墙,边际效应正在肉眼可见的衰减。目前并没有证据表明 继续烧几千亿美金。对于算力,大模型就会在某个临界点再次出发,能力非线性突变,撞出下一个智能涌现的时刻。因此, ai 发展还有一条路径及实践与效率。以 depsec 为代表的中国流派, 不跟你拼谁的显卡更多,而是拼谁的算法更精妙,谁的训练成本更低,谁的落地速度更快。过去几年的实践证明,在这条赛道上,我们并没有与美国存在什么代计差距, 美国模式不见得是金科玉律。与此同时,在创新体制、基础设施、人才厚度等维度上,中国的优势可能比你想象的要大得多。到了二零二五年年中,大家会发现一个现象,芯片性能的提升速度开始慢下来了。 厂商们不再只谈算力,开始谈电力。没错, ai 的镜头是能源。在这方面,美国有个巨大的引优。美国的电网很多是二十世纪建的,不仅老化,而且极其分散。也就是说,哪怕算力中心建好了, 电也完全不够用。反观中国,我们的发电总装机量高达三十八亿千万,二零二五年的发电用电量预计是十点四万亿千万, 是美国全年发电量的一倍还多。中国充沛、稳定、绿色的电力供应,才是人工智能不断进化最坚实的物理基石。理想训练大模型,对不起,没电你什么都跑不起来。除了店里,还有我们的新型举国启示,前几年美国想用芯片掐我们的脖子, 结果呢?不仅没掐死,反而把中国的一整套本土供应链给逼出来了,直接倒闭。特朗普不得不放宽 r 区二百的出口,让美国从行动上承认 好毒和风都已不足以阻挡中国科技的腾飞。再看人才,中国每年培养的 sterm 科学技术工程、数学毕业生超过五百万人。这么多聪明的大脑, 就是算法研究最核心的智力基础。总体来看,在 ai 研发的每一个细分领域,我们都积蓄着惊人的势力。说完基础,咱们再来聊聊应用。 ai 终究是要拿来用的,不应该指屏幕上符号。未来的方向一定是巨生智能。在这个赛道上,中美可能走向截然不同的两个方向。巨生智能意味着让机器人在从未见过的陌生环境中,做出如人类般精准、丝滑的感知与反馈。这一场景很美好, 短期之内基本看不到大规模商用的可能。美国受制于制造业空心化,他们缺乏细分的应用场景。所以你会发现,美国的许多人形机器人公司只能依赖在资本市场上讲故事,一轮轮靠 ppt 获取融资, 或者依靠大公司进行书写,最典型的就是波士顿动力和特斯拉的擎天柱。中国呢,我们有全世界最全的工业门类,有最庞大的应用场景。国内的机器人公司既可以依靠融资去探索高精尖的通用人形机器人,也可以走务实盈利的路线,在各种使用场景中用巨深 智能改进原先的流程与工具。比如在机器人的关键细分领域零巧手方面,全国不胜媒体的快递点就是一片巨大的确定性的市场,就有公司主演于社区快递点的自动分拣问题进行研发, 用不了太久就能实现重大突破。如果说美国发展人工智能恰似修仙悟道,那中国的人工智能家行动,便是在一个个特定细分领域,培养经验丰富、做事可靠、持续精进的老师傅,推动社会生产效率和质量的全面提升,从而提高整个国家的竞争力。 古语云,有道无术,术尚可求。有术无道始于术。我们都知道,科技是中立的,能发挥出怎样的作用,要看掌握在谁的手里。如果说 ai 是新一轮科技革命的核心引擎,那它的终极价值到底是什么? 是成为少数国家维系霸权、收割世界的镰刀?还是成为推动全人类共同发展、增进扶持的抓手?在美国政客的眼中, ai 是排他的私产,是维系霸权的工具,这遵循的依然是成就的临河博弈逻辑。但中国走的是一条什么路, 是一条人间正道。我们主张 ai 的普惠与共享,我们同越南、老挝合作研发帮助埃及建设数字人才库。在中国人看来, ai 不应该是富国和富人的游戏,他应该是一座桥梁,帮助全人类弥合数字鸿沟。 格局决定结局,把 ai 当武器,路只会越走越窄。把 ai 当浮纸,路才会越走越快。 一七一零年,当莱布尼斯提出普遍语言摄影时,人类还坐在马车上。今天,我们已经站在了 通往数字文明的大门口。科技的发展从来不是线性的,也不存在什么永远的强者很强。 ai 大模型起步才几年,前方充满了不确定性,也充满了爆发性的机遇。在这个混沌的江湖期,中美站在不同的行道上。现在谈输赢 为时尚。在众生喧哗中,我们更务实的做法是仰望星空,脚踏实地。正如苏东坡那句词所说,莫听穿林打叶声,何妨引啸且徐行。好了,我是日新说,关注我,我们下期见!

随着农历新年临近,中国大模型赛道再起波澜。据 the information 一 月初爆料,国产大模型公司深度求索 deepsea, 计划于二零二六年二月中旬正式发布其新一代旗舰模型 deepsea。 微四开发者在 github 上发现, deepsea 代码库中出现大量指向未知大模型 model 一 的更新。从代码上下门槛、新模型在 k v 缓存布局、 稀疏性处理机制和 f p 八解码支持等方面都有显著升级。 d f c 过去数月公开的两项关键技术成果被视为 v 四的技术前哨,优化残差连接 m h c, 改进了信息流动机制。 ai 记忆模块 ngram 赋予模型长期记忆能力。 deepsea 多次强调, v 四将具备更强的写代码能力,意图打造中国版 call 派链、支持全站语言实现、函数记补全、 bug 修复等高阶功能。 v 四有望快速切入开发者社区,并向金融、 互联网、智能制造等行业输出定制化编程助手解决方案。二零二六年春节后, deep seek v 四正式亮相时,它带来的或许不仅是一个更强的模型,更是一次关于如何让大模型真正有用的中国式回答。

大家好啊, deepsea 又整盒了啊,就知道去年是啊,一月十九号发的这个东西,但是他发了去年的 r 一 吧,一月十九号发的,那现在的话呢?他今年啊,就在这个发布一周年的时候,他悄然间在 j drive 代码库出现了一个啊 model e 这样的一个标识符,揭开了中国 ai 独角兽下一代旗舰模型的神秘面纱。这个就是属于二十号啊,就正是他那个 r 一 开园一周年的时候呢。 呃,所有的开发者在审查相关代码的更新的时候,发现了横跨一百一十四个文件的二十八处 model one 的 这样的引用。 这个发现绝非偶然啊, deepsea 擅长以技术线索,而非官方通告释放信号与明确的版本号。 v 三二,就是在之前它的它的那个。呃,这个论文里面出现的 v 三二,就代表着 v 三点二这样的东西来暗示的话呢,这个呃, model one 这个东西, model 一 啊,这个标是一个新的技术谱系,而非现有架构的改良,也就是说它之前在发呃, deepsea v 三点二的这个之前,它很多的论文里面会出现 v 三二 这样的一个标识,代表着 v 三是三点二这样的模型做的相关的引进和技术。但是它在新的这个架构中干脆没有这个东西呢,直接就是 model one, 也就意味着这是一个新的架构,听懂了吧,这是一个新的架构,不是原来架构的改良。这也跟我之前啊,在直播中一跟大家说,我说 deepsea 最新的 v 四啊,这个在春节前出的模型是一个新的架构, 是一个新的架构啊,这个就可以吻合了啊,相关的东西吻合。然后呢,这 information 此前报道呢,它在呃,春节前后要出这个 v 四企业模型,重点强化代码生成能力。 model one 的 曝光与这个路线图的高度吻合,技术细节的差异性,特别是 k v 缓顿不徐稀疏处理器和 f p 八解码的支持深度优化,表示这可能是一次架构换道,而非版本升级啊。要理解 model one 的 一个革新的技术引进路径性, 它的 r 一 呢,作为推理标杆,就通过四阶强化学及体系,能启动 r l 聚集彩样多样化的 r l, 实现了媲美 open ai o one 这个当时最强的推理模型。推理能力成本降低百分之九十以上,六千一百六千七百一十亿参数的 mo 一 架构 激活三百七十亿就可以搞定了。这样,在数学代码任务上创造了开源模型的神话, v 三系列,进一步将效率革命推到了极致。 deepsea v 三采用的 m l a 就 多头潜在注意力机制啊,通过低秩序的压缩,将 k v 缓存需求降低百分之六十, 在一百二十八 k 的 长文本长引中显存,占用几位传统方案的三分之一,配合 m t p, 也就是多头可预测的技术啊,训练的信号密度提升三倍,推理速度呢,增加一点八倍。 而 v 三点二作为迭代的版本,在数学奥林匹克竞赛中斩获金牌,展现垂直优化的巨大潜力。但这些呢,仍然是在 transformer 架构上。 model one 的 出现,暗示 deepsea 正在挑战这一个根本。假设我不用这个架构了啊。所以呢,第一个的话呢,它的 k v 缓冲布局就重构就内存革命的下一步了。现有的 m l a 技术已经将 k v 缓存压缩至了这个非常复杂的程度。但 model one 的 代码显示即将全新的缓存布局的策略。 传统方案中呢, k v 缓存随着虚拟长度限性增长,是常温本推理的显存杀手。 model one 很 可能引入动态分块的缓存或层次化去除机制,使得缓存增长 从限性降到次限性,降一个大档次啊!更关键的是, model one 的 f p 八解码,这是不再是简单的量化部署,而是原生的 f p 八计算图。目前没有人干到啊,他们在干原生的 f p 八计算图。 这意味着,从矩阵乘法到激活函数的全链路低精度计算,理论上可以将推理能耗从 v 三 i 到十二点四 tops 每瓦提升至二十加的 tops 每瓦。 在边缘设备上实现云端级的性能。你没听错,这玩意会在边缘的算力上实现云端级的性能,这对去中心化的 ai 基础设施部署具有革命性的意义。模型甚至可能在智能手机、车载芯片上 这些算力节点上而产生一个非常好的效果,可以去跑全量的模型,与区块区块链的分布式计算运镜形成奇妙的一个共振。另外呢,它就吸出性的一个处理数据 m o e。 这个啊, 它的 m o e 架构已经实现百分之四八十三的这个计算资源节省。通过二百五十六个路由专家和一个共享专家的吸出激活模式啊。但 model one 的 代码爱仕奇正在探索动态吸出性 就吸收模式,根据输入的语义实时演化,这你受得了吗?他以前这是固定的,我就是二百五十五个专家,对吧?这个干脆是动态的,可能变成两千个专家,也可能变成五十个专家,但是看你输入的东西,这样的话不是固定的路由, 而且同期的话一个优化残差,对吧? mhc 还有记忆模块儿,就是 ingram, 这两个已经发了论文了。 mhc 呢,这是加大了一个数据传输的速度啊,解决了深层 transformer 的 梯度衰减问题。 ingram 受神经科学启发,构建外部可插拔的记忆库,使模型参数与记忆结藕。 这只指向无参数增长的知识扩展方式啊,根本上挑衅模型越大越智能的。这样的一个认知,也就是未来模型是用小参数训练的,需要让他在哪个方向上去做努力,就增加哪个方向的专家知识库,然后他通过内存来挂接实现,这样的话,那个东西就可以部署在各种各样的上面去,模型的本质反而很小, 那这个产生非常强的一个东西了。所以 l p 八解码知识深层含义是解码算法的硬件及加速传统的自回归生成,将读个 token 的 串行输出,对吧?而 m o model one 呢,可能实现整推测解码 或并行解码。这是一次向前多次生成延迟降到毫秒级了啊,这个为代码生成提供一个非常强的一个支持啊。所以呢,它很可能会使得它的基础的得分直接突破九十加,超越现在任何一个打磨型的编程能力啊。然后 后续的东西呢,我们可以看到它坚持着一个高性能和低成本的颠覆策略,所以在这这一次看的话,我估计它通过 f p p 和吸收训练,使得它的成本再训练成本再降百分之五十,单次推成本降至甚至可能降至零点零零零一美元,这是非常低的一个水平啊。所以 ai 与服务预算可能要变成水电煤了啊。 它是技术和武器开源,使得呃 g p 四的 a p i 价格暴跌百分之六十,它 model one 的 开源可能迫使整个行业重新选定技术方向,就是把你现在的技术打得稀巴烂啊。这个东西很可能还会产生趋中性化,所有人都可以用这个逻辑搞自己的模型了,因为它把模型 这个整体的生成度会降得更低了,这跟加密世界的趋中性化非常吻合,任何人都可以去做自己的模型,任何人都可以成为自己的 ai 节点说,而且形成趋中性化的一个推理市场。所以在这个情况之下呢,它可能作为开源为表,标准为理这样的一个壁垒 啊,最后会产生这样一个基础设施,我觉得非常的强。这个模型真的是它已经溃,会划时代的,会成为所有模型的噩梦,包括国产的这些模型在内,如果你跟不上,你就会被它甩掉。 好吧,今天就到这了,那很多朋友说,老张你那个那个那会员内容怎么看?有好多会员内容,后面马上就变成热点了,当然特别好。怎么看?哎,那个你小程序搜奥德豆豆与瑞克老张科普课啊,上面有那个金卡的点那就行了。点那的话呢?哎,那个金卡的话,咱们幺三九九是那个现在,现在还给补贴呢啊?还给补贴的?咱们一年一百八十个会员视频,三十二档会员直播 专栏都能免费看。那你说我不想花钱?没关系,我们那有一个来那个免费的专栏,你点击这个购买一下零元的免费专栏,我们在平台上这个内容精选以后都会放进去供大家好好来看。好吧,今天就到这,我是瑞小张,关注我,带大家看中国科技的高度和温度,我们下次见,拜拜。

deepseek v 四蓄势待发,在经历了二零二五年的市场波动与下载量回调后,深度求索正悄然筹备一场可能重塑行业格局的技术反击。 该公司计划于二零二六年农历新年期间正式发布新一代代码生成模型 deepseek v 四舰,指当前由 open ai 的 gpt 系列和 anthropec 的 cloud 主导的 ai 编程辅助市场。 deepseek v 四在多项关键指标上展现了惊人进步。 最引人注目的突破在于模型在持续学习过程中的性能稳定性。传统 ai 模型常见的灾难性遗忘问题似乎得到了实质性缓解, 这意味着 v 四能够在吸收新知识的同时保持对已掌握技能的完好的记忆。 deepsea v 四在理解编程意图的连贯性方面表现突出,能够从自然语言描述中推断出复杂的工程架构决策,并在多轮对话中保持上下文的一致性。 这种能力恰好契合了现代敏捷开发中对快速原型迭代的需求。值得注意的是,深度求索此次技术突破并非依靠传统的大规模算力堆砌。 v 四模型采用了创新的算法架构和训练策略,在相对有限的资源投入下实现了性能飞跃。目前代码生成市场已形成相对稳定的分层格局,但 deepsea v 四的即将问世可能打破这一平衡。 早期对比测试显示,该模型在特定编程任务上已超越 c l u d e 三点五 s o, n, n, e, t 和 g p t 四 t u r b o 的 表现。 尤其值得关注的是,深度求索在中文编程上下文理解和中国本土开发环境适配方面的传统优势,可能使 v 四在国内市场获得差异化竞争力,而国际开发者社区则更关注其多语言编程支持能力的提升程度。 尽管技术前景令人振奋,但深度求索仍需面对现实挑战。二零二五年的市场波动暴露了公司在产品化、生态建设和开发者关系维护方面的短板。 技术领先并不自动转化为市场领先。如何重建开发者信任、完善工具链整合、提供稳定可靠的服务体验,将是 v 四成功落地的关键。与此同时,竞争对手不会坐视不理, openai、 anthropic 等公司同样在积极研发下一代代码模型,一场围绕 ai 编程助手的军备竞赛已然展开。 农历新年将至, ai 行业的目光正聚焦于深度求索。无论 deepsea v 四最终能否实现颠覆行业的豪言,它的出现无疑将为全球 ai 发展注入新的活力,迫使所有参与者重新思考技术路径与市场策略。 在这个快速引进的领域,唯一确定的是,变格永远不会停止。在新的一年, deepsea v 四将会展现出哪些优势呢?欢迎评论区分享你精彩的见解。

deepsea 计划于二月中旬推出新一代 ai 模型 d e p s e k v 四,搭载全新 model 一 架构,引发业界广泛关注。 deepsea 计划于二月中旬推出新一代旗舰 ai 模型 d e p s e k v 四,搭载全新 model 一 架构,该模型有望大幅提升写代码能力。 此前, deepsea 在 它平台更新了一系列 flash m l a 代码,其中提到未知的 model 标十幅,表明新架构在内存优化和计算效率上进行了针对性设计。 deepsea 此前发布的两篇技术论文分别介绍了名为优化残差连接的新训练方法和受生物学启发的 ai 记忆模块, 预测这些成果可能集成于即将发布的 d e e p s e k v 四中。 deepsea 的 研究团队致力于提升模型在复杂任务处理中的潜力,预计新模型将为 ai 领域带来革命性变化。

新一代旗舰模型 deep sec v 四发布受益公司梳理事件概述根据的 information 报道及多方信息源, deep sec 计划在二零二六年二月中旬农历春节前后发布新一代旗舰模型 deep sec。 v 四内部测试显示,其在代码生成与处理能力上已超越 antropica 和 open ai 的 gpt 系列。 核心意义分析一、技术突破从代码生成到代码理解,超长上下文处理 v 四在百万级 toker 上下文窗口上实现突破,可一次性理解整个中型项目代码库,解决跨文件依赖等复杂场景。训练稳定性革命,解决了传统模型随训练轮次增加而性能衰减的难题, 数据模式理解能力在全训练周期保持稳定,提升深度推理能力,模型不再是死记硬背,而是真正理解代码逻辑 生成的答案,逻辑更清晰,结构更规整。二、产业格局挑战硅谷巨头在开发者工具的垄断这是中国 ai 模型首次在生产级编程能力上正面对标硅谷巨头。当前 ai 编程市场由 github、 copilot、 open ai、 cloud 主导, v 四若在 sweetbench 等生产级机准测试中领先, 将直接冲击其企业服务市场。三、商业化前景打开弊端付费市场 v 四瞄准的是企业级代码生成、 bug 修复、模块改写等生产级工作量, 这些场景客户付费意愿强,有望复制 openai 的 开发者订阅加企业 api 商业模式。四、生态影响加速国产 ai 软硬件协同 deepseek 采用开放策略 v 三点二发布后,华为、升腾、韩五 g、 海光信息等国产芯片厂商均完成对零适配。 v 四将继续推动国产算力生态成熟。 受益公司梳理上游算力基础设施公司类型代表企业合作内容, ai 服务器,浪潮信息,提供 ai 服务器集群及管理平台。数据中心润泽科技,提供廊坊数据中心三千加机柜,签订五年长期协议夜冷系统,中科曙光城建杭州训练中心夜冷系统 p u e 小 于一点一五 网络设备行景科技,提供光模块和交换机,是 madea 双 e l 的 合作伙伴。芯片与硬件适配公司合作动态含五 g 实现 b 三点二 x b 模型适配支持 f p 八计算,股价创历史新高。海光信息 d c u 实现无缝适配加深度调优,支持 f p 八计算。华为升腾,快速完成推理框架适配开源所有推理代码。云服务与算力平台公司决策青云科技 ai 算力云 服务,提供 deepsea 模型能力。并行科技,智算云平台部署 deepsea 二一等主流模型。首都在线云平台提供模型,曾提供免费使用权限。优克德云平台服务商受益于 ai 算力需求,应用层与数据服务公司合作,深度每日互动,深度集成每个版本模型参与数安港可控大模型服务。 恒维科技,推出升腾 deepsea 一 体机构建全站能力。亚康股份发布搭载升腾芯片加 deepsea 模型的智能一体机 硬弹,创新推出 deep sec 大 模型与 ai 芯片结合的全场景应用方案。产业链其他环节,宏博股份旗下英国数科运营华北算力节点,拥有三千匹加 ai 算力储备。新森科技,国内唯一能量产 ai 芯片封装所需 a、 b、 f 载板的厂商风险提示,一、技术验证风险。目前均为内部测试结果, 需等待公开基准测试验证。二、概念炒作风险。部分公司仅为技术适配或间结合作,业务贡献度有限。三、竞争格局风险。 openai、 antropica 等巨头可能快速迭代反击。 总结 deepsea v 四、若如期发布并实现性能突破,将是中国 ai 在 垂直领域实现全球领先的标志性事件。受益链条含盖算力、基础设施、国产芯片、云服务到应用层的完整生态,但需警惕概念炒作与技术落地的差距。