00:00 / 01:52
连播
清屏
智能
倍速
点赞19
00:00 / 02:26
连播
清屏
智能
倍速
点赞12
00:00 / 04:16
连播
清屏
智能
倍速
点赞NaN
DeepSeek V4 靠算法掀翻“算力霸权”!🇨🇳🔥 大家都说搞AI大模型就是“堆算力”,没有顶配的英伟达芯片就玩不转? 今天告诉你,错得离谱!国产之光 DeepSeek V4 刚刚用实力证明,靠极致的算法创新,照样能掀翻全球的“算力霸权”!一直以来,我们都在担心算力被“卡脖子”。 但这次 DeepSeek V4 直接在受限的英伟达GPU和咱们国产的华为昇腾NPU芯片上跑通了训练! 不仅跑通了,它的综合能力甚至可以硬刚目前全球最顶级的 GPT-5.4 和 Claude 4.6! 它到底是怎么做到的?全靠这三大“变态级”的底层算法黑科技:第一,首创“混合注意力机制”(CSA和HCA)! 以前的模型看100万字长文,要逐字逐句死记硬背,非常吃算力。 但 V4 呢?它直接把 128 个词压缩成 1 个,就像看书只看“标题和目录”一样高效! 结果就是:满血Pro版处理百万字长文,算力消耗只要上一代的 27%,内存只要 10%! 轻量级的Flash版更离谱,算力消耗降到10%,内存只要 7%!省钱省到了骨子里! 第二,直接换“发动机”! 整个AI圈都在用传统的 AdamW 优化器,但 V4 偏不!它在训练时换上了超硬核的 Muon 优化器,让整个庞然大物学得更快、跑得更稳! 第三,拓宽信息高速公路! 它引入了一种叫 mHC 的超连接技术,直接把神经网络层与层之间的“连接线路”拓宽了整整 4 倍!大脑信息传输再也不堵车! 发现了吗?面对外部的封锁和非议,DeepSeek 没有随波逐流,而是坚持“不休于誉,不恐于诽”,按自己的节奏做技术! 它用行动告诉全世界:中国AI的未来,不仅要靠国产算力的突围,更要靠中国程序员顶级的算法智慧!#DeepSeek #DeepSeekV4 #人工智能 #大模型 #ChatGPT #国产之光 #科技前沿 #程序员日常 #AI工具推荐 #开源大模型
00:00 / 15:54
连播
清屏
智能
倍速
点赞32
00:00 / 04:48
连播
清屏
智能
倍速
点赞32
DeepSeekV4报告暗藏两大谜,梁文锋赤壁之战能否取胜?V4跑赢了。全世界都在拆DeepSeek的技术报告,参数、架构、算法……但梁文锋的58页报告里,竟藏着两个让硅谷失眠的谜。第一个谜:搞出V4的,到底是怎样一群“怪胎”?不是明星科学家,没有海归精英。梁文锋手下,近一半是应届生,七成不到30岁,以本科、硕士为主,博士占比少。更让人意外的是,大量贡献来自实习生。这太反常了。你看硅谷、国内大厂,AI实验室哪个不是博士扎堆?但DeepSeek偏不。为什么?梁文锋曾说过:有现成经验的人固然有用,但长远看,基础能力、创造性、热爱,更重要。没有经验的人,会更愿意反复摸索,他认为创新不是管出来的,是“少干预”喂出来的。第二个谜:这群年轻人,怎么干翻硅谷的?2024年5月,DeepSeek模型才做到第二代,就已经改了好几个大模型的基础架构。他们提出的GRPO算法,比OpenAI的PPO更省算力。怎么做的呢?行业通常做法是训练出一个“辅导老师”来教模型,而他们是让模型反复刷题取平均分,这样就省了培养老师的时间。就是这群“怪胎”,用不一样的用人理念和工程方法,把世界级产品做出来了。但现实很骨感。他静默的15个月里,OpenAI发布GPT-5.5,谷歌迭代Gemini-3.1-Pro,全世界都在狂奔。而他面临烧钱、卡算力、人被挖角。当对手兵临城下时,他要打中国AI的“赤壁之战”。梁文锋准备借东风。腾讯、阿里、华为同时站在他身后。融资背后,一部份为稳住军心,一部份砸进算力。少年强,则中国强,你认为他们能赢吗?#V4报告#DeepSeekV4团队#v4上线#梁文锋#AI@DOU+小助手
00:00 / 01:57
连播
清屏
智能
倍速
点赞542
00:00 / 04:50
连播
清屏
智能
倍速
点赞3635
00:00 / 04:48
连播
清屏
智能
倍速
点赞39
00:00 / 00:57
连播
清屏
智能
倍速
点赞2
00:00 / 01:49
连播
清屏
智能
倍速
点赞209
00:00 / 03:27
连播
清屏
智能
倍速
点赞4