00:00 / 02:23
连播
清屏
智能
倍速
点赞0
00:00 / 04:07
连播
清屏
智能
倍速
点赞0
00:00 / 00:05
连播
清屏
智能
倍速
点赞0
00:00 / 08:30
连播
清屏
智能
倍速
点赞2
00:00 / 03:51
连播
清屏
智能
倍速
点赞6
00:00 / 39:41
连播
清屏
智能
倍速
点赞0
00:00 / 05:33
连播
清屏
智能
倍速
点赞5
00:00 / 04:42
连播
清屏
智能
倍速
点赞0
00:00 / 03:56
连播
清屏
智能
倍速
点赞25
乂媒体2周前
DeepSeek V4 Codeforces 3206分 DeepSeek 正式发布了万众期待的 V4 系列。 如果你还觉得国产模型只会“追赶”,那这张官方发布的对比表(指着背景图)可能会让你怀疑人生。 在数学和代码这两个“智商硬杠”的赛道上,DeepSeek 不仅赢了,而且是公然“屠榜”。 我们直接看数据。 第一个震撼点:Codeforces 竞技编程。 DeepSeek-V4-Pro-Max 直接刷到了 3206 分! 这是什么概念?这个分数在人类里是“特级大师”级别,放眼全球模型界,它压过了 GPT-5.4 和 Gemini 3.1,拿下了全球第一。 再看 Apex Shortlist,也就是奥数级别的逻辑推理,DeepSeek 跑出了 90.2% 的恐怖高分。 这意味着,在处理硬核理科逻辑时,它已经不再是我们的助教,而是真正的专家。 当然,咱们客观一点,DeepSeek 也不是全方位无死角。 在 SimpleQA,也就是事实知识准确度上,它拿了 57.9 分。 虽然在开源界是王者,但比起谷歌的 Gemini 3.1 还是有差距。 这说明在“博学”这件事上,谷歌的老底子确实厚。 但在 HLE(人类最后考试) 这种博士级难题上,大家其实都在 40 分左右晃悠。 人类最后的尊严,目前看来还保得住! 接下来的重点是 #Agent (智能体)能力。 现在的 AI 不止要会聊天,还得会干活。 在 SWE Verified 自动修复代码任务中,DeepSeek 拿到了 80.6%。 和 Claude、GPT 基本打平,这标志着 AI 代写代码、自动改 Bug 的时代已经全面爆发。 不过,在 Terminal 终端操作和 **工具调用(Toolathlon)**上,GPT-5.4 依然稳坐头把交椅。 #OpenAI 在“系统指挥官”这个角色上,依然有着非常细腻的工程优化。 #DeepSeek 为什么能再次“大力出奇迹”? 这次 V4 的底层架构做了大手术。 它引入了 CSA 和 HCA 混合注意力机制,简单说就是从“逐字背诵”变成了“记重点+跳读”。 在处理 100 万 token 的超长文本时,它的计算开销竟然只有前代的 27%! 这意味着:更强、更长,而且更便宜。 最关键的是,这次 V4 预览版不仅发布即巅峰,还同步开源了。
00:00 / 02:40
连播
清屏
智能
倍速
点赞2
00:00 / 02:49
连播
清屏
智能
倍速
点赞2
00:00 / 01:47
连播
清屏
智能
倍速
点赞2
00:00 / 08:33
连播
清屏
智能
倍速
点赞4