00:00 / 02:12
连播
清屏
智能
倍速
点赞427
00:00 / 02:22
连播
清屏
智能
倍速
点赞6916
00:00 / 01:25
连播
清屏
智能
倍速
点赞174
00:00 / 00:58
连播
清屏
智能
倍速
点赞1729
00:00 / 01:02
连播
清屏
智能
倍速
点赞2883
00:00 / 01:41
连播
清屏
智能
倍速
点赞35
00:00 / 01:34
连播
清屏
智能
倍速
点赞265
00:00 / 01:23:16
连播
清屏
智能
倍速
点赞10
00:00 / 01:42
连播
清屏
智能
倍速
点赞1316
00:00 / 01:28
连播
清屏
智能
倍速
点赞177
00:00 / 01:35
连播
清屏
智能
倍速
点赞1030
00:00 / 01:51
连播
清屏
智能
倍速
点赞171
00:00 / 02:03
连播
清屏
智能
倍速
点赞135
00:00 / 02:07
连播
清屏
智能
倍速
点赞78
00:00 / 02:07
连播
清屏
智能
倍速
点赞254
00:00 / 01:41
连播
清屏
智能
倍速
点赞125
00:00 / 01:07
连播
清屏
智能
倍速
点赞30
00:00 / 01:22
连播
清屏
智能
倍速
点赞218
Qiuming1天前
疑似DeepSeek V4基准测试泄露 疑似DeepSeek V4基准测试泄露,AI社区反响热烈但真实性存疑 昨日晚间,一张据称是DeepSeek V4模型的基准测试成绩图在网络上疯狂传播,迅速引爆了全球AI社区的讨论。泄露信息显示,DeepSeek V4在关键的代码能力评估集SWE-bench Verified上取得了惊人的83.7% 的得分,一举超越了Claude Opus 4.5(80.9%)和GPT-5.2(80%),被许多网友誉为“新王归来”。 除了编程能力的显著提升,泄露的图表还显示V4在数学推理方面同样表现卓越,例如在AIME 2026上得分高达99.4%,在极具挑战性的FrontierMath Tier 4上的得分更是达到了GPT-5.2的11倍。综合网络传闻,DeepSeek V4预计将支持高达100万的超长上下文窗口,并引入名为“Engram”的记忆机制,以实现真正的全仓库级代码推理能力。传闻发布时间锁定在所谓的“春节”期间,即今天(2月16日)或明天。 然而,这份引发狂欢的“成绩单”很快遭到了业内人士的质疑。有证据指出,泄露图中的AIME分数存在逻辑漏洞,因为官方评分系统无法得出99.4%这样的分数。更重要的是,评测数据集FrontierMath的所有方Epoch AI已明确确认,相关数据系伪造,因为仅有他们和OpenAI有权进行评估。这两个关键疑点使得泄露图的真实性大打折扣。 尽管“泄露”事件可能是场乌龙,但业内普遍认为,DeepSeek正在酝酿重大更新。近期,DeepSeek官网及应用已开始灰度测试一个新版本模型,其最大亮点是支持了高达100万token的超长上下文,可一次性处理《三体》三部曲体量的长文本。结合此前Information关于DeepSeek将于2月中旬发布新一代编程能力极强模型的爆料,此次灰度测试被看作是为V4正式版上线进行的“试点”。尽管真假消息混杂,但无疑再次将DeepSeek推向了全球AI爱好者关注的焦点。
00:00 / 03:35
连播
清屏
智能
倍速
点赞13
00:00 / 00:10
连播
清屏
智能
倍速
点赞3
00:00 / 01:35
连播
清屏
智能
倍速
点赞257
00:00 / 01:54
连播
清屏
智能
倍速
点赞634
00:00 / 01:16
连播
清屏
智能
倍速
点赞249
00:00 / 01:09
连播
清屏
智能
倍速
点赞314
00:00 / 03:15
连播
清屏
智能
倍速
点赞10
00:00 / 02:35
连播
清屏
智能
倍速
点赞12