00:00 / 00:23
连播
清屏
智能
倍速
点赞16
00:00 / 00:16
连播
清屏
智能
倍速
点赞218
00:00 / 00:20
连播
清屏
智能
倍速
点赞7
DeepSeek V2数学AI卷王封神,满分夺奥数金牌! @王兴波(Ra·Zero) DeepSeek 以 “闷声干大事” 的姿态,在无发布会、无通稿的情况下,于 Hugging Face 悄悄开源 685B 参数模型 DeepSeek Math V2,凭借 IMO 金牌级推理能力震撼 AI 数学圈。它不仅敢与谷歌 Gemini Deepthink 正面抗衡,更以独特训练机制打破传统数学 AI“重答案、轻过程” 的痛点,成为开源模型中的 “数学卷王”。 其核心突破在于创新的 “生成器 - 验证器 - 元验证器” 三重自验证架构,彻底改写 AI 数学推理逻辑。作为 “学生” 的生成器解题后需主动自评,诚实认错可获奖励,蒙混过关则受惩罚;“教师” 验证器依托 17K 道竞赛题训练经验,采用 1/0.5/0 精细化评分,还会像阅卷老师般标注 “推导不严谨” 等问题并写评语;“教导主任” 元验证器专门校验验证器评语合理性,将分析质量从 0.85 提升至 0.96,形成 “解题 - 自评 - 批改 - 校验” 的自主进化闭环。 这套机制让模型战绩封神:IMO-ProofBench 基础子集正确率近 99%,以 10 个百分点优势碾压 Gemini Deepthink;高级子集 61.9% 的成绩虽略逊后者,但仍达金牌水平;IMO 2025 测试得分 83.3%、CMO 2024 得分 73.8%,均稳站金牌阵营。更惊艳的是 2024 年普特南竞赛 118/120 的近乎满分,远超人类历史最高 90 分,且未依赖大规模题库训练。 作为业内首个达到 IMO 金牌水平的开源数学模型,其代码与权重全公开的举措,为教育、科研等领域提供可靠工具,更以 “过程导向” 的推理范式,为专业领域 AI 发展指明方向。#人工智能产业链联盟 #人工智能 #科技 #ai #Deepseek
00:00 / 02:29
连播
清屏
智能
倍速
点赞17
00:00 / 01:25
连播
清屏
智能
倍速
点赞6
00:00 / 01:18
连播
清屏
智能
倍速
点赞5