00:00 / 00:34
连播
清屏
智能
倍速
点赞0
00:00 / 00:51
连播
清屏
智能
倍速
点赞14
00:00 / 02:59
连播
清屏
智能
倍速
点赞1
大模型高考数学对决:豆包、元宝夺冠,OpenAI 意外垫底 高考数学新一卷AI成绩出炉:国产豆包、元宝并列第一,OpenAI o3意外垫底!国产大模型数学推理能力突飞猛进,AI竞赛愈发激烈。#高考数学 #大模型 #AI对决 -------------------- 欢迎收听今天的新闻速递,聚焦AI领域的一场激烈新较量:中国最新高考数学试卷成为了大模型的试金石。今年,不只是考生,六大主流人工智能模型也齐齐接受了2025年高考数学新课标I卷的挑战,其中包括国际知名的OpenAI o3。问题是:哪家AI在数学逻辑推理上最强? 参赛模型分别为:字节跳动的豆包、腾讯的元宝、阿里的通义、DeepSeek、百度文心X1 Turbo,以及国际线的OpenAI o3。测试内容涵盖14道客观题,包括单选题、多选题和填空题,满分73分。为保证公平,所有模型答题均不联网、不引导、一次性输出,由数学专家核对判分。 最终成绩如何?国产豆包和元宝表现最优,并列第一,均拿下68分。DeepSeek和通义紧随其后,分别为63和62分。文心X1 Turbo得分为51分。最令人意外的,是OpenAI o3,仅得34分,正确率不足五成,成绩垫底。可见,全球明星AI遇到本土数学考试,短板明显。 具体来看,国产大模型在单选和填空题上总体表现稳定,但空间推理和细节把控仍有短板,有些题型偶尔“蒙答案”,多选和填空题更易漏选。比起去年,绝大多数模型都有显著提升,国产AI在复杂推理能力方面明显追赶国际先进水平。 综上,今年高考数学大模型对决说明:国产AI正在数学复杂推理领域取得扎实进步,即便面对为人类考生设计的难题也不落下风。未来,国产与国际AI的差距有望进一步缩小。至于OpenAI,也要面对“水土不服”的艰难考验。 最后,祝愿所有正在挑战高考的学子,无论是人类还是AI,金榜题名、前程似锦!
00:00 / 01:47
连播
清屏
智能
倍速
点赞8
00:00 / 00:25
连播
清屏
智能
倍速
点赞10
00:00 / 00:36
连播
清屏
智能
倍速
点赞0
00:00 / 00:36
连播
清屏
智能
倍速
点赞0
00:00 / 01:28
连播
清屏
智能
倍速
点赞17
00:00 / 00:35
连播
清屏
智能
倍速
点赞10
00:00 / 00:38
连播
清屏
智能
倍速
点赞0
00:00 / 00:48
连播
清屏
智能
倍速
点赞3
00:00 / 01:44
连播
清屏
智能
倍速
点赞69
00:00 / 00:41
连播
清屏
智能
倍速
点赞6
00:00 / 00:05
连播
清屏
智能
倍速
点赞6
00:00 / 00:23
连播
清屏
智能
倍速
点赞0