大模型高考数学对决:豆包、元宝夺冠,OpenAI 意外垫底 高考数学新一卷AI成绩出炉:国产豆包、元宝并列第一,OpenAI o3意外垫底!国产大模型数学推理能力突飞猛进,AI竞赛愈发激烈。#高考数学 #大模型 #AI对决 -------------------- 欢迎收听今天的新闻速递,聚焦AI领域的一场激烈新较量:中国最新高考数学试卷成为了大模型的试金石。今年,不只是考生,六大主流人工智能模型也齐齐接受了2025年高考数学新课标I卷的挑战,其中包括国际知名的OpenAI o3。问题是:哪家AI在数学逻辑推理上最强? 参赛模型分别为:字节跳动的豆包、腾讯的元宝、阿里的通义、DeepSeek、百度文心X1 Turbo,以及国际线的OpenAI o3。测试内容涵盖14道客观题,包括单选题、多选题和填空题,满分73分。为保证公平,所有模型答题均不联网、不引导、一次性输出,由数学专家核对判分。 最终成绩如何?国产豆包和元宝表现最优,并列第一,均拿下68分。DeepSeek和通义紧随其后,分别为63和62分。文心X1 Turbo得分为51分。最令人意外的,是OpenAI o3,仅得34分,正确率不足五成,成绩垫底。可见,全球明星AI遇到本土数学考试,短板明显。 具体来看,国产大模型在单选和填空题上总体表现稳定,但空间推理和细节把控仍有短板,有些题型偶尔“蒙答案”,多选和填空题更易漏选。比起去年,绝大多数模型都有显著提升,国产AI在复杂推理能力方面明显追赶国际先进水平。 综上,今年高考数学大模型对决说明:国产AI正在数学复杂推理领域取得扎实进步,即便面对为人类考生设计的难题也不落下风。未来,国产与国际AI的差距有望进一步缩小。至于OpenAI,也要面对“水土不服”的艰难考验。 最后,祝愿所有正在挑战高考的学子,无论是人类还是AI,金榜题名、前程似锦!
00:00 / 01:47
连播
清屏
智能
倍速
点赞8
00:00 / 11:55
连播
清屏
智能
倍速
点赞211
00:00 / 01:34
连播
清屏
智能
倍速
点赞117
00:00 / 01:01
连播
清屏
智能
倍速
点赞6444
#ai创作者 #小说推文(🕷虎)(风禾第一) 我的魂魄附身到了一个女生身上。 可是我看着面前那张赫然写着 65 分的高三数学试卷,陷入了沉思。 高考的时候我以全市第一的成绩考入清华,现在我看着这个令人匪夷所思的分数,笑出了声。 笑声在静谧的晚自习课上显得十分突兀,我的前桌因此转过头嫌恶地看了我一眼,她皱着眉说:「孙书仪,闭嘴。」 我不和她一般见识,抬头看到黑板上写的作业和高考倒计时,我很快明白过来,我现在在一个女高中生的身体里。 我看了看我的手,纤长白皙,拿起桌上的小镜子,照见一张还算漂亮的脸。 比之前的我漂亮,可是眼下有淡淡的乌青,一看就是长期睡眠不足。 低下头,好家伙,我的腿上居然还打着石膏。 书桌里书桌上整齐地堆着复习资料,还有记得密密麻麻的笔记本,订正了好几遍的试卷。 上面全都是比较难看的分数。 此刻大家都在做作业,我环顾四周,少有交流的,我想问问同桌今年是几几年,却被他不耐烦地打断:「你烦不烦?」 看来这具身体的原主很不受待见。 我于是放弃了交谈,开始看书桌上堆着的试卷。2020—2021 学年……是我高考的两年后,我成为鬼魂的第一年。 原主写了满满一页草稿纸都没解出来倒数第二大题,我看了一眼,就发现她的运算全都是在翻来覆去地做无用功。 我叹了口气,提笔演算起来。 只花了十五分钟就把剩下两道大题全部写完了,这时候已经有几个学生在轻声讨论最后一道大题的答案。 我边听边把前面的答案也都改了。 我终于听到身后有人在说负一,我于是转过头说:「对,答案就是负一,你是用……」 那两人用一种看傻子的神情看着我,然后自顾自地又开始讨论起来。 我满头问号。 这时候老师从门口进来,是一个光头的中年男人,鼻梁上架着一副眼镜,很熟练地问:「谁完成了?今天的题目挺有难度。」 稀稀拉拉的几只手,我也举起手来,却出现了笑声。 老师也很惊讶地看着我,「孙书仪,你听清楚我问什么了吗?」 我点点头,老师摇头说:「别和我开玩笑了,你快点把昨天那个基础题订正给我看。」 我于是翻了半天找到那张基础题,抬头看的时候,老师已经和那几个写完试卷的同学讨论起题目来了。 基础题卷子上,密密麻麻都是红叉。 2. 晚自习下课后下了大雨,我正不知道怎么回家也不知道家在哪里的时候,门外有人叫我的名字。 未完待续……(🕷🐅),(风禾第一)
00:00 / 02:26
连播
清屏
智能
倍速
点赞4