00:00 / 01:03
连播
清屏
智能
倍速
点赞3985
00:00 / 04:58
连播
清屏
智能
倍速
点赞4
00:00 / 04:49
连播
清屏
智能
倍速
点赞52
性能比肩Gemini 3 Pro的国产最强推理模型Qwen3 阿里千问Qwen3-Max-Thinking发布:性能比肩Gemini 3 Pro的国产最强推理模型 1月26日,阿里千问正式上线旗舰推理模型Qwen3-Max-Thinking。该模型在多项权威基准测试中刷新纪录,综合性能已可对标GPT-5.2与Gemini 3 Pro,成为目前最接近国际顶尖水平的国产大模型之一。 核心性能突破 Qwen3-Max-Thinking在三大关键领域表现卓越: • 科学知识:GPQA Diamond博士级科学问题得分领先 • 数学推理:IMO-AnswerBench国际数学奥林匹克级问题处理能力突出 • 代码编程:LiveCodeBench竞争级编程问题表现优异 详细评测数据显示,该模型在19项主流基准测试中取得多项领先成绩,特别是在智能体搜索任务(HLE with tools)中以49.8%的得分超越竞争对手,在指令遵循和对话对齐方面(Arena-Hard v2)更是达到90.2%的优异表现。 技术创新:测试时扩展与自适应工具调用 该模型的核心突破在于测试时扩展技术,采用经验累积的多轮推理策略。与传统线性生成方式不同,Qwen3-Max-Thinking能够通过专有的take-experience机制,从先前推理步骤中提炼有效经验,实现智能算力分配。 在自适应工具调用方面,模型将工具能力内生进思考过程,构建边思考、边行动的原生Agent框架。经过联合强化学习训练,模型学会策略性协同使用搜索、记忆与代码解释器等工具。 实际应用验证 实测中,模型能够快速生成完整的五子棋游戏网页代码(1000+行),并成功创建复杂的《跳一跳》小游戏,展现出强大的代码实现能力。这种“重推理模式”在不显著增加token成本的前提下,实现了性能的大幅提升。 作为目前阿里规模最大、能力最强的推理模型(参数量超1万亿,预训练数据量36T Tokens),Qwen3-Max-Thinking的推出标志着2026年AI竞争焦点从聊天机器人智能度转向智能体功能实用性。该模型已通过QwenChat平台向用户开放体验。
00:00 / 07:16
连播
清屏
智能
倍速
点赞2
00:00 / 00:46
连播
清屏
智能
倍速
点赞0
00:00 / 06:43
连播
清屏
智能
倍速
点赞1529
00:00 / 05:49
连播
清屏
智能
倍速
点赞0
00:00 / 00:07
连播
清屏
智能
倍速
点赞2
00:00 / 00:30
连播
清屏
智能
倍速
点赞0
00:00 / 01:35
连播
清屏
智能
倍速
点赞9607
00:00 / 00:30
连播
清屏
智能
倍速
点赞1