00:00 / 01:46
连播
清屏
智能
倍速
点赞11
00:00 / 02:31
连播
清屏
智能
倍速
点赞23
00:00 / 01:18
连播
清屏
智能
倍速
点赞11
全新 Gemini 一夜血洗编程:AI 技术迈入新阶段 2026 年 2 月 13 日,谷歌 DeepMind 正式发布 Gemini 3 Deep Think 版本,在编程、通用推理、成本效率三大维度实现颠覆性突破,被业内称为 “AI 彻底血洗编程圈”,标志人工智能从辅助工具走向独立顶尖智能体。 一、编程能力:达到人类顶级竞赛水平 Gemini 3 在国际顶级编程竞赛平台 Codeforces 达到 3455 Elo 分数,全球排名第 8,仅 7 位人类选手排名更高,超越 99.99% 的人类程序员与竞赛选手。 对比前代模型,GPT-4 早期仅约 392 Elo,GPT-4o 约 808 Elo,前代 o3-preview 约 2727 Elo,Gemini 3 直接跃升 700 分以上,拉开与所有竞品的差距。 在 LeetCode 周赛中,题目通过率超过 85%,动态规划、图论、复杂算法接近人类顶尖选手水平。 在真实软件工程基准 SWE-Bench Verified 上通过率超过 65%,LiveCodeBench 实时编程通过率超过 80%,智能合约 Solidity 开发通过率达到 92%。 二、通用推理:刷新全球最高纪录 在难度极高的 ARC-AGI-2 通用推理任务上,Gemini 3 达到 84.6% 正确率,此前最强模型仅在 60%–70% 区间。 ARC-AGI-1 正确率达到 96%,在无工具辅助的人类终极测试 Humanity’s Last Exam 中达到 48.4%,明显领先 GPT-5.2 的 34.5% 与 Claude Opus 4.6 的 40.0%。 数理化奥赛水平全面达到金牌级别,可独立完成复杂逻辑推导与证明。 三、成本与效率:数量级下降 Gemini 3 将单任务推理成本大幅压低,ARC-AGI-2 单任务成本仅 13.62 美元,ARC-AGI-1 仅 7.17 美元,而前代顶尖模型成本普遍在 2000 到 3000 美元,成本降低 280 到 420 倍。 这让顶级推理能力从实验室奢侈品变成可大规模商用的普惠技术。 四、核心技术突破:Deep Think 深度推理 Gemini 3 采用全新 Deep Think 模式,核心是慢思考、自我修正与多路径并行搜索。 模型在输出前会自主构建多条解题路径,实时验证逻辑一致性
00:00 / 05:00
连播
清屏
智能
倍速
点赞5
00:00 / 06:00
连播
清屏
智能
倍速
点赞25