OpenAI 正式发布 GPT-5.5,并已面向 ChatGPT Plus、Pro、Business 和 Enterprise 用户开放,Codex 也同步升级。API 版本官方称会“很快”上线。 这次 GPT-5.5 的重点不是单纯堆算力,而是四个字:更聪明,也更省。 OpenAI 表示,GPT-5.5 在实际服务中的每 token 延迟基本与 GPT-5.4 持平,但完成同类 Codex 任务时消耗的 token 更少。也就是说,体验速度没明显变慢,能力和效率却都往前推了一步。 从公开跑分看,GPT-5.5 在多个复杂任务基准上刷新成绩: Terminal-Bench 2.0 拿到 82.7%,高于 GPT-5.4 的 75.1%,也领先 Claude Opus 4.7 的 69.4%。 OSWorld 得分 78.7%,与 Claude Opus 4.7 的 78.0% 基本处在同一梯队。 GDPval 得分 84.9%,在对标 44 个职业专家产出质量的测试里继续领先。 不过在 SWE-Bench Pro 上,Claude Opus 4.7 仍以 64.3% 领先 GPT-5.5 的 58.6%。值得注意的是,OpenAI 自己也在相关表格中提示该基准存在记忆化问题。 更值得关注的是数学、科研和专业任务能力的提升。FrontierMath Tier 4 从 GPT-5.4 的 27.1% 提升到 35.4%,相比 Claude Opus 4.7 的 22.9% 领先明显。OpenAI 还提到,一篇关于 Ramsey 数的新证明,是在 GPT-5.5 内部版本辅助下发现的,并已通过 Lean 验证。 在新推出的 GeneBench 中,GPT-5.5 也拿到 25.0%,高于 GPT-5.4 的 19.0%。这个测试主要考察多阶段遗传学数据分析能力,说明模型在科研工作流上的可用性继续增强。 第三方机构 Artificial Analysis 的数据也很有意思:在相近智能水平下,GPT-5.5 的 token 消耗大约只有竞品前沿编码模型的一半。对于 API 用户来说,这不只是性能提升,也可能直接影响使用成本。 #ChatGPT#chatgpt5发布 #ChatGPTplus#ChatGPTpro
00:00 / 00:55
连播
清屏
智能
倍速
点赞6
00:00 / 00:55
连播
清屏
智能
倍速
点赞9
GPT-5.5来了:它开始像研究助理和电脑操作员了? 2026年4月23日,OpenAI 发布 GPT-5.5,也就是大家口中的 ChatGPT 5.5。它最值得关注的地方,不是“更会聊天”,而是更接近一个能处理复杂任务的工作型助手。按照 OpenAI 的官方介绍,GPT-5.5 更擅长理解用户目标、调用工具、检查自己的工作,并把多步骤任务持续推进下去。换句话说,它正在从“回答问题的模型”,走向“接手任务的协作者”。 这期视频会用尽量清楚的方式,介绍 GPT-5.5 的几个核心变化:第一,它在代码代理和长程任务上明显加强,比如 Terminal-Bench 2.0、SWE-Bench Pro 等评测都有提升;第二,它更适合知识工作和科研场景,可以辅助资料检索、数据分析、文档表格制作、PDF 阅读和研究思路整理;第三,它在 ChatGPT 和 Codex 中率先逐步上线,发布时 API 还未同步开放;第四,能力增强也带来更高的安全要求,OpenAI 在 System Card 中专门讨论了网络安全、生物化学、提示注入、误删数据和用户确认等问题。 对普通用户来说,GPT-5.5 的正确打开方式,不是只问一个孤立问题,而是把它当成项目协作者:给它目标、材料、限制条件和验收标准,让它先规划,再执行,再复核。对研究者、创作者、程序员和知识工作者来说,这类模型的价值不在于替代人的判断,而在于把大量重复性劳动、资料整理和中间步骤交出去,让人把精力重新放回判断、解释和创造。
00:00 / 04:01
连播
清屏
智能
倍速
点赞0
00:00 / 01:05
连播
清屏
智能
倍速
点赞36
00:00 / 00:14
连播
清屏
智能
倍速
点赞121
00:00 / 00:20
连播
清屏
智能
倍速
点赞4
00:00 / 00:14
连播
清屏
智能
倍速
点赞17
00:00 / 00:43
连播
清屏
智能
倍速
点赞7
00:00 / 00:06
连播
清屏
智能
倍速
点赞34