Qiuming5天前
OpenAI发布GPT-5.4,实现原生电脑操控,全方位登顶 OpenAI发布GPT-5.4,实现原生电脑操控,全方位性能登顶 在被竞争对手压制一个月后,OpenAI于深夜突然发布下一代旗舰模型GPT-5.4,凭借其无短板的全面性能,一举粉碎了Gemini 3.1 Pro和Claude Opus 4.6的神话。 此次发布的亮点在于实现了“推理+编程”的合流。GPT-5.4不仅继承了强大的编程基因,更是首个具备 「原生电脑使用」 能力的通用模型。它能像人类一样识别UI界面、操控键鼠,在软件和网页间自由穿梭执行任务,在OSWorld-Verified基准测试中以75%的成功率超越了人类专家和Claude Opus 4.6。 在性能方面,GPT-5.4实现了全维度碾压: 推理与知识工作:在GDPval基准测试中得分83%,媲美顶尖人类专家;在模拟投行分析师测试中得分高达87.3%,制作的PPT也更受人类偏爱。 数学与科学:在FrontierMath数学测试中排名第一。 抽象推理:ARC-AGI-2测试得分83.3%,远超Gemini 3.1 Pro (77.1%) 和 Opus 4.6 (68.8%)。 编程能力:在SWE-Bench Pro编程测试中排名第一,准确率超越前代Codex模型,且Token效率更高、速度更快。 此外,GPT-5.4还引入了 「工具搜索」 功能,大幅降低了Token使用量;其视觉感知能力大幅提升,幻觉率较前代降低了33%。在思考过程中,用户可以随时介入调整,无需推倒重来,极大提升了交互效率。 此次发布标志着OpenAI在通往AGI的道路上重回王座,凭借其在推理、编程、计算机操作等多条战线上的顶尖表现,彻底改变了当前的AI竞争格局。 https://x.com/OpenAI/status/2029620619743219811?s=20 https://developers.openai.com/api/docs/models/gpt-5.4 https://openai.com/index/introducing-gpt-5-4/
00:00 / 04:09
连播
清屏
智能
倍速
点赞0
00:00 / 02:03
连播
清屏
智能
倍速
点赞58
00:00 / 08:40
连播
清屏
智能
倍速
点赞11
00:00 / 06:17
连播
清屏
智能
倍速
点赞198
00:00 / 01:17
连播
清屏
智能
倍速
点赞12