GPT-5.2 到底强在哪?关键信息 + 提示词技巧一集讲完 GPT-5.2 终于正式发布了。 上一期视频里,我已经用 Cursor 提前体验了 GPT-5.2 在「编码和测试」上的表现,这一期我们把镜头拉远一点,从**基准测试、成本、长上下文、工具调用到真实用户反馈**,系统聊聊: - 一年内效率提升约 **390×**,ARC-AGI 等任务的成本是怎么从 4500 美元打到今天这个水平的? - GPT-5.2 在 **SWE-Bench Verified、GDPval、图表推理** 等基准上,相比 GPT-5.1、Opus 4.5、Gemini 3 Pro 具体强在哪里? - 幻觉率降低、图表 & 界面理解错误率大幅下降,对 **Agent 帮你“点电脑、看界面”** 实际意味着什么? - Hacker News 社区和 AI 媒体(比如 Every.ai 编辑)的真实体验:有人爱它的长线知识任务,也有人觉得写作还不如 Opus 4.5。 - 一个很酷的案例:研究者直接让 GPT-5.2 Pro 解决统计学习中的开放问题,最后人类只负责**验证和写清楚**。 最后,我会结合官方的 Prompt 指南,介绍几条**实用的 5.2 提示词策略**: - 如何在长上下文任务里,让它主动做摘要和重新定位焦点? - 写代码时,怎么防止它「擅自帮你扩展需求」和乱加样式? - 从 GPT-5.1 迁移到 5.2 时,effort / 模式应该怎么选,才能既省钱又稳定? - 做网页搜索和研究任务时,如何用「先给标准、再给指令、最后约束输出形式」的方式,减少幻觉和跑偏? 时间戳 00:00 – 与 Gemini 3 Pro / Opus 4.5 的对比 & 基准成绩 03:40 – 长上下文、工具调用 & 幻觉率大幅下降 05:10 – GPT-5.2 在科学和数学上的案例 06:30 – 官方 Prompt 指南 & 使用建议 + 总结 #ChatGPT #OpenAI #GPT52
00:00 / 07:48
连播
清屏
智能
倍速
点赞182
00:00 / 00:28
连播
清屏
智能
倍速
点赞2301
00:00 / 06:12
连播
清屏
智能
倍速
点赞0
00:00 / 01:32
连播
清屏
智能
倍速
点赞34
00:00 / 01:16
连播
清屏
智能
倍速
点赞0