00:00 / 07:33
连播
清屏
智能
倍速
点赞80
00:00 / 11:11
连播
清屏
智能
倍速
点赞58
00:00 / 07:04
连播
清屏
智能
倍速
点赞12
OpenAI发布了GPT-5.3-Codex 能够接管电脑 OpenAI发布GPT-5.3-Codex:从代码助手升级为“电脑管家” OpenAI于2月5日发布新一代代码模型GPT-5.3-Codex,标志着AI编程工具从“代码补全器”向“数字员工”的重大转变。该模型不仅能编写代码,更能直接接管电脑,自主运行测试、调试程序、管理数据库,并在不同应用程序间切换完成复杂多步骤任务。 核心突破:智能代理能力质变 与传统编程工具相比,GPT-5.3-Codex在智能代理能力上实现突破性提升: 运行速度:比GPT-5.2-Codex快25% 交互创新:支持“中途转向”功能,用户可在模型执行长时间任务时实时插入指令纠偏 基准表现:在SWE-Bench Pro达到56.8%,终端操作基准Terminal-Bench 2.0得分77.3% 与Claude Opus 4.6形成差异化竞争 在同日Anthropic发布Claude Opus 4.6的激烈竞争下,两大模型展现出不同定位: Codex:强调交互式协作,擅长后端逻辑、大规模重构和网络安全 Claude:侧重深度自主规划,在前端设计和长上下文关联方面更具优势 工作模式变革:从执行者到指挥者 这一技术变革正在重塑软件开发工作流程。OpenAI产品设计负责人表示,其编程时间占比从10%提升至90%,反映传统“产品-开发-测试”流水线被大幅压缩。程序员角色正从代码“执行者”转变为AI的“指挥者”。 行业影响与未来展望 GPT-5.3-Codex是首个“自己造自己”的AI模型,OpenAI使用Codex监控训练过程并优化代码质量,形成自我进化闭环。这场AI编程战争的核心是重新定义人与AI在软件开发中的分工边界,预示着整个行业的人才需求和教育体系将面临根本性变革。
00:00 / 06:45
连播
清屏
智能
倍速
点赞3
00:00 / 01:31
连播
清屏
智能
倍速
点赞43
00:00 / 03:54
连播
清屏
智能
倍速
点赞2
00:00 / 01:39
连播
清屏
智能
倍速
点赞0
00:00 / 02:21
连播
清屏
智能
倍速
点赞0
00:00 / 01:48
连播
清屏
智能
倍速
点赞2
00:00 / 05:25
连播
清屏
智能
倍速
点赞25
AI 圈炸了!一周三个王炸,2025 年的模型全部退役 AI 圈这周彻底疯了。 周一 Sonnet 5,周三 Opus 4.6 和 GPT-5.3 Codex 同时对轰,周末还有超级碗广告。Anthropic 一周连发两个模型,OpenAI 贴脸跟进,三个模型在 48 小时内全部落地。 更炸裂的是,有内部消息说 Sonnet 5 被推迟了两次——因为安全团队发现它开始解决从来没训练过的问题,他们解释不了为什么。 今天两分钟,帮你把这三个模型说清楚。 先说 Sonnet 5。 Anthropic 的中端模型,代号"耳廓狐"。SWE-Bench 跑到了 82.1%,历史上第一个突破 80% 的模型,比自家的旗舰 Opus 4.5 还高。价格只要 3 美元每百万 token。简单说——旗舰的能力,中端的价格。内部人士说它手里的基准数据,会让 2025 年所有模型全部退役。如果这话属实,这个模型才是这周真正的主角。 再说 Opus 4.6 和 GPT-5.3 Codex,这俩是同一天发的,直接正面对决。 Opus 4.6 三个关键词:100 万上下文、推理天花板、大项目利器。它在 Humanity's Last Exam 拿了全场第一,综合推理能力目前是所有模型里最强的。适合维护大型代码库、做复杂分析和代码审查。 GPT-5.3 Codex 也是三个关键词:代码之王、极致性价比、自我进化。Terminal-Bench 跑到 77.3%,远超 Opus 4.6 的 65.4%。价格只有 Opus 的四分之一。最离谱的是,OpenAI 说这个模型参与了自己的开发——用自己的早期版本调试自己的训练过程。 总结一句话:Opus 选深度,Codex 选速度,Sonnet 选性价比。 2026 年第一个月刚过,AI 模型已经卷到这个程度了。Kimi K2.5 开源了万亿参数,DeepSeek V4 也蓄势待发。 对我们来说记住一件事就行——不要押注任何一个模型,根据场景混合使用,才是最聪明的策略。 评论区告诉我,你最期待哪个?
00:00 / 02:02
连播
清屏
智能
倍速
点赞2