00:00 / 01:28
连播
清屏
智能
倍速
点赞2
00:00 / 03:43
连播
清屏
智能
倍速
点赞10
00:00 / 02:18
连播
清屏
智能
倍速
点赞2
00:00 / 04:06
连播
清屏
智能
倍速
点赞68
00:00 / 02:15
连播
清屏
智能
倍速
点赞4
00:00 / 00:30
连播
清屏
智能
倍速
点赞11
00:00 / 00:18
连播
清屏
智能
倍速
点赞3
【GPT-5.4重磅更新!AI竟能自己操作电脑了?】 #GPT54 #AI智能体 #计算机操作 #AIGC #AI学习 一、GPT-5.4 核心更新:原生计算机操作能力 1. 重磅功能:GPT-5.4 首次将计算机操作能力集成至大模型本身,通过 Playwright 编写代码操纵浏览器,识别截图图像,精准控制鼠标和键盘,实现跨应用的复杂交互(如自动发送邮件)。 2. 实现原理:模型通过截图对界面元素进行标注,对应操作鼠标点击,完成自动化任务。类似 Browser use、Manus 等工具的能力,但现在成为模型原生功能。 3. 案例演示:官方案例展示模型自动操作邮件发送,从识别元素到点击发送全流程。 二、其他关键更新与性能提升 1. 上下文窗口:扩展至 100 万 token,可处理超长文档。 2. 智能工具搜索:内置工具搜索能力,无需依赖外部 API,提升任务完成效率。 3. 训练效率:提升约 2 倍,推理速度更快(fast 模式下达 1.8 倍),降低算力消耗。 4. 多模态与视觉能力:支持数学像素理解,精准定位鼠标位置;处理图像、PDF 等更美观,电子表格/文档/PPT 生成效果更佳。 5. 基准测试表现: - GDPval(行业知识):提升至 83%。 - OSWorld(计算机操作):首次超越人类平均水平(72%)。 - BrowseComp(Agent 能力):显著提升。 - 代码能力:仍弱于 Claude OPS4.6,但其他指标多列第一。 6. 技术架构:采用 MoE 架构,引入稀疏注意力和线性注意力,优化时间复杂度,结合旋转位置编码、缓存优化等实现高效长上下文处理。 三、价格、生态与行业对比 1. 定价:API 价格比 GPT-5.2 贵 40%,达百万 token 180 美元,被吐槽“玩不起”;用户简单问题可能引发过度思考,性价比存疑。 2. 生态对比:GPT-5.4 为“全科医生”,覆盖多领域;Claude 为“专科医生”,代码重构和编写能力绝对领先(曾引发金融法律公司股价波动)。国产模型如豆包、千问等处于第二梯队。 3. 排名:Arena 竞技场目前排名第六,前有 Claude 等模型。 4. 应用场景:可实现自动化办公(如搜索资料、分析数据、生成报告并邮件发送)、生成交互游戏(如主题公园模拟)、跨应用任务处理等。
00:00 / 02:24
连播
清屏
智能
倍速
点赞43
00:00 / 03:09
连播
清屏
智能
倍速
点赞NaN
00:00 / 02:05
连播
清屏
智能
倍速
点赞10