00:00 / 01:31
连播
清屏
智能
倍速
点赞563
00:00 / 04:07
连播
清屏
智能
倍速
点赞56
VideoGameBench: AI 模型游戏智能的基准测试 普林斯顿大学研究人员发布了一个名为 VideoGameBench 的研究平台,用来测试视觉语言模型在实时视频游戏中的表现。这个基准测试集包含了 20 款经典游戏,涵盖了掌机和 PC 平台的多种游戏类型。 测试游戏包括《毁灭战士2》、《雷神之锤》等3D射击游戏,以及《塞尔达传说:梦见岛》、《超级马里奥大陆》等经典 2D 动作冒险游戏。 初步测试结果显示,即便是最先进的视觉语言模型也难以完成游戏的第一关。主要问题包括:视觉事件解读不准确影响决策、控制器和鼠标键盘操作精度不足、对游戏机制缺乏直观理解等。比如在《毁灭战士2》中,模型会误将已经死亡的敌人认作活着的目标。在《魔兽争霸2》中,模型难以准确控制鼠标点击位置。 与以往专注于单一游戏的强化学习方法不同,VideoGameBench 探索了视觉语言模型在未经专门训练的情况下处理多种游戏类型的潜力。这种方法更接近人类学习游戏的方式,也为评估模型的推理能力提供了一个直观易懂的测试场景。 从更宏观的角度看,该研究揭示了当前人工智能系统在处理需要多模态理解、长期规划和空间推理的任务时仍存在明显短板。这些挑战或将推动视觉语言模型在实时交互、多模态理解等方面的进一步发展。 该项目已开源,考虑到测试中使用了商业游戏,用户在运行基准测试前需确保拥有相应游戏的合法授权。 #VideoGameBench #游戏测评 #魔兽争霸 #雷神之锤 #毁灭战士
00:00 / 01:32
连播
清屏
智能
倍速
点赞1
00:00 / 02:57
连播
清屏
智能
倍速
点赞573
00:00 / 00:10
连播
清屏
智能
倍速
点赞175
00:00 / 02:07
连播
清屏
智能
倍速
点赞6
00:00 / 02:44
连播
清屏
智能
倍速
点赞2
00:00 / 00:45
连播
清屏
智能
倍速
点赞10