00:00 / 06:46
连播
清屏
智能
倍速
点赞115
什么是 JEPA ,它和世界模型有什么关系? 或许你听说过 JEPA 这个词,但它究竟在做什么的?AI 科普达人 New Machina 将用 4 分钟的时间让大家了解这个世界模型背后的重要概念! 简单说,JEPA 是一种让模型学会 “预测” 的方法,不过它预测的不是像素,也不是下一个 Token,而是更抽象的东西:数据背后的“表示”。 JEPA 的全称是 Joint Embedding Predictive Architecture,联合嵌入预测架构。这个名字听起来复杂,其实核心思想不难理解:就是把图像、文本、传感器信号等不同形式的数据都转成一种共同的表达形式,然后在这个空间里做预测。 这里的关键是 “嵌入空间”,也叫潜空间。你可以把它理解为一种压缩后的表达。模型不再盯着每一个像素、每一个字词,而是提取出更有意义的结构,比如物体之间的关系、语义信息、因果线索。噪声、纹理、随机性会被过滤掉,留下对理解和决策更重要的部分。 和常见的生成模型不同,JEPA 不负责 “生成” 图像或文本。它不去逐个像素还原画面,也不去一个字一个字往外写。它做的是在潜在空间中预测,如果当前状态是这样,接下来可能会怎样?换句话说,它更像是在做模拟,而不是创作。 这点在世界模型中尤其重要。一个完整的世界模型,通常包括以下5个部分: 1. 把输入变成状态表示 2. 根据当前状态做预测 3. 决定可以采取哪些动作 4. 记录历史信息 5. 通过模拟未来来做规划 在这个框架里,JEPA 天然适合承担 “状态” 和 “预测” 这两块。它把原始输入转成紧凑的潜在表示,然后预测下一个潜在状态。规划模块再基于这些预测,模拟不同动作带来的结果,选出更优的方案。整个过程都在潜在空间里完成,不需要频繁生成像素或文本,效率更高,也更稳定。 这也是 JEPA 受到关注的原因之一。传统生成式方法在很多任务上表现不错,但当目标变成长期预测、复杂决策或多模态融合时,逐 Token 或逐像素生成就显得笨重。JEPA 提供了一种不同的方式。它不急着生成结果,而是先建立对世界结构的内部表示。 长远看,这种思路将对机器人、自动驾驶以及需要与真实环境持续交互的系统更有意义。因为这些系统的核心问题不是 “生成一段话”,而是 “理解当前发生了什么,以及下一步会发生什么”。 #世界模型 #JEPA #AI技术
00:00 / 04:05
连播
清屏
智能
倍速
点赞16
00:00 / 00:12
连播
清屏
智能
倍速
点赞31
00:00 / 03:33
连播
清屏
智能
倍速
点赞15
00:00 / 04:48
连播
清屏
智能
倍速
点赞171
00:00 / 01:55
连播
清屏
智能
倍速
点赞3034
00:00 / 01:16
连播
清屏
智能
倍速
点赞6237
00:00 / 03:12
连播
清屏
智能
倍速
点赞1893
00:00 / 14:17
连播
清屏
智能
倍速
点赞27
00:00 / 00:54
连播
清屏
智能
倍速
点赞9
00:00 / 04:50
连播
清屏
智能
倍速
点赞1090
00:00 / 03:14
连播
清屏
智能
倍速
点赞54