google 的 基于物理世界模拟为基础的世界模型生成器经历三震撼发布这是一个可以通过提示词输入创造环境并控制角色在里面自由活动的世界生成工具。让我们通过对宣传视频和实力的解读,带大家了解下这款工具带来的震撼。 这不是一个视频生成工具,而是真正能在里面游玩交互的世界。 这里输入对环境的描述,这里输入你对操控角色的描述。 提示词输入完毕后,很快生成了如图描述的画面。可以看到画面中的 w a s d space 可以 对狗进行控制,方向键可以控制镜头,就像我们玩三 d 游戏那样。实时的交互空格键可以让狗跳跃,还可以替换场景中的角色, 看到画面中的狗角色变为了气球,兔子也可以保持角色不变,重新生成场景。你可以输入和操控任何角色。 角色和场景道具可以产生正确的物理碰撞效果, 还可以定义角色的物理属性与交互效果。属性的定义甚至能带来玩法。 这里太令人激动了,甚至可以通过添加自己的图像来生成可交互的世界, 控制自己家的猫也不在话下。 更有趣的是,把自己作为游戏角色输入,这样的交互体验想象力太大了,甚至会改变以后游戏的制作流程。开头的展示就是用户生成的 gta 风格的可交互世界的画面。 接下来是一些用户生成集锦,这里看到生成了几乎和塞尔达和地铁跑酷一样的游戏画面, 可见这个模型采集了海量的游戏画面内容进行训练,是不是未来一句话就能生成游戏了,不再需要复杂的建模和动画?这一天感觉越来越近了,是应该期待还是恐惧呢?欢迎在评论区发表你的想法,这次分享就到这里,喜欢请一键三连,我们下期见!
粉丝5737获赞5.0万

这是谷歌刚刚上线的 project jenny, 玩法超级简单,随手拍一张你家猫主子或者客厅的照片上传,输入环境描述,再定义一下主角,下一秒 boom, 你 的照片活了!静态图片直接变成了一个可交互的三 d 世界。你可以操控这只猫在家里跑酷、探索,甚至连家里的仓鼠、壁虎都能变成游戏主角。 这可不是普通的视频生成,这背后是谷歌最硬核的全明星阵容,由 genie、 three、 nano、 banana pro 加上最强的 gemini 模型共同驱动。 它不是在生成画面,而是在实时理解物理规律,为你凭空造梦。你的相册就是你的游戏库。目前这还是一个网页应用原型,想抢先体验未来的朋友,网址我放评论区了,关注我,带你第一时间玩转最新 ai 黑科技!

二零二五年八月五日,谷歌 deepmind 甩出一张王炸, jennie 三横空出世,瞬间在 ai 圈掀起惊涛骇浪。这款世界模型宛如一位拥有神力的造物主,只需你输入一句简单的文本提示,比如火星无名地 眨眼间就能生成一个栩栩如生的交互式三 d 世界。 jennie 三的分辨率高达七百二十 p, 画面清晰的如同亲眼所见。更令人惊叹的是,它的物理模拟能力实现了重大突破。水流不再是简单的线条,而是能真实的流淌、飞溅。 光照也不再是单调的平面,而是能根据环境变化产生明暗对比,营造出逼真的光影效果。这种对物理世界的深度理解和模拟,让深沉的虚拟环境仿佛有了生命一般。从技术层面看, gini 三是首个支持实时交互的通用世界模型, 能以每秒二十四帧的速度深沉长达数分钟的动态环境,还具备持久视觉记忆能力,场景细节能精确保留,这一特性让他在自动驾驶训练、机器人及具身智能领域有着巨大的应用潜力。 能高效、低成本、低深沉大量训练场景。 gini 三的出现被视为迈向通用人工智能 agi 的 关键一步,它让 ai 从看懂世界迈向了操控世界的新阶段。然而,我们也要清醒地认识到, gini 三目前仍面临计算资源消耗大、 商用成本高昂的挑战。但无论如何,珍妮三已经为我们打开了一扇通往未来世界的大门。在这个充满无限可能的时代,我们既要勇敢地拥抱科技变化,也要谨慎地应对潜在风险,让 ai 真正成为人类进步的强大助力。

这是谷歌最近上线的 project journey, 你 可以随便导入一张图片,再简单描述环境、角色,就能生成一个可以随便走、随便看的可交互三 d 世界。你可以用键盘控制角色,随便走动,切换视角画面,还会跟随你的指令边走边生成三 d 世界。 更离谱的是,它可以理解物理世界,雪球滚过的地方会留下痕迹,撞到物体甚至还会有反馈,环境还能长期保持一致性。缺点是目前单次只能生成六十秒。 试想一下,当普通人用一句话、一张土就能生成有趣、能进行交互的三 d 世界,那传统的游戏引擎和影视也就迎来了属于他们的 g p d 时刻。 ai 有 料到,我们下次见!

哈喽,皮大哥,今天我来科普一下谷歌讲你三,它实现的体验非常简单,你可以在这里编辑这样的提示词,第一个是针对客户环境,第二个是针对角色本身。你可以领他的第一人称或者第三人称。他的算法会使用的 nano banana pro, 他 会先用个处的图像让我们发送提示词,让 gps 评分更大, 好,看起来不错。然后你点击创建世界,你也可以上传自己的图片。这身临其境的体验感真的很棒,尤其是当我们拿着 gps 导航旋转时,结果设备屏幕的地图竟然也跟着了视角精准旋转。 谷歌的开发人员表示,他们从来没有教过模型这些东西,这是 ai 自己从海量数据中自行领悟的物体法则,后续如果支配的 v 二十,背后的体验感应该更猛。我们就像作物主一样,我们所要做的就是给出一句提示词。当然,如果趁着内容没有达到预期,我们也可以重新操作一次。 在体验结束后,我们可以获得一分钟的视频,你只需要点击此按钮就可以下载它。今天的完美交互感觉就稍微低一点,这次的结束就到这,记得点赞关注,大家下次见。

昨天晚上我刚用苹果的 app 实现了一张照片,生成了一个三维的世界场景的功能,结果谷歌昨天晚上的时候,就是 在我发布那条视频的时候,他又更新了一个他们的加密三,他把它放出来了,就是用户可以通过提示词,现在就是生成一个三维的场景。现在用户还可以通过拍一张照片,很简单的一张照片,就像图中这样的一张 很简单的照片,他就能生成一个可以交互有物理效,有一些简单物理效果的一个三维场景。可以看到一张照片上传上去,然后创造一个写一个提示词,然后他就能有一个小人在这个三维空间里跑飞,还有这个小猫,拍了一张这个猫的照片, 他就可以在这个空间里进行行走、奔跑、跳跃之类的一些功能。啊,我昨天的时候就想做这样的功能,因为现在苹果的那个 app 的 那个功能现在还不够完美。你看现在谷歌已经可以上传一张自己的照片,然后他就能生成一个这样的一个虚拟世界,还能从这个虚拟世界里走, 嗯,这是我想要的东西,但是他目前没有开源,只有 ultra 的 用户才能体验。所以说我,哎呀,昨天刚想做这个东西,就被他抢先做出来了,所以我想想吧,我还继续做吗?嗯,这东西我觉着很酷。

谷歌昨天发布的这个君临山,说实话有点炸裂啊,你只需要用这样元素一句话,他就能给你构建一个全新的宇宙,你可以在这个属于你的宇宙里面行走、飞行,甚至你在探索的过程中,可以随时改变里面的元素。而且重点的是,这不是视频生成,这是可以创造无限可能的视 建模型。现在已经有很多的大神开始用君临山玩出花来了,比如说用一句提示词,直接做出了类似于赛尔达传说的开放世界,而且你真的可以操控角色。你注意看这个流畅度,这并不是提前算好的画面,而是你在往前走的过程中,这个世界才逐步深沉的, 甚至已经有人开始用它来复刻 gta 这个级别的城市世界,你可以在这个城市里飞车、跳伞,做各种你想做的事,这也算是抢先发布了 ai 版的 gta 六。说到这里,其实有一个特别关键的点,人工智能真正重要的 从来不是画面,而是它能不能和人产生真实的交互。你可以随手拍一下身边的物品,然后再次进入一个可以被你操控,被你影响的世界里面。更有趣的是,你甚至可以拍下你的宠物,让它成为你游戏里面的主角, 你们一起去探索一个未知的世界,只要你脑洞够大,你就是你所创造出来的宇宙的主宰。那问题来了,谷歌为什么要做世界模型呢?答案只有一个,就是 agi。 因为通用人工智能最需要的不是理解语言,而是真实世界是怎么运行的。 这里三不是一个视频生成器,他正在学习的是物体是怎么碰撞的,角色是怎么移动的,一个世界如何在时间里 持续的成立。这些支持的学习对机器人或者自动驾驶来说意义非凡。但现在的军旅商还是很早期,画面只有七二零 p, 每次体验大概只有一分钟。物理规则呢,也会偶尔翻车。但有一件事已经非常清晰了,世界模型这条路才刚刚开始。 ai 的 下半场不再是深层内容,而是深层,并遵循真实世界的逻辑。如果算列继续下降,时间持续拉长,也许有一天,你的一句话真的就是整个宇宙的起点。你觉得这是噱头还是 agi 的 未来已经在敲门了?评论区里我们讨论一下。 ok, 以上就是今天的所有内容,我们下期再见。

各位变天了,公告发的这个珍妮三,让我第一次觉得咱们手里的 solo 瞬间不香了。为什么?因为视频只能看,而这东西能进。简单说,他把你的一句话,一张草图,直接算成了一个有物理碰撞、能跑能跳的游戏世界。你看这只兔子,它会左右摇晃,会立定跳远,踩到水会有连衣。 这不是只有画面的视频,这是只有上帝才能写的物理法则。你要做的仅仅是按下键盘上的 w a s d, 那 这东西对你有啥用啊? 我总结了三点,很实在。第一,设计师的神器,不用学建模,画张草图,甲方直接就能进去逛一圈,比看图直观一万倍。 第二,带娃的魔法,孩子画了怪兽,你把它变成活的,让它自己操作,这哪怕是给孩子吹牛,都是顶级素材。第三,成年人的发泄污,心情不好, 生成一个可以随便破坏的房间,进去砸个稀巴烂。在这个世界,你是规则的主。我们总说要摆脱打工人心态,什么是打工人心态?就是被动执行, 而基尼给你的是主动权。从今天起,不管是做梦还是做方案,别光想把它造出来进去玩,这可能是我们这代人离造物主最近的一次。我是设计师妍妍,关注我,带你用 ai 创造属于自己的世界!

ai 界又出了个大巨头,震惊!谷歌刚刚发布了三 d 世界模型创作工具 project genie, 操作也非常简单,只要上传一张图像,输入环境描述,再定义一下主角,下一秒人物就在画面里活了过来,并且是可交互的。有了它,自己一个人做游戏完全不是梦。 而新你再不出 g t a 六,咱们玩家可就自己做出来了。并且机密三的潜在用途远不止于游戏。机密三逼真的可控环境有望为人们提供全新的学习方式,让学生探索古罗马等历史时期。这些模拟环境还可以在完全安全的环境下,用于在真实场景中训练自动驾驶车辆。 从静态像素到动态现实, project genie 不 仅仅是在生成内容,它还在人类想象力和可操作的物理流行之间搭建桥梁。

忘掉图像生成和视频生成吧! google 刚刚发布了可游玩的现实,今天我们要看的是 google d mind 的 最新杰作 jenny three。 这不仅是一个模型,它是一个能根据你的文字描述,凭空创造出可交互三 d 世界的创世神。创作过程简单的令人发指。你只需要提供 两组提示词,一个定义环境,一个定义角色。点击生成, gini 三就会为你构建一个长达六十秒交互式模拟器。最离谱的是,即使是在虚拟世界里, p p s。 屏幕也会随着你的转动及时同步画面。这种涌现出的物理模型让人头皮。 gini 三最神奇的功能莫过于录入照片,你可以上传一张二一照片,它能瞬间将其扩充为三 d 空间。视频中,博主甚至进入了一张科技博主合影。虽然脸部细节偶尔是真,但那种走入回忆的感 觉是前所未有的。甚至你还能在生成的虚拟电脑上操作 zoom 通话,实时结合到极致对话 d my 团队后,我们得知 gini 三的野心远不止于此。 他未来将应用于游戏开发的原型设计、电影拍摄的虚拟勘探,甚至是教育领域的灾难模拟。虽然目前仅限 out 用户体验,且单次时长为六十秒,但这已经是通往无限虚拟现实的第一步。

这两天,真正让 vr 圈坐不住的不是又一个视频模型,而是谷歌正式放出珍妮三,一个能实时生成,还能让你走进去的世界模型。一句话说清楚它牛在哪儿。珍妮三不生成视频,它生成世界,你输入环境和角色设定,回车之后出现的不是成片,而是一个三维空间。按下 w, 你 会往前走, 反动视角,左边和右边的场景实时补全,光影遮挡、反射同步变化。这不是播放,而是边走边算。这也是帧进三最恐怖的地方。在复杂建筑、快速移动、顶尖城市这些 ai 最容易翻车的场景下,它没有明显穿模,没有结构塌陷,说明一件事,它不是内部像素,而是空间和物理关系。 很多人说,这不就是可互动视频吗?不对,视频没有选择权。帧进三的世界,你可以偏好绕路贴墙走,系统会持续为你生成合理的下一步现实。当然,现在它还很早期,分辨率大约七百二十, p 个世界只能存在六十秒,而且需要谷歌权限,稳定性还不完美。但新世界的大门已经打开, ai 正在从模仿画面跨界理解规则。 以前他像画师,现在更像建筑师,甚至物理学家。这意味着,未来做游戏不一定先写代码,做虚拟空间不一定先建模。你只需要一句话, ai 就 能及时生成一个可探索的世界。真理三的诞生,值得铭记,世界模型已经从概念走进了现实。

就在昨天,谷歌公司又推出一个让科技圈直接炸锅的东西,这个项目的名称叫 jenny, 我 看到很多人看完之后都惊呼说,这可能真的是世界模型的开端了。 其实在此之前啊,我们都知道 ai 已经可以生成视频了,但是之前的视频生成 ai 只是局限在我们给他一段话,他能够生成一段画面,但是这个项目 jenny 不 一样,他生成的不是一段固定的,我们只能看的视频,他生成的是一个可以交互的三 d 的 世界。 给大家举个例子你就明白了。比如你随手用手机拍一张你们家猫咪在院子里的照片,几秒钟之后呢,这一张静态的照片就火了起来,它能够从一张普通的图片直接变成一个可以走动,可以探索,可以去交互的三 d 世界。 你甚至可以用鼠标来操控这个物体,在这个三维的世界里面到处走,到处看,好像就像玩一个小游戏一样。那么很多人可能还是会问,这个东西跟普通的 ai 视频生成到底有什么区别?其实关键就在于一句话,那就是这个东西它已经开始去理解这个场景背后的物理规则了。 比如这个系统知道东西碰到墙面是会反弹的,而且他不会穿墙而过,他也知道人和动物走到悬崖边会掉下去。他还知道如果你在桌子上去推开水杯,水杯会从桌子上跌落,他也知道物体之间会碰撞,但是呢,不会互相的穿透。 也就是说这个项目 jenny 呢,它懂得基本的物理规律,它是在构建一个由规则支撑的世界,而不是像原来一样简单的去堆像素,堆画面。这个东西之所以这么厉害,主要是因为它背后的技术阵容非常的强大。 那么除了这个 jenny 世界模型之外呢?它还包含了之前我给大家介绍过的,也是谷歌非常强大的 ai 大 语言模型 jimmy 奶。 所以这三个技术组合起来做的就不只是图像生成了,而是在理解场景,理解物体之间的交互关系,以及理解背后的物理逻辑, 所以大家才会把这个东西称之为世界模型。这次听起来好像真的不像是一个噱头了。不知道大家意识到没有,这个技术未来影响的不只是视频生成领域了,它还会冲击整个虚拟世界,游戏开发、仿真训练、教育系统,甚至所谓的原宇宙的底层逻辑都会被改写。 当 ai 不 只是生成画面,而是开始理解规则,模拟物理,构建可交互空间的时候,他迈的这一步其实已经不只是简单的技术升级了。说实话,未来会变成什么样,真的不敢想啊!点击头像关注我,我会持续在这里和大家分享世界前沿的科技和教育。

昨天,足易载入游戏史册,游戏引擎 unity 股价暴跌百分之二十四,创二零二二年以来单日最大跌幅。 gta 的 开发商 take two 也暴跌百分之十,原因就是 google 发布最新的 ai 模型 gni 三,它让做游戏变得像说话一样简单描述一个世界,它就时时生成一个你可以走进去, 在里面跑跳的互动世界。有人用它生成了塞尔达,有人几分钟生成了一个 gta。 资本市场恐慌的核心是,当创造世界的门槛崩塌,那么曾经垄断这个门槛的工具价值何在?这不是替代,而是一场彻底的重构。云梯体暴跌,不是因为 ai 今天就能做出元神,而是因为它的核心蓄势被动摇了。 云梯的估值建立在做游戏很难需要专业引擎这个共识上。而 jennie 三用一个生动的演示向所有人宣告,以后可能不需要这样了, 这就够了,资本看的永远是未来预期的折现。未来的游戏开发者不再需要写文案、写代码、画美术,一个好的创意就能做出一款好游戏,现在这些游戏公司可能都不会存在了。

物理引擎的时代可能要结束了。谷歌刚发布的 project genie, 三月费两百四十九点九九美元,别被这个价格吓到。这绝不是一个昂贵的视频生成器,它是人类历史上第一个商业化的自回归世界模型。 消息一出,视频游戏制作公司 unity 股价一度跌幅百分之二十五。为什么谷歌这么恐怖?因为他卖的不是视觉,是物理 ai 的 底层逻辑。为什么说他是革命性的?因为他彻底抛弃了人类写的物理代码。真理三,放弃了传统 l l m 预测单词的路线,转而预测下一个物理状态。 他通过无监督学习,自发理解了重力和碰撞。在他生成的七二零 p 空间里, ai 不 再只是在画世界,它是在每一真理实时演算。物理法则头、领奖大神央拉克朗曾断言,靠 l l m 预测下一个词永远无法实现 a g i, 因为语言只是文明的影子。而 jenny 正是拉坤梦寐以求的 warhol model 世界模型,它解决了 ai 最致命的幻觉问题, 他引入了视觉持久性,你推到一堵墙绕一圈回来,砖头依然碎在原地。 ai 终于开始像人类一样,具备了对物理现实的常识和敬畏。站在硅谷看,中美模型的路线分歧已经摊牌了,我们在疯狂卷审美和画质 追求的是视觉消费,而谷歌在死磕因果和逻辑,追求的是生产力革命。谷歌之所以领先,是靠自研 tpu 算力和 deep might 二十年的强化学习机电。他在为马斯克的 optimus 机器人 打造一个零成本的进化实验室。两百五十美金月费的背后,是谷歌对物理世界的傲慢与偏见。当虚拟世界的生成成本降到零,真实世界的独特性该如何定义? 这不是取悦大众的玩具,这是人类在数字维度重启文明的物理底座。如果你拥有这一分钟的创世权,你会如何改写这个世界的运行法则?我是赵博,欢迎点赞关注评论区,谈谈你对这个世界大模型的看法。