ahr 又炸了,尹伟达亲自下场开源了三纳 wm 项目,只要给一张图,就能生成一分钟的七二一 p 世界漫游视频,你可以像导演一样指挥镜头啊,而且模型只有二点六 b 的 参数。全开源 什么概念呢?就是一张普通的三零六零显卡就能出片儿。那萨纳 w m 意味着什么呢?是 ai 视频的 iphone 时刻到了吗?先说它确实牛啊,二点六 b 的 超小参数比很多闭源模型还要小一个数量级,但效率却比同类高三十六倍。 实测在 rtx 五零九零上,三十四秒就能出片儿,对比 cds, 二点零啊,十五秒的视频,加上排队的时间,往往需要十分钟以上, 这意味着什么呢?高端的创造能力直接被下放到了消费级的硬件。以前拍科幻短片,你需要剧组特效,几十万的预算,现在一张显卡一个想法就能出片, 一个人就能做 ai 视频导演,创作门槛直接被抹平了。当然,它也有不足啊,电影级的细节依然达不到,生成的视频的后半段纹理会明显的下降,镜头加速时啊,画面也可能会飘。 但是啊,二点六 b 参数的超小模型,它的优势当然不是和好莱坞比划值,是指数级的效率提升。 什么意思呢?视频创作的成本直接被怎么说呢?这都不叫腰斩了,这直接从脚踝往上都给斩没了。以前呢,一分钟的特效视频,成本是几十万,周期是几周,现在成本就是一张显卡的电费,周期是三十四秒。 这效率可不是限性的提升啊,是数量级的跃迁。当成本降到原来的百分之一,会发生什么?短视频创造者不再需要素材库,让 ai 生成一张图片就行。独立游戏开发者不再需要美术团队, ai 直接帮你出场景, 小公司也能拍出大厂级别的产品演示,医疗、教育、广告、建筑等等等等。任何需要视觉呈现的行业门槛全部被磨平了。这意味着,传统的视频岗位将会被完全重构,不再需要剪辑师,不再需要特效师,而是全新的岗位。 这些岗位啊,现在没人会,也没人懂,大学没教过培训班也没开过课,行业里也没有钱,背袋 对所有人来说都是空白。也就意味着没有内卷,没有天花板,谁先入场,谁定义规则,妥妥的蓝海市场。那么问题来了,这个全新的蓝海市场,你准备什么时候入场?评论区告诉我你的计划!
粉丝5251获赞2.4万

新的世界模型来了,而且是全开源。这个叫 c n w m, 只有二点六 b 参数,但能在单张图片、文字提示和六大相机轨迹的条件下生成分中极七二零 p 可控世界。它和普通大语言模型最大的区别是, l m 预测下一个词, 世界模型预测世界下一秒会变成什么。你往前走,画面要连续,你转弯空间不能崩,光影、地形、物体关系都要保持一致。所以它能做很多 l l m 做不了的事。生成可探索场景, 模拟动作后果,给游戏机器人训练自动驾驶和 vr 做虚拟环境。简单说, l l m 是 语言中书世界模型更像 ai 的 想象力和物理直觉。我是硅谷赵博,关注我,第一时间看懂硅谷最新动态。

英伟达刚放出萨纳 w m 一个二点六 b 参数的开放世界模型,它的目标很直接,给一张图, 再给一条相机轨迹,生成七二零 p 最长一分钟的视频。关键挑战时,一分钟后场景还能不能保持一致。官方页面展示的样片里有固定视角、前进、旋转、俯仰等六 d o e f 相机控制,这对具身智能很重要,因为模型要学会相机移动时 世界怎么连续变化。四 n a w m 的 规模是二点六,比比很多工业级闭元模型小得多。论文称它用约二十一点三万个公开视频片段训练带有公制度量的相机位姿标注,训练成本是六十四张 h 一 百跑十五天。推理端单张 h 一 百可以生成六十秒七二零 p 视频 蒸馏版本,在 r t x 五零九零上用 n v f p 四量化六十秒七七二零 p 去噪只要三十四秒。架构上核心是 hybrid linear attention, 把竹珍 getty detonate 和周期性 selfmax 注意力组合起来。它的意义是压住长上下文显存, 避免一分钟视频直接爆掉。控制上,它有双分支,一个负责大局未咨,一个做像素对齐的精细几何。质量上,它先生成长片段,再用十七 b 长视频 refiner 做第二阶段戏化。所以你会看到样片里轨道前进、空间尺度、后半段纹理都比普通开源长视频更稳。但也要注意, 官网的 modus 按钮目前还是灰的完整,权重释放节奏还要继续看,这意味着它现在更向论文和工程路线发布,离一键复现还有距离。我的判断三呢, w m 最值得看的是四件事同时成立一分钟七二零 p 相机控制单卡效率。

英伟达这条视频真正的关键词是可控世界 sns 输入一张图、一段文字,再加一条相机轨迹,就能生成一分钟的七二零 p 视频。它的模型规模只有二十六亿参数, 官方说,推理可以跑在单张 gpu 上,这对世界模型很关键,因为过去这类长视频模拟往往又吃数据又吃算力。论文给出的训练量也很克制, 约二十一万三千段公开视频,六十四张 h 一 百训练十五天核心能力在相机控制模型,要按六自由度轨迹前进,转向回看,同时保持场景身份,所以它更像给机器人、自动驾驶、游戏和数字孪生提供低成本的可控模拟器。技术上有四个抓手,混合限性注意力、双分支、相机控制、 两阶段细化,以及相机姿态标注流水线。其中最值得盯的是效率。论文称,在一分钟世界模型基础上, 相比开源基线最高有三十六倍吞吐提升,蒸馏版本甚至能在 r t x 五千零九十上用 nv f p 四量化,快速生成一分钟七百二十 p 片段。短期看,这是开源视频生成的一次提速。 中期看,是英伟达把世界模型推向单卡开发者生态真正的拐点。在成本降到足够多,团队可以反复试错。当可控长视频变便宜, ai 就 开始从生成内容走向生成可训练、可测试、可探索的环境。

如何抓住英伟达 soundw m 带来的技术红利?看完视频直接上路, ai 圈彻底炸锅了!英伟达开源了一个叫 soundw m 的 世界模型,彻底解决目前 ai 视频生成的时长魔咒。 目前的 ai 视频生成撑死十五秒,还是抽卡式的,但这次英伟达直接把时长拉到了分终极。一、 这对我们普通人来说意味着什么?二、我们又该如何借助他搞钱呢?一个视频给你解个透,在开始前先放个深水炸弹。我们推出了警护 o p c 社区,只在聚集更多艺人、公司、创业者,感兴趣的朋友留下 o p c 三个字母,现在开始。一、这对我们普通人来说意味着什么? 第一,告别显卡焦虑。以前想玩顶级的 a a i 视频,那是科技巨头的游戏,现在 soundw m 把成本砍到了地板上,让分中级高清视频生成真正进入了个人电脑时代。 第二,从抽卡变成导演。以前的 a a i 视频全靠随机生成,像开盲盒,但 soundw m 支持精准的相机控制,你可以像真正的导演一样指挥镜头,直接让 a a i。 视频具备了拍电影、做短剧的工业级水准。 第三,虚拟世界大爆发。它本质上是个能理解物理规律的模拟器,这意味着未来我们玩的游戏体验的 vr 场景可以无限大、无限逼真,而且开发成本极低。 二、我们又该如何借助它搞钱呢?在这里给大家三条业务路径。第一,做 ai 视频导演接单。现在市面上极其稀缺可控的 ai 视频,你可以利用 snwm 的 精准运镜能力 去接电商的产品,展示视频、自媒体的定制片头,甚至是帮人做带有复杂分镜的创意短片,借助它,你已经能精准交付了,甚至是降维打击。 第二,低成本开发独立游戏。你可以利用 soundawm 的 实时推演能力,一个人就能生成庞大且逼真的虚拟场景,去做创意十足的独立游戏,发到 steam 上卖美术,成本直接打骨折。 第三,卖仿真数据和卖铲子。很多搞自动驾驶和机器人的团队,缺乏带有物理反馈的仿真视频数据, 你可以用本地显卡批量生成这些特定场景视频,打包成数据即出售。或者趁现在大部分人还不会用,赶紧做部署教程,做技术社群,赚第一波卖铲子的钱。这个我们也做,有兴趣的朋友留下教程二字,点赞、收藏加关注,请护前沿管世界,前沿在线带你抓住时代红利!

毫无预告,全球芯片霸主英伟达直接把世界模型玩明白了。全新开源上的 w m, 彻底打破 ai 视频生成的算力枷锁。这款仅二十六亿参数的世界模型,不走堆参数的老路,真流版适配单张 r t x 五零九零就能运行, 三十四秒即可生成一分钟七百二十 p 稳定视频,解决传统 ai 视频常持续漂移、穿模、结构崩塌的行业顽疾。它依靠双分之六代 f 相机控制与混合线性 dat 架构,先构建物理空间逻辑,再渲染画面精准跟随镜头运动场景一致性,拉满 深层效率,相较同类模型最高提升三十六倍。英伟达不再引导行业盲目卷算力,而是将高端世界模型能力下放到消费级硬件,大幅降低自动驾驶、仿真游戏、虚拟场景、机器人训练、影视虚拟拍摄的落地门槛。 当虚拟世界构建不再被超级算力绑架,创作者与中小团队都能轻松入局,你认为哪个领域会最先迎来彻底重构?

哈喽大家好,欢迎来到咱们这期播客。今天要聊的可是 ai 世界建模领域的一个大突破三呢, web 号称能实现分终极的世界建模,简直是效率革命啊! 没错没错,我之前就听说过,世界模型不就是那种能模拟复杂环境,预测未来场景的 ai 吗?但好像之前大多只能生成短时间的视频,分终极的难度很大吧? 你说的太对了,这就是咱们今天要讲的第一个点,分终极世界建模到底难在哪?首先啊,世界模型本身是生成式 ai, 目标是模拟环境,预测未来状态。但现在的系统顶多生成几秒的高质量视频,要扩展到一分钟麻烦可就大了 哦。具体有啥麻烦,我猜是不是跟计算量、数据量有关?完全正确,行业里的标准系统要做长视频生成,得用超大的数据集,还得几千块 gpu 一 起训练,成本高到离谱。 而且很多方法是从短片段模型里蒸馏,长系列性能就容易出现漂移,生成着生成着场景,跟一开始就不搭边了,轨迹也歪了。那 s n、 o m 是 怎么解决这些问题的? 它厉害就厉害在采用原声训练,不是从短模型蒸馏,而是直接训练长训练,这样就能保证长时间的场景识别和轨迹准确,不会漂移。 而且它用了混合架构,平衡了限性注意力的内存效率和 softmax 注意力的细节召回能力,还有双分之相机控制和两阶段生成管道,计算和数据需求都大幅降低了,还能生成七二零 p 分 辨率长达六十秒的六 d o 非相机控制视频呢。 六 d o f 相机控制?就是那种能自由控制相机前后左右旋转的那种吧?听起来就很牛,不过这个混合架构具体是啥呀?能不能给咱们掰扯清楚? 没问题,这就是咱们第二节要讲的混合限性扩散 transformer 架构。 cna 五 m 的 基础是扩散 transformer, 也就是 d i t。 你 知道标准 transformer 用的是 softmax 注意力吧? 这玩意儿的计算复杂度是跟序列长度从二次方增长的七二零 p 分 辨率六十秒的视频,那 token 数量可是天文数字,根本处理不了。那可不,二次方增长的话,序列变长一点儿,计算量就爆炸了。那 s a n w m 是 怎么改的? 它搞了个混合骨干网络,分两部分,第一部分是竹真门控 delta net 简称 g d n。 这个 g d n 被调整成竹针处理,每个循环步骤只处理一个潜在针,还维持一个紧凑的循环状态,内存开销是恒定的,不随序列长度变,而且还加了个代数稳定因子,防止隐藏状态无限增长,避免训练崩溃或者视觉漂移。 听起来这个 g d n 效率很高啊,但会不会有啥缺点?你问到点子上了。 g d n 虽然高效,但很难精确回忆远程信息,而这对场景持久性特别重要,就是生成视频的时候得记住一开始的场景是什么样,不能后面就变了。 所以赛特 v m a 又加了交错式 softmax 注意力,把十五块真级 g d n 和五块 softmax 注意力交错排列,这样就兼顾了现行地规的效率和精确注意力的保真记忆,两全其美。 哦,原来如此,相当于用两种注意力方式互补,对吧?那刚才提到的六度放相机控制又是怎么实现的呢?我记得之前的模型好像很难做到精确控制。 这就是第三节的双分支相机控制了。塞尔 w m 用了两个分支来解决这个问题。第一个是粗力度控制,叫射线局部 u c p e, 它以潜在帧率运行,用统一位置编码表示相机的全局六 d o f 姿态,还为每个视觉标记构建射线局部机,让注意力机制能感知相机在三 d 空间里的方向和位置。 那粗力度控制应该是管整体的大方向,对吧?那细微的相机运动呢?比如稍微转个小角度或者移动一点点,能捕捉到吗? 问的好,这就靠第二个细力度控制了,叫普吕克混合,因为 ve 压缩的原因,单个潜在标记代表好几个原始视频,帧时间不符是八,就容易把细微的相机运动给模糊掉。 所以细力度分支就从每个原始帧获取像素级的普吕克射线图,这是相机射线的几何表示,处理完之后加到每个 transformer 块的自注意力输出里,这样细微的运动就能被捕捉到了。 哇,这两个分支配合起来,相机控制应该就很精准了吧?那生成视频的时候是一步到位吗?还是有什么步骤不是一步到位的?它用了两阶段,生成与精修,这就是第四节内容。为了在有限的训练资源下最大化视觉质量, sina wm 分 两步走。 第一阶段是基础生成器,主要侧重结构一致性和遵循相机轨迹,先把整体的框架和轨迹给生成。对了, 那第二阶段就是精修细节了。错,第二阶段是个独立的三 d 扩散模型,用流匹配公式训练的,专门做长视频精修, 他接收第一阶段的输出,然后进行清理,改善细节,减少时间闪烁。而且还用到了参考条件,把目标潜在空间里的高质量干净切片作为锚点标记,当成固定的键和值,这样就能保证精修器在长时间相机运动的时候,场景外观一直保持一致,不会修着修着就变样了。 听起来这个两阶段流程很合理啊,先搭骨架,再填细节,那训练这么厉害的模型,数据肯定得跟上吧?我记得世界模型对数据要求很高,尤其是相机原数据,普通视频好像没有这些信息。 你说的太对了,这就是第五节要讲的数据管道与标注。训练世界模型需要高质量的视频数据和精确的相机原数据,但大多数互联网视频都没有这些,所以研究人员专门开发了鲁棒的标注管道,创建了一个二十一点三万片段的数据集。 二十一点三万片段,这规模不小啊,具体是怎么标注的?分三步,第一步是姿态标注,用增强版的 vip 一 姿态引擎整合了 ps 三 x 和模 g, 二来做深度估计和结构重建,从标准视频里恢复出度量尺度的六到 5 相机姿态。 第二步是三 d g s 增强对静态场景,用高斯坡键重建三 d 环境,然后渲染带有合成相机路径的新一分钟视频,这样就能提供完美准确的真实轨迹共模型学习。那第三步呢?应该是过滤吧,毕竟这么多数据肯定得挑质量好的 错。第三步就是严格过滤,确保数据的视觉质量、运动一致性和相机焦距稳定性,绝对不能让模型在低质量画面上训练,不然学出来的东西肯定不行。有了这个高质量的数据级模型的训练,才有了坚实的基础。 那说了这么多技术细节,实验结果到底怎么样?效率真的有那么高吗?这就到第六节的实验结果与效率了。研究人员专门做了个定制的六十秒精准,包含简单的平滑平面路径和困难的循环交叉长距离返回轨迹。 先看准确性与质量,跟其他开源世界模型比,塞尔 w m 的 相机依从性特别好,在困难轨迹上的旋转误差只有八点三四度,远低于现有系统。而且 v bench 视觉质量评估和大型工业模型差不多,还能运行在更高的七二零 p 分 辨率下,需要的资源却更少, 这质量够厉害的。那效率呢?刚才说的降低计算需求,具体是多少效率才是它的重头戏。单张 h 一 零零 gpu 大 概二十二分钟就能生成完整的六十秒七二零 p 视频, 要是用蒸馏优化版加上 nvfp 四量化消费级的 rtx 五零九零只需要三十四秒。你想想,传统的只用 softmax 的 模型处理这么长的虚列,经常内存溢出根本跑不了。而三代 wm 就 算视频时常增加内存和延迟,也能保持在可管理的范围。 我的天,消费级显卡三十四秒就能生成一分钟的七二零 p 视频,这简直是把门槛拉低了太多啊!那这个三二 w m 的 意义到底是什么?未来还有啥发展方向? 这就是最后一节要讲的意义与未来方向了。首先它最大的意义就是普及了分中级世界建模的访问,之前得用大型 gpu 集群,现在单个高端工作站就能搞定, 更多研究者和开发者都能参与下来了。而且他生成的视频还能通过高斯破建重建三 d 场景,这说明他学的是三 d 空间的内部表示,不是简单的二 d 像素模式,这可是质的飞跃哦,原来他真的理解了三 d 空间啊,那未来能扩展到哪些领域? 现在的模型主要专注于相机控制,但这个架构可以扩展到其他动作空间,比如机械臂运动或者车辆控制,以后说不定能用于机器人模拟、自动驾驶、仿真这些领域。未来的工作还可能进一步扩展模型,整合更持久的场景记忆,探索交互式模拟的实时流媒体应用, 想想就很期待。是啊,今天聊下来,感觉三大 vr 真的 是分终极世界建模的一个里程碑,不仅解决了之前的很多难题,还把门槛降的这么低,以后肯定会有更多有意思的应用出来。 咱们今天把三辆 wm 的 七个小节都聊了一遍,从它解决的问题、核心架构到具体的技术细节、实验结果和未来方向,相信大家对这个效率革命有了更清晰的认识。那今天的播课就到这里了,感谢大家的收听,咱们下期再见。

兄弟们,机器人板块又要讲新故事了。就在刚刚,优币选发布了聚深智能世界模型 thinker wm, 还说自己在 library 评测登顶,同时 walker 系列已经实现平台交付,甚至还提到二零二五年人型机器人收入八点二亿。 很多人看到这第一反应就是,机器人又来立好了,是不是直接干?但我先说结论,这条消息的重点不是优币选涨不涨,重点是 机器人板块的炒作逻辑可能正在升级。什么意思?以前市场炒机器人更多炒的是啥?炒减速器、炒四杠、炒四伏?炒电机,本质上炒的是身体,也就是机器人能不能动。但这次不一样,这次他讲的是 不是简单硬件,而是世界模型具身、智能工厂交付、商业收入。你发现没有,这相当于市场最喜欢的四件事,他一次性全给你了。第一,技术突破。什么叫世界模型?简单理解就是机器人不只是会动,而是开始往能理解环境、能执行任务走。第二,行业领先。他说自己在 library 登顶,很多资金未必知道 library 到底有多硬核, 但市场只会记住四个字,行业领先。第三,产业落地。这个最关键,因为机器人以前最容易被吐槽的就是会跳舞、会演示,不会挣钱。但现在他开始讲工厂交付,开始讲平台落地, 这就不一样了。第四,收入数字。只要一提到收入,哪怕你先别急着全信,市场情绪也会立刻被点燃,因为概念一旦开始沾业绩,资金就更容易上头。所以从股票题材角度看,这条消息最重要的不是他是不是一个简单利好,而是他在告诉市场,机器人板块可能要从硬件零部件逻辑 升级成 ai 加机器人加工业落地逻辑,这就是大区别。如果这个逻辑被资金认可, a 股最先映射的不会只是某一个票,而是几条线一起动。第一条,整机和平台型公司。因为消息本身就在讲,机器人公司自己 谁最像平台,谁辨识度最高,谁最容易先被资金赶。第二条,控制系统和运动控制。既然开始讲具身智能,开始讲任务执行,那控制层的地位一定会被重新抬高。 第三条,核心零部件、减速器、四杠、执行器四幅,这些还是绕不开,只不过他们更像是主线强化之后的第二波扩散。第四条,具身智能和 ai 大 脑, 这一条最有想象力,也最容易出高弹性腰鼓。因为市场最爱炒新词,新词一出来就容易重新讲故事。但注意重点来了,这条消息虽然很能讲故事,但他还不是那种闭眼就能梭哈的应对线。为什么?因为这里面有几个关键问题,还没完全下登顶。工厂交付是大规模交付,还是样板式交付? 八点二亿收入,究竟是机器人个体收入,还是其他相关业务一起算进去?所以,这条消息最容易出现的情况是什么?短线资金先拿它讲故事,先炒情绪,先强化主线。但后面到底能不能走成持续行情, 要看市场认不认,要看龙头强不强,要看后排有没有梯队,更要看分歧之后有没有承接。一句话总结,这条消息不一定立刻改变基本面,但很可能改变市场对机器人板块下一阶段的想象力。而在 a 股里最值钱的,很多时候不是当下兑现了多少,而是谁先拿到了下一阶段的蓄势权。所以 我的观点就一句,优,必选。这条消息表面看是看新闻标题,重点盯这几个信号,板块会不会集体异动, 龙头会不会超预期,分歧之后有没有回流?资金到底是在打核心,还是只是在乱拉杂毛?如果是前者,这条线就有可能继续发酵,如果是后者,那大概率又是一轮冲高兑现。真正的大题材,从来不是一条新闻就结束,而是一条新闻刚好点燃了市场对未来的集体想象。

大家好,这里是瞬间信息差,今天做一条上周 ai 精选热点周报,时间窗是二零二六年五月十一日到五月十七日。 这周主线很清楚,编程智能体进入移动端和命令行,视频创作开始从工具变成代理企业 ai 更强调可落地工作流,开源模型继续冲向长视频和万亿级智能体。安全研究也在提醒我们,智能体能力越强,边界越要清楚。 第一条 openai 把 codex 带到移动端,现在用户可以通过 chat gpt 手机应用查看任务进展,远程引导和批准编码工作。这意味着编程智能体开始从桌面工具变成随身可调度的工作流。 第二条 x a i 推出 grog build, 它是直接运行在终端里的编程智能体,面向专业软件工程和复杂任务,支持计划模式、并行自智能体以及脚本化无头运行编程智能体赛道。这一周明显进入多家正面竞争。 第三条 runway agent 上线。 runway 的 定位不是在给用户一个单点工具,而是让用户通过一次对话,从产品照片和想法出发生程概念、视觉方向、旁白、音乐和完整广告。视频创作正在从工具箱变成代理式制作流程。 第四条 care 二面向专业用户正式上线。它强调图像、视频和三维创作里的审美多样化与风格控制,和 runway agent 放在一起看创意生产工具。这一周的主线是更完整、更可控、更接近专业工作台。 第五条 notion 推出开发者平台,核心组建包括 notion、 c l i workers 数据库、同步 agent 工具和 api。 notion 想把自己的工作空间继续往可编程基础设施推进,让开发者和 ai agent 都能在 notion 上构建自动化。第六条 andropic 发布 cloud for small business, 它面向小型企业提供连接器和一组开箱即用的自动化工作流,用来处理财务、运营和销售等重复任务。企业 ai 的 竞争点正在从模型能力转到能不能贴近真实业务。 第七条 nvidia 研究团队发布 sunawm, 这是一个二十六亿参数的开源世界模型,目标是生成一分钟七百二十 p 的 视频,长视频生成开始,从演示片段向更长、持续和更高效率推进。 第八条 ray 二点六 e t 开源并上线 i hat 摘药里强调它是为现实世界智能体构建的万亿级推理模型,重点不只是回答问题,而是规划步骤、使用工具、维持上下文和完成复杂工作流。 第九条 exploit gym 发布,这个机制包含八百九十八个真实漏洞,测试 ai 智能体能不能根据漏洞描述生成完整利用程序。它提醒我们,智能体越能执行任务,安全边界和评估也越不能滞后。 第十条 fida 展示 helix 零二的全身自主能力。 i hat 提到,人形机器人连续自主运行多天,正在靠近实用化关键节点,模型、智能体和具身硬件正在互相推动, ai 的 落地场景不再只在屏幕 里。以上就是上周 ai 圈最值得看的十条精选热点,我是瞬间信息差,我们下期见。

一张图,一条镜头路线,翻张高端显卡,就能生成六十秒七二零 p 可控制镜头的虚拟世界。 就在刚刚,英伟达研究团队展示了新的开源世界模型 sana w m。 它最吸引人的地方不是画面有多炫,而是它把几件过去很耗算力的事,压到了更少的硬件资源上。注意,这里不是普通的图声视频。 过去我们输入一句提示词,比如镜头穿过一条未来城市街道。模型确实能生成一段很酷的视频,但镜头到底前进多少,左转多少,绕过哪个物体,很多时候并不严格可控,更像是在想象一个镜头效果。而 莎娜 w m 不 一样,他不仅听文字描述,还能接收一条具体的相机轨迹。你可以理解为给 ai 一 张起始画面,再告诉他镜头接下来往哪里走,怎么转、怎么移动,他就要沿着这条路线,把后面的世界一步步生成出来。 所以, shaun w m 的 核心不是让图片动起来,而是把一张图扩展成一个可以被镜头探索的一分钟虚拟世界。 比如镜头往前走,路边建筑就应该逐渐变大。镜头往左移,近处的树和远处的楼移动速度不能一样。镜头绕着一辆车转,车的侧面背面要慢慢露出来。 这听起来像运镜,但背后其实是更难的问题。 ar 要理解空间透视、遮挡和场景连续性,更关键的是效率。莎娜 w m 的 主模型只有二点六 b, 也就是二十六亿参数。这个数字听起来很大,但放在今天的大模型世界里,它不是巨无霸,反而更像一辆小钢炮。 在同类世界模型里, limbo world 是 十四 b 加十四 b 参数,需要八张高端数据中心级别的 gpu, 峰值显存超过四百五十 gb h y worldplay 是 八 b 参数, matrix game 三点零是五 b 参数,两者也需要八张同级别 gpu。 而霓虹 w m 生成六十秒七二零 p 视频时,可以仅使用单张同级别 gpu。 这意味着什么?它真正影响的不是简单的短视频制作,而是游戏开发、虚拟拍摄、机器人训练和自动驾驶仿真视觉场景推演。对游戏开发来说,它可以快速预览一个官场,沿着某条路线走进去会看到什么。 对虚拟拍摄来说,它可以帮助导演提前测试分镜和运镜。对机器人和自动驾驶来说,它则更接近一种视觉场景推演。如果摄像头真的沿着这条路线移动,世界应该怎么展开?当然, shaun w m 还不是一个真正完整的物理世界引擎,它还不能完美理解碰撞、重力、水流、物体交互这些复杂物理。 但它的意义在于,让造世界的门槛开始下降,模型更小,显卡更少,意味着成本更低,试错更快。当 ai 造世界不再只属于大厂和算力集群,真正被改变的就不是一段视频怎么生成,而是内容生产的成本结构。

英伟达桑娜刚刚打破了 ai 视频生成的边界,仅凭一张图像和相机轨迹,就能生成长达六十秒七二零 p 高清的沉浸式世界漫游视频,而且只需一块消费级显卡。桑娜核心在于它独创的混合限行注意力架构, 将真迹给点的奥特曼与奥特曼 x 比例融合,把传统模型的二四方内存爆炸压缩为常数级,推力速度提升三十六倍。蒸馏版本在 rtx 零九零上仅需三十四秒即可完成段完整视频。 好了,关注我,每天都有 a i 新体验!

hacker news 热铁速递今日精选三条值得关注的话题, hishi corp 创始人 miichiro hoshimoto 最近发了一条爆火的推文。他说,很多公司现在处于 ai 精神病状态,盲目追逐 ai, 找不到真正的用户需求却拒绝承认。 整条推文只有两百多个字,却引发了上千条讨论。他举了个例子,有人用 ai 做会说话的猫,融了一大笔钱,但用户真正需要的是能帮我把发票整理好的工具。 mico 说, ai 当然不是泡沫,但很多 ai 公司是泡沫。 当技术狂热取代了对真实问题的思考,你做的就不是产品,是幻觉。 nvidia 开源了一个叫 sanawm 的 世界模型, 只有二点六 b 参数,就能生成一段一分钟的七二零 p 视频。以往这种级别的世界模行动辗几十亿甚至上百亿参数, sanawm 还能做到高度可控,你可以指定物体运动轨迹、摄像机角度,甚至部分修改画面内容。 模型采用了一种新颖的时空压缩架构,在保持视频质量的同时大幅降低计算成本。开发团队说,开源的目的是让更多研究者能够探索世界模型在机器人、自动驾驶和游戏中的应用。 一句话总结,世界模型不再是大厂的专利。安全研究员公开了一个令人不安的趋势,前沿 ai 已经彻底打破了开放 ctf 比赛的格局。 传统 ctf 竞赛的漏洞挖掘和逆向工程环节, ai 可以 在一分钟内完成人类选手需要几小时的工作。有的队伍直接用大模型自动解题,包揽了多个赛事的冠军。 主办方发现他们设计的题目在 ai 面前形同虚设。文章作者认为, ctf 的 核心价值从来不是比谁会挖漏洞,而是培养安全思维。 ai 的 到来不是 ctf 的 末日,而是一次重塑的机会。 未来的 ctf 也许不再是人和人比谁更快,而是人和 ai 写作,解决更复杂的安全问题。以上是今日 hacker news 热铁精选,关注我,每天带你三分钟看懂全球技术圈在聊什么!



来看第四条新闻 rain 二点六 et 开源并上线 openroot, 专为智能体工作流设计。 rain 二点六 et 模型现已开源并上线 openroot 平台,五月底前享有百分之七十五折扣。 该模型由 antine agi 开发,是一个为现实世界智能体构建的万亿级推理模型。其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具 维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了 s n r l 与 s pop 训练方法。 来看第五条新闻 c n a w m 一个用于生成一分钟七百二十 p 视频的二十六亿级开源世界模型。 nvidia 研究团队发布了 c n a w m。 这是一个参数规模达二十六亿的开源世界模型,专门用于生成长达一分钟、分辨率为七百二十 p 的 视频。 该模型已在 github 页面开源,只在推动高质量长视频生成的研发。其在 hacknews 社区获得了一百零七点热度,显示出业界对该技术进展的关注。 来看第六条新闻 show hn 烧霸宝贝烧霸那些代币开发者发布了一个名为烧霸宝贝烧霸的开源项目,只在通过销毁代币来应对加密货币领域的通胀问题。 该项目提供了一个工具,允许用户主动销毁自己持有的待币,从而减少总供应量。此举可能提升剩余待币的稀缺性与潜在价值。项目已在 github 上开源,并在 hack news 上获得了一百点的社区热度。 来看第七条新闻, delta m 适用于大型语言模型的高效在线内存研究人员提出了 delta m, 一 种专为大型语言模型设计的高效在线内存系统。该系统通过仅存储和更新模型设计的高效在线内存状态,显著降低了内存占用。 实验表明, delta mem 能将内存使用量减少高达百分之七十,同时保持模型输出的质量基本无损。这一方法有助于在资源受限的环境中部署和运行大规模语言模型,提升其在线推理和持续学习场景下的可行性。 来看第八条新闻,杭州基地启动机器人有了国家级职业技能训练场国家人工智能应用中市基地聚深智能五月十六日在浙江杭州挂牌启动,为机器人提供国家级职业技能训练场。该基地是集场景体验、技术展示、研发合作、产业赋能于一体的综合平台,只在推动聚深智能技术从实验室迈向现实应用。 杭州市于五月一日实行首部巨深智能机器人地方性法规,支持核心研发平台建设和场景开放。目前,杭州已集聚机器人产业相关企业七百余家,二零二五年巨深智能产业集群产值达一千零六十八亿元。 来看第九条新闻 antropics founder's playbook ai 提高创业失败率的警示 antropics 发布内部手册 founder's playbook, 核心观点是 ai 如 cloud code 将提高创业失败率而非降低。 手册指出, ai 能快速生成原型,易使创始人混淆,能运行与优市场需求,并通过确认偏误和研究引擎强化错误想法。他将创业分为 idea、 mvp、 launch、 skill 四阶段,剖析 ai 放大的风险,如原型不等于验证 agent、 技术债、创始人成为角色瓶颈等。 最终结论是, ai 极大降低执行成本,使得判断力成为最稀缺资源。真正护城河在于将垂直领域知识结构化沉淀为专属 skills。 来看第十条新闻,研究人员利用 entropic mesos 工具构建 mesos 内核漏洞,绕过苹果 m 五芯片内存完整性执行安全系统。三名研究人员借助 entropic 的 mesos 工具,成功开发出一个可绕过苹果 m 五芯片内存完整性执行 me 安全机制的 mesos 内核漏洞利用程序。 me 是 苹果号十五年投入巨资为 m 五和 a 一 九芯片打造的旗舰,安全功能只在彻底消除内存损坏漏洞。研究团队于四月二十五日发现漏洞,五月一日即完成开发,并亲自前往苹果园区提交报告。该攻击采用纯数据攻击方式,无需操纵指真,仅通过非特权用户的标准系统调用即可获取根权限 完整技术报告将在苹果发布补丁后公开。今日 ai 资讯播报完毕,感谢陪伴我们明天再会,记得关注获取每日 ai 最新动态哦!

宪探军科技日报二零二六年五月十七日今天十条科技热点现在开始。第一条 open ai 大 规模重组, 总裁 greg brockman 夺权挂帅, chat gpt、 codex 和 api 三大产品线合并为统一组织,秘密开发集成多项功能的超级应用桌面段。第二条 nvidia 发布二十六亿参数开源世界模型 sna w m 可深沉一分钟七百二十 p 高质量视频已在 github 开源,在 hacker news 社区获得一百零七点热度。第三条 蚂蚁百灵开源万亿级推理模型 ring 二六负一 t, 专为智能体工作流设计上线 openroute 平台, 五月底前享有百分之七十五折扣。第四条 notion 推出开发者平台及 cli 工具,含终端工具 workers、 计算数据库同步和 agent api, 未来非开发者也能用 ai agent 在 notion 上构建应用。第五条美国 ai 相关岗位出现大规模裁员, ai 对 劳动力市场的冲击从理论讨论进入现实阶段,多个行业面临严峻就业岗位流失。第六条 研究人员利用 anthropic missiles 工具,成功破解苹果 m 五芯片安全系统,绕过其耗时五年打造的内存完整性执行机制, 已亲自前往苹果园区提交报告。第七条杭州聚深智能基地正式起用,这是国家人工智能应用中心基地,为机器人提供国家级职业技能训练场。 杭州已集聚七百余家机器人企业,二零二五年产值达一千零六十八亿元。第八条 openai 与马尔滩合作,向所有公民免费提供 chat gptplus 订阅服务, 这是首个国家级大规模推广案例,同时包含 ai 技能实践培训。第九条 剑桥大学推出智能体驱动三 d 资产深沉系统 artcraft, 开源万件数据集,覆盖两百五十个类别,显著降低机器人训练和物理 ai 领域的数据门槛。第十条 codex 新增键盘快捷键自定义功能, 可按实际工作方式配置,支持多设备远程控制与上下文共享,无需切换即可管理多台设备。以上现探军科技日报,明天见。

你以为 ai 视频的下一步只是画质更高清吗?其实真正的变化是模型开始尝试生成一个能被连续探索的世界。这就是 nvidia research 最近放出的 sna 减 w e m 世界模型。它不是简单生成几秒钟画面,而是让场景在时间里持续存在。你现在看到的雪山、洞口和道路 不是一张静态图,被拉伸模型要同时处理空间结构、镜头运动和前后画面的一致性。这也是为什么 sna 减 w m 的 关键词不是炫技,而是长时长。官方展示里,它强调的是分钟级世界生成和七二零 p 视频。更重要的是, 相机可以被控制,不是镜头随机往前飘,比如向前走、转向穿过洞穴,画面需要跟着你的视角变化。如果前一秒出现一条路,后一秒它不能突然消失。如果镜头进入森林、树、光线、水面也要保持逻辑。这就是世界模型和普通视频生成最大的区别之一。普通视频更像生成一个片段, 世界模型更像搭一个可移动的场景。对创作者来说,短期不用神话,它还不是稳定商单工具,但它指向的方向很清楚, ai 视频正在从片段走向场景。产品演示可以变成可运镜,空间游戏概念能快速跑出环境预览、短距分镜、虚拟探店、教学演示也会被这种能力影响。真正值得关注的不是它今天 能不能直接替代拍摄,而是它把问题换了。 ai 能不能记住一个世界的结构,能不能在镜头移动时让空间、物体和光影保持一致。所以看塞尔减 w m 要抓住三个核心信号,长时长可控镜头,以及更稳定的世界理解。

嗨,大家好,我是优必选的一枝花。当下,聚焦智能技术快速迭代,人形机器人呢,已经具备了工业场景的落地基础能力,但实际产线环境复杂多变,传统方案呢,又有着致命的短板, 多数模型只能基于实时场景完成静态决策与短程任务拆解,缺少对物理世界的场景推演与未来状态的一个预判的能力, 难以适配真实工业场景实时变化的长城任务作业需求,导致了实现决策执行与迭代优化的全链路呢,是无法闭环的。 针对行业痛点,优必选立足工业场景真实作业需求,在自研驱生智能大模型 thinker 的 基础上,重磅推出了全新智生智能世界模型 thinker w m, 打造物理 ai 基座,实现了聚生大脑架构与核心能力的全方位升级。凭借空间泛化、长城任务处理的核心优势, thinker wm 在 全球权威聚生智能评测里贝尔中成功登顶榜首, 与英伟达、小米等行业巨头同台竞技,拿下了亮眼的成绩。在技术层面, fingerwm 构建了 diffusional transformer, 统一多模态空间架构,实现了视频表针与机器人动作空间的协调优化, 既能智能想象推演的同时,又能渐进式打磨动作的连贯合理性,完美攻克了长城任务这一行业的重大难题。 同时,优必选一托全国各地数据采集中心的强大基建,积累了工业分列、物流搬运、双臂携同等海量真实交互数据。 经过精细化的精细呢,让模型深度学习了物理世界的规则,从根源上避免了虚拟深层数据脱离实际作业场景的问题,为后续智能数据的深层筑牢坚实根基。 坚持技术开源, u b i 近期将在聚生智能开发者社区 dink cosmos 上开源 dink w m, 携手全球开发者共建聚生智能数据生态,持续推进模型迭代更新,加速人形机器人呢?在千行百业的规模化落地与应用普及。关注我,带你更加了解 u b i, 了解聚生智能。