毫无预告,全球芯片霸主英伟达四月二十八日突然出牌,向全球开发者社区扔出了一枚重磅开源模型。该模型命名为 nantron nano omni, 其最大特点是实现了视觉、音频与文本理解能力的深度融合 及全模态能力。英伟达宣称,它只在作为企业级 ai 智能体的核心大脑,可大幅提升智能体处理复杂现实任务的效率。最关键的是,公司此次选择了开源发布策略,这意味着全球开发者与企业均可自由使用与修改。
粉丝3154获赞6.9万

ahr 又炸了,尹伟达亲自下场开源了三纳 wm 项目,只要给一张图,就能生成一分钟的七二一 p 世界漫游视频,你可以像导演一样指挥镜头啊,而且模型只有二点六 b 的 参数。全开源 什么概念呢?就是一张普通的三零六零显卡就能出片儿。那萨纳 w m 意味着什么呢?是 ai 视频的 iphone 时刻到了吗?先说它确实牛啊,二点六 b 的 超小参数比很多闭源模型还要小一个数量级,但效率却比同类高三十六倍。 实测在 rtx 五零九零上,三十四秒就能出片儿,对比 cds, 二点零啊,十五秒的视频,加上排队的时间,往往需要十分钟以上, 这意味着什么呢?高端的创造能力直接被下放到了消费级的硬件。以前拍科幻短片,你需要剧组特效,几十万的预算,现在一张显卡一个想法就能出片, 一个人就能做 ai 视频导演,创作门槛直接被抹平了。当然,它也有不足啊,电影级的细节依然达不到,生成的视频的后半段纹理会明显的下降,镜头加速时啊,画面也可能会飘。 但是啊,二点六 b 参数的超小模型,它的优势当然不是和好莱坞比划值,是指数级的效率提升。 什么意思呢?视频创作的成本直接被怎么说呢?这都不叫腰斩了,这直接从脚踝往上都给斩没了。以前呢,一分钟的特效视频,成本是几十万,周期是几周,现在成本就是一张显卡的电费,周期是三十四秒。 这效率可不是限性的提升啊,是数量级的跃迁。当成本降到原来的百分之一,会发生什么?短视频创造者不再需要素材库,让 ai 生成一张图片就行。独立游戏开发者不再需要美术团队, ai 直接帮你出场景, 小公司也能拍出大厂级别的产品演示,医疗、教育、广告、建筑等等等等。任何需要视觉呈现的行业门槛全部被磨平了。这意味着,传统的视频岗位将会被完全重构,不再需要剪辑师,不再需要特效师,而是全新的岗位。 这些岗位啊,现在没人会,也没人懂,大学没教过培训班也没开过课,行业里也没有钱,背袋 对所有人来说都是空白。也就意味着没有内卷,没有天花板,谁先入场,谁定义规则,妥妥的蓝海市场。那么问题来了,这个全新的蓝海市场,你准备什么时候入场?评论区告诉我你的计划!

机器人版世界模拟器来了!英伟达开原机器人世界模型。想象一下,以前机器人学习需要无数次真实试验,磨损设备耗时耗力,现在只需要在虚拟世界里就能完成所有训练。英伟达用了四万多小时的真实人类第一人称视频数据打造了这个仿真二点零系统, 它不需要任何物理引擎,网格建模,完全通过像素生成。未来你输入机器人的控制指令,它就能预测出接下来会发生什么,就像做梦一样真实。 而且它引入了潜在动作概念,让任何第一人称视频都能被机器人理解。人类已经帮我们探索过了所有可能性,抓取、倾倒、折叠、组装在各种复杂场景下的无数次尝试,这些数据现在都能为机器人所用。

毫无预告,全球芯片霸主英伟达直接把世界模型玩明白了。全新开源上的 w m, 彻底打破 ai 视频生成的算力枷锁。这款仅二十六亿参数的世界模型,不走堆参数的老路,真流版适配单张 r t x 五零九零就能运行, 三十四秒即可生成一分钟七百二十 p 稳定视频,解决传统 ai 视频常持续漂移、穿模、结构崩塌的行业顽疾。它依靠双分之六代 f 相机控制与混合线性 dat 架构,先构建物理空间逻辑,再渲染画面精准跟随镜头运动场景一致性,拉满 深层效率,相较同类模型最高提升三十六倍。英伟达不再引导行业盲目卷算力,而是将高端世界模型能力下放到消费级硬件,大幅降低自动驾驶、仿真游戏、虚拟场景、机器人训练、影视虚拟拍摄的落地门槛。 当虚拟世界构建不再被超级算力绑架,创作者与中小团队都能轻松入局,你认为哪个领域会最先迎来彻底重构?

哎,不少小伙伴好奇,英伟达的机器人网力为什么这么灵动呢?现在可以看一下它的开源模型。先声明一下,英伟达已经把 cosmos 和 g 二零零 t 都开源了, 赫什玛时是开源推理视觉语音模型,通过它能使智能机器人能够像人类一样看见和理解物理世界并采取行动,再加上 g r 零零 t 开放式推理视觉语音行动模型,便可解锁全身控制能力。这也就是为什么黄仁勋和瓦力互动跳起来便是这个逻辑理解的。当然,瓦力还有一个很厉害的点在于, 他的训练是在一个虚拟世界里面学会的,通过一比一还原物理规律,从反证到现实,把训练直接装进机器人。 因此啊,不用像在现实世界训练机器人会遇到磕磕碰碰。此外,在 g 二零 t 开源模型主要大家能看到语速和资源的机器人案例,国内机器人也很厉害的。不管怎么样,机器人进步对于科技来说都是好事啊。

英伟达刚放出萨纳 w m 一个二点六 b 参数的开放世界模型,它的目标很直接,给一张图, 再给一条相机轨迹,生成七二零 p 最长一分钟的视频。关键挑战时,一分钟后场景还能不能保持一致。官方页面展示的样片里有固定视角、前进、旋转、俯仰等六 d o e f 相机控制,这对具身智能很重要,因为模型要学会相机移动时 世界怎么连续变化。四 n a w m 的 规模是二点六,比比很多工业级闭元模型小得多。论文称它用约二十一点三万个公开视频片段训练带有公制度量的相机位姿标注,训练成本是六十四张 h 一 百跑十五天。推理端单张 h 一 百可以生成六十秒七二零 p 视频 蒸馏版本,在 r t x 五零九零上用 n v f p 四量化六十秒七七二零 p 去噪只要三十四秒。架构上核心是 hybrid linear attention, 把竹珍 getty detonate 和周期性 selfmax 注意力组合起来。它的意义是压住长上下文显存, 避免一分钟视频直接爆掉。控制上,它有双分支,一个负责大局未咨,一个做像素对齐的精细几何。质量上,它先生成长片段,再用十七 b 长视频 refiner 做第二阶段戏化。所以你会看到样片里轨道前进、空间尺度、后半段纹理都比普通开源长视频更稳。但也要注意, 官网的 modus 按钮目前还是灰的完整,权重释放节奏还要继续看,这意味着它现在更向论文和工程路线发布,离一键复现还有距离。我的判断三呢, w m 最值得看的是四件事同时成立一分钟七二零 p 相机控制单卡效率。

英伟达这条视频真正的关键词是可控世界 sns 输入一张图、一段文字,再加一条相机轨迹,就能生成一分钟的七二零 p 视频。它的模型规模只有二十六亿参数, 官方说,推理可以跑在单张 gpu 上,这对世界模型很关键,因为过去这类长视频模拟往往又吃数据又吃算力。论文给出的训练量也很克制, 约二十一万三千段公开视频,六十四张 h 一 百训练十五天核心能力在相机控制模型,要按六自由度轨迹前进,转向回看,同时保持场景身份,所以它更像给机器人、自动驾驶、游戏和数字孪生提供低成本的可控模拟器。技术上有四个抓手,混合限性注意力、双分支、相机控制、 两阶段细化,以及相机姿态标注流水线。其中最值得盯的是效率。论文称,在一分钟世界模型基础上, 相比开源基线最高有三十六倍吞吐提升,蒸馏版本甚至能在 r t x 五千零九十上用 nv f p 四量化,快速生成一分钟七百二十 p 片段。短期看,这是开源视频生成的一次提速。 中期看,是英伟达把世界模型推向单卡开发者生态真正的拐点。在成本降到足够多,团队可以反复试错。当可控长视频变便宜, ai 就 开始从生成内容走向生成可训练、可测试、可探索的环境。

如何抓住英伟达 soundw m 带来的技术红利?看完视频直接上路, ai 圈彻底炸锅了!英伟达开源了一个叫 soundw m 的 世界模型,彻底解决目前 ai 视频生成的时长魔咒。 目前的 ai 视频生成撑死十五秒,还是抽卡式的,但这次英伟达直接把时长拉到了分终极。一、 这对我们普通人来说意味着什么?二、我们又该如何借助他搞钱呢?一个视频给你解个透,在开始前先放个深水炸弹。我们推出了警护 o p c 社区,只在聚集更多艺人、公司、创业者,感兴趣的朋友留下 o p c 三个字母,现在开始。一、这对我们普通人来说意味着什么? 第一,告别显卡焦虑。以前想玩顶级的 a a i 视频,那是科技巨头的游戏,现在 soundw m 把成本砍到了地板上,让分中级高清视频生成真正进入了个人电脑时代。 第二,从抽卡变成导演。以前的 a a i 视频全靠随机生成,像开盲盒,但 soundw m 支持精准的相机控制,你可以像真正的导演一样指挥镜头,直接让 a a i。 视频具备了拍电影、做短剧的工业级水准。 第三,虚拟世界大爆发。它本质上是个能理解物理规律的模拟器,这意味着未来我们玩的游戏体验的 vr 场景可以无限大、无限逼真,而且开发成本极低。 二、我们又该如何借助它搞钱呢?在这里给大家三条业务路径。第一,做 ai 视频导演接单。现在市面上极其稀缺可控的 ai 视频,你可以利用 snwm 的 精准运镜能力 去接电商的产品,展示视频、自媒体的定制片头,甚至是帮人做带有复杂分镜的创意短片,借助它,你已经能精准交付了,甚至是降维打击。 第二,低成本开发独立游戏。你可以利用 soundawm 的 实时推演能力,一个人就能生成庞大且逼真的虚拟场景,去做创意十足的独立游戏,发到 steam 上卖美术,成本直接打骨折。 第三,卖仿真数据和卖铲子。很多搞自动驾驶和机器人的团队,缺乏带有物理反馈的仿真视频数据, 你可以用本地显卡批量生成这些特定场景视频,打包成数据即出售。或者趁现在大部分人还不会用,赶紧做部署教程,做技术社群,赚第一波卖铲子的钱。这个我们也做,有兴趣的朋友留下教程二字,点赞、收藏加关注,请护前沿管世界,前沿在线带你抓住时代红利!

大家好, 中国这一次的基于人工智能大模型的开源, 基于 deepsea 和华为含五 g 联手的突围英伟达的生态 而对世界做出的一次大模型的全开源,是中国近三百年以来,我认为对这个世界原创性的最大的一次贡献。 大家知道,前面三次工业革命和中国基本上没什么关系,但是这一次 可能不是关系很大极大的可能在人工智能的这一轮工业革命中, 中国可能会成为一个领跑的国家。之所以我们有这个预判,是因为现在就中美对人工智能的价值主张上来看, 美国式主张一家独大,独占工业革命成果的这种闭源的思维。 美国无论是 open n i 还是英伟达,它们的模型,它们的芯片都有极大的欲求思想垄断全球,它们所有的大模型全是闭圆的, 他们的头很之所以很昂贵,就是因为他们想通过这种闭源,你必须要用昂贵的成本去买它的知识产权,买它的人工智能基于算力需求的这个高定价 去买它的这个成果。中国恰恰相反,中国一切人工智能的技术创新 和思考的底层逻辑,都是基于如何尽快的让更多的人能够普惠的得到这轮工业革命的 创新技术的加持,得到这个科技力量的加持,能够平权的、平价的给到很多很多的千行百业的加持。因为我们的产业门类是全世界唯一齐全的国家。 就人工智能的工业革命的运用场景而言,就我们的这个算力算法的运用场景而言,中国是具备了全世界最丰富的运用场景的国家, 所以我们的顶层设计者在开始的时候就想清楚了,基于人工智能这一次科技革命,我们的方向一定是普惠的,一定是平价的,甚至是免费的, 要给到千行百业,以这种算力和算法的价值来提升我们的生产关系和生产力的重构,这一点和美国人的价值观完全相反。 很显然, deepsea 和华为韩五 g 这次的联手突破英伟达库达斯生态以后,引起了全世界广泛的这种讨论和运用, 没有谁会不喜欢便宜甚至是免费的东西。虽然我们在算力上和美国还有差距, 但是基于我们的这种开源,免费,基于我们透坑只有他的几十分之一甚至上百分之一的成本。 全世界哪怕是运用人工智能模型的国家,他就是知道中国的算力稍微弱一点,他也会先用这种免费的低成本的透坑的这个模型。所以这个中国生态对全世界贡献出这次人工智能革命的最重要的价值, 创造了一个非常重要的机会,这就是普惠和平权,科技平权带来的这种最大的意义,也是中国最近这几百年可能对这个世界做出的一个科技创新最重要的基础贡献。

我去,英伟达发布的尼莫曲上开源模型系列宣称更快更便宜更智能,共有三个版本啊,目前已经发了拉拢,然后更强的 super 阿卓将在未来几个月内陆续推出。看了下英伟达刚发的报告, 到了版本就有更强的推理对话,更是支持一百万个 talk 的 上下文长度,并且速度相比于其他开源模型会更快。达子这是又掏出来一个硬核的东西,之后看看有没有对这个模型的测评啊,因为它才刚刚发布,有新消息了再解读啊。

新的世界模型来了,而且是全开源。这个叫 c n w m, 只有二点六 b 参数,但能在单张图片、文字提示和六大相机轨迹的条件下生成分中极七二零 p 可控世界。它和普通大语言模型最大的区别是, l m 预测下一个词, 世界模型预测世界下一秒会变成什么。你往前走,画面要连续,你转弯空间不能崩,光影、地形、物体关系都要保持一致。所以它能做很多 l l m 做不了的事。生成可探索场景, 模拟动作后果,给游戏机器人训练自动驾驶和 vr 做虚拟环境。简单说, l l m 是 语言中书世界模型更像 ai 的 想象力和物理直觉。我是硅谷赵博,关注我,第一时间看懂硅谷最新动态。

昨天,英伟达开源了全球第一个量子 ai 模型,代号一新。量子计算这个词您可能既熟悉又陌生,因为他目前还没有真正走出实验室。虽然在计算上碾压传统比特,但量子比特需要维持在接近零下二百七十三度的环境才能稳定。量子计算的维护和调试成本极高, 因为达一新就是来解决这个问题的。它是一套 ai 校准和纠错系统,把量子计算机的调试时间从几天压缩到几小时,纠错速度比现有方案快二点五倍,精度提升三倍。 以药品研发为例,一款新药从研发到上市,传统流程平均要十二年烧掉几十亿美元。因为后选分子太多,把点和蛋白质怎么结合?药物分子适不适合进入人体,以前只能靠碰运气,而量子计算进入之后,能直接模拟分子层面的相互作用, 把整个过程从几年压缩到几个月。一心主要解决的是量子计算机的运维问题,还算不上真正意义上的基座。一要研发真正需要的量子算法和硬件,还需要至少五到十年才能成熟,但至少对于实验室来说,可以借助一心大幅缩减调试时间,把更多的时间和精力投入到实验当中。

英伟达推出了全球首个量子 ai 开源模型 isin 啊,沉寂了一段时间的量子概念股突然就起飞了,量子计算这个概念其实已经炒了十几年了,那为什么量子计算器一直都停留在实验室阶段呢?因为量子比特太脆弱,特别容易受到外部环境的干扰而出错啊,这就使得大规模可靠的运行至今都难以实现。 而英伟达推出了这个 isin 的, 主打解决量子计算落地中两个最关键的瓶颈啊,量子处理器的校准和量子纠错解码, 将校准的时间呢,从数天压缩到了数小时,并显著提升纠错速度与精度啊。 i c n 呢,以开源的形式发布,像费米国家加速器实验室、英国国家物理实验室、哈佛大学 i n q 啊这些机构呢,其实已经在使用了, 这是因为大家在量子计算领域啊,构建开发者生态的关键一步啊。 i c 模型家族呢,包含了可定制化的模型工具以及数据级,为混合量子啊经典计算系统的构建提供了完整的 ai 加速方案啊, 从技术角度上来看,确实有进展,比如说速度提升、精度优化这些指标其实都挺亮眼的,但这种消息啊,更多的还是点火器,每一次市场风险偏好回升啊,流动性开始泛滥的时候,热钱都会想这些有想象空间的方向。量子计算器本身呢,还是在非常早期的阶段,但因为故事足够大, 足够性感,弹性也足够高,就很容易成为风某资金的首选标的。如果你对量子计算有自己的想法,可以在我的评论区留言。好了,那今天就是这样,我是你小钱袋,请关注我的频道。

ai 的 拐点来了!英伟达年营收两千二百亿美元,净利润有一千两百多亿,全球最赚钱的新能源公司。昨天他干了一件大事,发布了内蒙创创 super, 一个一千两百亿参数的开源模式, 专门为 ai agent 的 设计,吞吐量暴涨至五倍,支持一百万上下文。同时传出要推开源 ai agent 的 流量点。 黄旭原话是,智能体 ai 的 拐点已经来了。什么叫拐点?就是从实验室玩具变成企业标配的这个视频,过去两年因为拿靠卖训练心态赚了几千亿,现在他在压迫下一个视频 推理和智能体现在训练只需要做一次,但推理要无数次。每一家企业每天都要用 ai 去做角色,做 做分析,这才是真正的慢眼。当卖铲子的人开始告诉你,金矿就在这的时候,你还在犹豫要不要入厂吗?那你大概率就是一个被挖走金子的人。企业怎么搭建自己的 ai 智能系统?白皮书就有完整的逻辑,你们的公司开始用 ai 智能了吗?评论区聊聊。

黄仁勋最强杨某英伟达宣布免费开源多模态大模型,年营收千亿美元,毛利率超百分之七十的芯片巨头,亲手把核心模型技术免费送人。科技圈以为只是老黄赚太多做点慈善,却不曾想免费的恰恰是最贵的。 传统 ai 智能体完成任务要经历三类,套娃式模型建立运转,先通过看听感知模型吸收信息后再转给大语言模型做决策,不光信息流传衰减严重, 不能实时协助,延迟还高的吓人。英伟达的新模型直接运用 mo e 神经网络,把视觉编码器、音频编码器和文本模型缝合在同一个大脑骨架, 一次性解决传统 ai 智能体运转失衡,决策延迟更是直接降低七到九倍。但是英伟达的免费绝非送福利,只是为了干掉竞争对手, 建立绝对垄断他的模型只对自家显卡做极限优化,在别的显卡上跑只会严重卡顿。黄仁勋玩了一招开放模型锁定硬件的阳谋,而英伟达的主营业务就是制造硬件。黄仁勋看似在送免费的矿,实则是为了吸引更多人来买他的场子。 这也是当年谷歌免费开源安卓系统最终称霸手机市场的逻辑。往后国内 ai 企业,不论是科大、讯飞这类做语音感知的,还是华为、升腾等做国产芯片的, 未来不仅要跟英伟达拼硬件,还要拼生态。一旦全球开发者都习惯了英伟达的系统,国产替代将变得无比艰难。现在的微软系统就是实力,你觉得黄仁勋能如他所愿吗?关注我,带你看透芯片、半导体!

英伟达黄仁勋在 cs 二零二六上面突然把这个自动驾驶核心模型给开远了,就是权重给你,工具给你,连这个微调方案他都给你了。 这个全球最赚钱的芯片公司,为什么突然这么大方了?他这是自信的展示呢,还是被这个现实啊给逼出来的呢?很多人一听开远了,立刻啊可能会高潮。哎,英伟达他终于良心了呀,不再搞垄断了。但说句扎心的实话呀,这恐怕不是什么放权, 而是它换一种方式啊,在收紧。我们不能简单地以为它开源的是模型,要看它背后真正想要你离不开的是啊,它的 cuda limo, 加上 solo 的 整套地基,这就像什么呢?就像菜谱,我免费给你带厨房燃气水电, 你得全用我的。了解了这个逻辑之后啊,我们再来看一看,他为什么率先要开源自动驾驶这一块,倒不是因为这个自动驾驶啊,他不重要。恰恰相反啊,这是金伟达下一场最想吃虾的战场吧,因为自动驾驶有三个特点,模型复杂,算力消耗巨大,还强,依赖实时推理。 一句话总结啊,它就是最吃 gpu 的 场景。所以,英伟达要做的不是垄断这个模型,而是想把全行业的自动驾驶都变成必须长期烧英伟达算力的模式,这个就叫模型开源、算力、保定。那老黄开源这四大模型的真正目的又是什么呢?就一句话,把全球的自动驾驶公司全锁进这个美系技术生态里面, 你用它的模型,就绕不开它的 qd, 你 跑它的 qd, 那 最后只能选英伟达的 ai 芯片了。 这么一想,他是不是更像一种生态之名了,而且啊,还是非常高级的那种,这对行业是好事还是坏事?短期看,对行业肯定是好事的, 因为他降低了创业公司的门槛吗,让这个自动驾驶的模型迭代也更快了,还降低了研发成本。但是如果中长期看有一个隐患,可能就有很多人不敢说,或者没去想,就是行业会被这个统一思路了,当所有人都在利用同一套的模型方式,同一套的工具链, 那创新很容易就会变成在英伟达允许的边界里创新,是不是这样呢?而且啊,这个背后啊,还有一个最关键的底层逻辑是中国 ai 芯片的崛起啊, 也让他不得不有压力了,特别是华为老黄都有好几次公开的去夸他了,说明啊,这家公司被他重视起来了, 而他现在这么做,他的这个所有芯片,能不能长期拉开与华为升腾以及其他国产 ai 芯片之间的一个差距呢?答案可能是短期能,但长期不好说,因为所有的优势在于,单芯片有极致的算力,软件生态也是极致的成熟,自动驾驶场景啊, 优化的极深,但他也有一个中国市场绕不开的问题,成本加上可控性。而升腾芯片的逻辑呢,根本不是单点性能的碾压了,而是国产生态加上政策场景, 再加上大规模落地的系统级优化。总结来说啊,就是英伟达赢在今天最好用,那么我们国产芯片赌的就是啊,明天一定要能用,而且还是自己说了算。所以现在回头再来看一看英伟达开源它的自动驾驶四大模型, 我们就会发现一件事啊,它这个不是什么技术慈善吧,当然它也不怕你不用,而是怕你啊不用它的体系了, 因为现在很多开源模型已经证明了成本是可以快速的下降的,不用英伟达的卡,性能也是能接受的,那么他再不去开源的话, 难不成等着别人去抢他的市场吗?而且开源自动驾驶这个模型啊,也是下一阶段全球自动驾驶战争的第一枪,他肯定要抢站位啊。那么当这个开源啊,本身都变成了一种垄断工具的话, 你觉得这场 ai 竞赛嗯拼的还是代码吗?评论区等你来拼,记得帮忙点赞点关注,我们下回见!