欢迎来到 agent 创世纪为您解读由 mila 和 n y u 等机构联合发布的最新研究。研究团队推出了名为 the world model 的 极简世界模型,实现了从原始像素出发的稳定端到端训练。 这款模型仅需一千五百万参数,在单张 gpu 上即可完成训练,并实现了四十八倍的规划速度提升。这种极简架构打破了以往模型对庞大算力的依赖,为巨深智能提供了更清亮、更稳定的物理感知方案。 真正的智能体不应依赖人工设计的规则。世界模型让 ai 仅通过观察原始像素,就能在脑海中构建世界的运行规律。 智能体无需与环境实时交互,即可在内部空间推演未来的变化。这标志着 ai 正从繁琐的硬编码逻辑转向对物理直觉的自主学习。 尽管 g e p a 架构是研究热点,但其实践过程及其脆弱,模型极易陷入特征崩溃,将不同画面映设为完全相同的数值。 为了维持稳定,开发者不得不依赖 ema 或停止梯度等启发式技巧,这引发了多目标损失灾难往往需要同时平衡六个超参数。这种走钢丝般的训练方式限制了世界模型的可能性与扩展边界。 the world model 对 此给出了破局方案,它是首个无需启发式技巧的 j e p a 模型,能够直接从原始像素进行端到端稳定训练。研究团队摒弃了繁琐的工程经验,转而利用纯粹的数学法则确保稳定性。 这重新定义了世界模型的训练范式,让稳定感知成为可能。 the world model 展现了显著的范式优势,相比 pldm 等传统端到端方案, 它将六个超参数精简为一个不同于依赖海量预训练的基座模型。它拥有数学级的防崩溃保证,同时它不再需要图像重建或奖励信号。这种特性让 l w m 在 实现端导端像素训练的同时,极大降低了系统复杂性。 核心优势源于其极简的双核架构,编码器基于 y t 将原始图像压缩为低维引状态, z, 预测器结合状态与动作自回归 d 预测未来的隐状态预测值训练完全基于军方误差 mse 计算预测损失。 这种纯粹的闭环设计摒弃了庸俗任务,使模型更高效地回归预测本质。这种简单的架构在实际训练中面临一个致命陷阱,即特征崩溃。如果只优化预测误差,编码器会找到一条捷径,将所有画面都映射为完全相同的数值。 此时预测误差虽然降为零,但特征点在引空间中会从理想的均匀分布缩减为单一的红点。 这种信息丢失导致模型无法学习任何有用的物理规律,是 g e p a 架构最核心的稳定性挑战。为了从根本上解决崩溃难题,研究者引入了 s c g rig 政策化机制。 该机制的核心是强制要求潜在特征在引空间中呈现各项同性的高斯分布。在这种约束下,特征点被迫在空间中散开,模型无法再通过投机取巧来降低误差。这提供了数学级的稳定性保证,迫使模型必须真正理解画面内容才能完成预测。 在高维空间验证分布及其困难,研究团队采用了投影策略系统,随机生成多个一维方向,将高维特征投射到这些直线上。接着利用 apps poly 检验仅在一维空间验证其正态性。 通过聚合这些统计数据,就能引导完整的引空间,匹配各项同性高斯。这种设计在确保数学严谨的同时,极大提升了计算效率。 基于高校的数学机制, ewm 实现了极其紧凑的架构,其总餐数量仅为一千五百万,对算力极其友好,仅需一张普通单卡 gpu, 数小时内即可在数小时内完成端到端训练。这彻底告别了对庞大计算机群的依赖, 极大降低了世界模型的研究与应用门槛。除了硬件友好, ewm 在 调优流程上也实现了极致精简。 传统端到端方案通常需要手动调优六个超参数,而 awm 将调优对象缩减为唯一的政策化权重 lemda。 这种设计支持高效的对数级别二分查找,让开发者能极速定位最佳配置,从而摆脱了参数组合爆炸的困境。 超参数的精简直接提升了训练稳定性。 awm 仅包含预测与 sag 两项损失,有效避免了多目标优化中的梯度冲突。 对比实验显示,传统 p l d m 方案的曲线剧烈震荡,而 e w m 则表现出平滑且单调的收敛,前变量分布得以迅速贴合高斯目标,让训练过程更加可靠。 极简架构不仅带来了训练稳定,更实现了惊人的推理效率。在同等算力预算下, e w m 的 规划速度仅为零点九八秒,比基座模型低 no w m 快 了四十八倍, 其核心在于将编码画面的 token 数量压缩了约两百倍。这种极简的隐状态表达让模型在想象空间中的推演变得极其轻量化。 速度的大幅提升并没有以牺牲任务质量为代价。在固定 flops 的 计算预算下, lew m 在 多项规划任务中展现出压倒性优势。在 push 任务中,它的成功率高达百分之九十,远超 d n o w m 的 百分之十三。 面对更复杂的三 d 操作任务, o g bench cube e w m 依然保持了百分之七十四对百分之四十八的领先地位, 这证明了极简引空间在复杂交互场景下的强大决策效能。除了特定任务的卓越表现, e w m 还展现出跨维度的通用性, 它能无缝适应从二 d 迷宫导航到三 d 机械臂控制等多种任务。 模型在离线数据中自主学习,无需针对特定环境重新设计架构。这种纯像素驱动方案实现了通用的端到端世界认知能力。 模型在任务中的表现源于其隐空间模型预测控制 m p c。 智能体无需操作真实环境,直接在压缩的隐空间内进行路径优化。通过预测未来数部的隐状态,并计算与目标的隐空间距离。 求解器在内部循环中优化动作序列,直到在想象中找到最佳路径。这种纯粹的引空间规划是实现高效决策的关键。 为了验证模型是否真的理解,物理研究者对引空间进行了探测。通过限性探测器,模型能反向推导出物体的纯物理属性。即使未经显示坐标训练,它也精准编码了智能体与方块的位置。实验数据显示,位置相关性系数二高达零点九九以上。 这意味着极简的引空间内已自发涌现出对物理结构的深刻理解。即便训练过程不包含重建任务, bwm 依然能通过区区一百九十二维的影像量还原世界。研究者发现,其重构画面在二十万步时已非常清晰,且高度逼近原始真值。 这证明极简的引空间并非无意义的压缩,而是成功捕获了信息本质。即使没有显示的图像,重构引导模型也成功保留了底层物理状态的核心信息。为了进一步验证 ai 的 物理常识,研究团队引入了发展心理学中的违背预期范式。 该测试模拟了婴儿观察世界的行为,当出现违背物理规律的现象时,观察者的惊讶度会显著提升。研究者将此逻辑应用于 a w m。 如果模型真正理解了物理规则,当面对物体瞬移等逻辑冲突时,其预测误差应该出现剧烈飙升。 实验数据直观展示了模型对物理法则的感知。在正常运行轨迹中, v w m 的 预测误差始终保持在极低水平。当环境中加入物体瞬移等物理违背时,预测误差曲线会瞬间产生巨大的垂直尖峰。 模型通过捕捉空间连续性的破坏,敏瑞察觉到了物理规律的崩塌。这种反应证明了世界模型已初步具备物理常识。 dwm 能够敏瑞分辨环境中的表象波动与物理本质,当方块突然改变颜色时,模型仅产生轻微的预测误差波动, 而面对方块瞬移这种物理扰动,物差飙升幅度是视觉扰动的数倍。这组对比有力的证明模型并非在机械记忆像素,它真正掌握了底层的物理运作逻辑,对规则的破坏远比对外貌的变化更敏感 了。 the world model 标志着极简主义在构建世界模型上的成功,它仅凭两项损失函数与唯一超参数便从根本上解决了 g e p a 架构长期存在的特征崩溃难题。 一千五百万的极小参数量与单卡训练能力配合四十八倍的规划提速,真正实现了算力的平权。 从无标注像素中自发涌现的物理直觉证明了该模型作为通用具身智能机座的潜力。未来这种稳定且高效的范式将为复杂环境下的智能体决策提供更清晰的路径。
粉丝8846获赞3.6万

倒车请注意,欢迎使用本公司智能语音电动车, 欢迎少爷回家!最近 ota 更新过的特斯拉,车主们看到那自动化密密麻麻的菜单,是不是头都大了?那么小白今天呢,就一条视频给大家讲明白 怎么样去设置,并且我还给大家准备好了一套非常详细且实用的自动化大全,可能视频会有点长啊,所以大家可以先点赞收藏,教大家怎么设置啊。首先我们打开自动化啊,然后右上角一个创建自动化,原理很简单,就是触发事件以后会执行某些动作。 那触发事件你可以随便设置啊,比如说很多人设置的是主驾驶被占用,坐了人上去以后呢,他可以执行语音播报啊,或者是各种啊播放音乐啊,这个看他自己嘛, 如果大家觉得操作这些太麻烦,或者是没有很好的想法,那我帮大家都准备好了,哦对了,他特斯拉呢,驾驶员,不同的驾驶员呢,他的自动化也是独立的,比如说现在是剧,我改成特小白以后,你看这都是我设置好的,这个是很智能的一个点。然后呢,我再给大家一介绍我们设的这些的原因啊, 将第一个就是我坐上来,他就会欢迎少爷回家,然后当我坐上来以后,座椅被占用,然后我又关闭了车门,他会说欢迎使用本公司智能语音电动车, 不要忘了系安全带,有的时候乘客坐到车上,你不方便提示他们要系安全带,那我们这样设置他不就更智能一点了吗?不需要我自己提醒。然后这个是当主驾驶安全带系上,他就会播报,准备好出发了吗?这些东西啊,播报语音呢,都是发挥自己想象力的,你想怎么改都行的。 然后呢,还有当我驾驶时, go go go! 出发了,为什么要设置呢?因为那时候呢,你行车过程中你会不知道自己有没有挂上挡,所以我们设置一下他会好一点,正常来说挂挡他没什么声音的。然后驻车 停车喽,不要忘带手机,就万一我们离车以后,手机没拿车门,他是不会关的,到时候人家就可以进车里边了,不是很安全。所以说我们都有设置啊,倒车也是有设置的,倒车请注意。然后副驾驶,我设置的是欢迎公主上车,这个也没什么好讲的。然后副驾驶关门的时候,然后我们座椅也被占用的时候呢, 他会提示啊,系上安全带哦,公主,给大家听一下,系上安全带哦,公主,我们副驾驶如果车门打开了,我这里还设置了一个宝宝再见,记得想我,这些都是提供情绪价值的,大家 自己设置就行了。这个功能呢,就当我们后排乘客要出去的时候,为了防止开门杀呢,我会提示他啊,让语音播报自动提示,注意后方来车,小心开门杀。 因为我们停车都是靠右边停吗?所以说左边还是要小心开门刹的。然后右边的话,我设置的是什么呢?因为有的人他右边开门会关门很重,然后呢,还要推着玻璃关门,所以我这边也添加了一段语音, 先关车门,不要推玻璃哦。啊,你都提示别人了,别人也不好意思用力砸门了对吧?然后还有这个是就是我手机放在这里充电的时候,他会提示我已经充电了啊, 手机开始充电了,这样的话我就不用开车的时候还去看他到底有没有充上电。因为我们正常开车的视角啊,我是看不见他上面那个电源的,所以说这个设置一下也挺好的,不然的话 充一路下来一点电都没充上去,还有什么呢?就是当我车辆在充电的时候呢,他会通知我,你的小特已经开始充电了。对,因为有些时候我们去外面充电可能充上了那个枪插上了,但他实际没有充上电,所以有这个播报也是很重要的 啊。还有如果说充了以后像第三方充电桩经常会弄断电中断,那这边也是我设置的提醒充电中断了,什么情况啊?这样的话我们就可以及时再去把电插上了,不然做了半天,哎呦,电还没充上,这不耽误时间耽误事的吗?对吧?还有什么呢?这个是给大家听一下吧, 五分钟后到达目的地,记得携带好随身物品哦,你看我都写的很清楚的,当导航剩余距离小于一公里的时候,他就会语音播报了,这个我觉得也是挺好用的。还有这个开启防晕车模式啊,这个就是我直接配特斯拉开启防晕车模式, 然后呢,他就会把我的加速模式变成舒适动能回收啊,变成 d 啊,这样的话其实坐车的话就没有那么难受了。还有啊,我还设置了一个暖宝宝模式,就是黑特斯拉暖宝宝模式, 你看我设置了多少动作,把方向盘加热,座椅加热,前后排包括热空调全部都打开,我觉得这个也是挺方便的,冬天的时候上车就不用哭哭哭各种点了,我们就一句暖宝宝模式就全部打开了,估计以后 o t a 以后会有更多功能,而且这些功能可能还能分享给你们, 不需要我一个一个打开教你们了。然后呢,还有这个车速超过九十的时候,它会自动把我的加速模式 变成运动,就标准速度更快了啊,这样的话我们超车响应会更快一点,这两个是对应的,速度低于九十公里每小时的话,车辆就会自动把加速模式变成舒适,动力回收调成低 啊。他也会有播报已开启舒适模式,然后这个他如果说超过九十,他会说已开启运动模式。还有什么呢?就是我离车了以后,我也设置了一个条件状态是主驾座椅被占用,然后主驾驶门一打开,这个时候他就会提示我, 少爷再见,不要忘了带手机。因为食堂原因,我就不把每个指定展开给大家看了,有需要的话直接找我拿就行了。最后呢,大家一定要记得点赞关注,带你们玩转特斯拉!

兄弟们,上期教大家怎么在 nas 里面一键部署 openclaw, 以及怎么进入控制中心,以及目前默认使用的大模型是什么?那就有好兄弟要问了,我就不爱用免费的,我就爱用收费的,收费越贵我越开心,怎么办呢?好办,在配置里啊,找到 models, 点击第四个 model providers, 第一行呢,有个 enter, 点它到了下面这里啊,有个 customer 杠一名字,你可以随便改啊。 model provider api adapter 这里啊,选择付费大模型对应兼容的接口协议工具,然后在这里输入你付费大模型的 api key base url 啊,这里输入你的套餐专属连接,然后呢,在这里点击 add。 api, 同样选择付费大模型对应兼容的接口协议工具啊。 id 这里点击 add。 如果你的付费大模型指的是文本和深度思考啊,那就选择 text。 如果这是文本深度思考和视觉啊,那就再点一下 add, 选择 image 名字这里呢,就随便填写一下。然后呢,将 resending 打开,然后回到聊天啊,检查一下模型状态,输入你现在有哪些模型,看它的回复后啊,输入切换到 ok, 你 的收费模型就切换好了。为什么不输入给他,让他自己配着呢?因为这个模型啊,他可能有一点傻,他不一定会按照你的要求去输入你想要配置的模型 id, 可能会自动调用免费的 id, 然后呢,就导致小龙虾直接崩溃。那如果模型设置错了,小龙虾崩溃了怎么办呢?哎,别急,下期告诉你。

打开哈根廷 face 的 网址,注意它的后缀是点 c o, 点击设置往下拉,找到硬件设置, 添加自己电脑的配置, 我的选择苹果,选择 m 二 ultra, 一 百九十二 g 内存添加,也可以添加其他的配置,用来测试是否能运行。 勾选这个小星星,这样的话默认就会显示这个电脑配置。 点击模型,首先勾选拉蒙 c p p, 来筛选对应的模型, 搜索需要的模型。我们先看一下 deepseek, 这样可以看到绿色的就是能运行的,黄色的话是有可能能运行,有可能运行不了,红色的话就是运行不了的, 我们再看一下 memo, memo 的 话我的电脑就只能运行三比特的 选择,英文达六千的选卡显示都是红色,所以应该是都运行不了,大概率是显存九十六 g 是 不够用。 下载运行模型,点击使用这个模型,选择拉姆 c p p, 选择对应的精度 复制命令, 在命令行工具粘贴命令,它会自动下载对应的模型文件,然后下载完成之后就直接运行, 以后运行判断本地已经下载过了,它就会直接运行,不会重复下载。 大模型运行之前统一内存占用二十二点五 g 左右运行大模型, 统一内存占用直接来到一百五十四 g, 发一条消息,测试一下, 统一内存上涨了几百兆。 第一条线是刚启动大模型时占用的 gpu, 第二条是发消息时候占用的,下面这一块是因为运行 obs 所以 占用的 gpu 总内存一百九十二 g 占用了一百五十五 g, 还有三十七 g 可以 使用, 是不是有可能这个精度也可以运行呢?答案是不行,直接内存溢出。最后感谢大家点赞,西海寻真再会。

今天我要给各位养虾人推出一个重磅的炸弹,就是傻瓜式的去布置多个龙虾。 那怎么去布置呢?我相信很多人对于养龙虾想要布置多个龙虾这件事情,已经在网上看了喝各种各样的教程了,各种大神分享,但这些大神他们都是技术大牛啊,对他们来说,那些把这个代码考到这边,然后怎么弄怎么弄, 这些都是很复杂的事情,对他们来说是超级简单的呀,但对我们这种小白来说,真的是操作门槛特别高。那怎么办呢?教你一个办法,就是让龙虾自己学会去布置多个紫龙虾。怎么去弄呢? 我相信大家应该已经知道了,布置紫龙虾这件事情在官方上面是有一个文档的,你把这个文档的链接直接原封不动的考给他,然后告诉他你去学会文档里面的所有内容,而且接下来我想要让你去帮我去布置多个龙虾。紫龙虾, 这个紫龙虾的名字叫什么?这个名字你自己去取啊,然后这个紫龙虾他主要是帮我去干什么,这个干什么的,这个你也是要去给他定义的好,完了之后呢,你还要去飞书上面去多建一个这个机器人, 那你原来那个机器人肯定是不能去呃,去调用两个这个这个龙虾的啊,你一定要是一个飞速机器人对应一个龙虾,那你原来的这个建的第一个机器人呢?他是跟你配对了,你的主龙虾就是全线最高这个龙虾。那现在你要再多建几个飞速机器人, 那你建完飞速机器人之后,不是会出现一个凭证吗?对不对?这凭证就是你的 id 和你的 id 的 一个密码,然后你把这个这两两个东西全部都丢给龙虾,然后告诉他,这个是我新建立的呃,机器人,你帮我去自动地去配置好我的紫龙虾。 好,那么接下来过一段时间之后,神奇的事情就发生了,他会真的会自动的帮你完全的把这个龙虾配置好。当然有的人可能会卡在他这个界面一直不动啊,有可能是被限流了或者怎么样,你可以再去问一下他,你帮我配置好了吗?那么过一段时间他会告诉你他配置好了,配置好了之后他还会告诉你,你还要操作一步就是, 呃,他要让你去配对,这个时候你要去你的飞书里面去跟你新建立的这个机器人聊天,你要跟他说你你好。然后这个时候,呃,你应该很熟悉了吗?他会出来一个配对的一个信息,你把这个配对的信息直接丢给你的龙虾, 然后跟他说你帮我自动配对, ok, 他 就真的可以帮你自动配对了。那如果你也卡在了这个配对的过程中,你就去继续问他,你说你帮我配对好了吗? 这个时候他会回答你配对好了,然后你再去你的飞书里面的紫机器人紫龙虾里面去跟他聊天的时候,你说你好的时候,他就会跟你回复,啊,你好呀,我是你的什么什么什么龙虾啊?我擅长怎么怎么样,我去干什么 啊?这个时候就已经成功了,你会发现没有,这整个过程中那些复杂的你不擅长的事情全部都由龙虾完成的。而你只需要做这么几件事情,一, 你要去建立飞书的这个呃机器人,对吧?因为这个呃龙虾他是没有权限的,你要去飞书里面去做,对吧?然后第二你要去给他取个名字,对吧?第三你要去给他去设定这个紫龙虾,他是要干什么,对不对?好, 这几件事情我相信对大家来说都是没有门槛的。好,完了之后啊,你还要去再做一件事情,你要去确认一下,因为有可能他第一次创建紫龙虾的时候,他没有去分配好 不同的记忆文档。什么意思呢?就是说有可能你的煮龙虾跟你的紫龙虾是共用一套记忆系统的,这个时候你要跟反复跟你的龙虾确认,你说 我现在是需要我的紫龙虾跟我的煮龙虾是存不同的记忆的,是拥有完全独立记忆的,以后你们俩的记忆不要互相串,但是权限最高的在于煮龙虾以后煮龙虾可以给紫龙虾开权限, 哎,这样子的话,你接下来以后他再去做这个紫龙其他的紫龙虾的时候,他就会记住你给他做的这个要求。当然很多人可能不需要做这部分啊,这个这个事情啊,因为有可能他第一次创建龙虾,他就已经跟你 已经分配好了不同的独立记忆了。之前的结奖里面我就已经跟你们讲过了,只有我这种小白,我从零到一自己摸索出来的人,我才最懂你们的痛点,你们就是很多东西你不知道怎么操作吗?对不对?那接下来我还会有一个系列关注我,我会持续的分享关于我这种小白是怎么样一步步从零到一养龙虾的?

拉玛 c p p 的 投机解码最近迎来了更新, m t p 功能已经被合并至主线了,搭配上阿斯拉夫最近出的包含 m t p 头的千万三点六二十七币, 基本上可以做到没有代价的加速。这个版本是可以适用多模态功能的, 模型权重的话一般国内在摩达下载要快很多。我是实验已下载了 k q 四,然后多模态文件两个都下载了。哇, 这次主线部署就不需要去合并分支了,整体方便很多。嗨,苏雷,我这里拿 q 四 k m 来实验上下文,凯满两百五十六 k k b k 是 用 q 八来炼化,哦对了, 这个版本主线是不支持 turbocharged, 所以, 呃,我是用 q 八来做演示。咦,模型加载完可以看到显存占用差不多在三十 g 左右,也就是说五零九零可以很完美的加载两百五十六 k 的 上下文。 这个是没开 m t p 的 速度差不多在 六十五六十六,然后这个是开了 m t p 的 速度提升挺明显了,基本上两倍。在平时的 a 帧使用中,接受率是最影响输出速度的一个 残数,像在我在长工具调用中,这个接收率在百分之五十六左右,我的速度就是在八十头个每秒,如果是在写代码的话,基本上能干到七八十,百分七八十, 那么这个速度就会在一百二十头啃左右,还是一个相对很大的提升。 不过这里还有一个针对二十四 g 显存的方案,是把上相文降到一百二十八 k, 把 kb cash 等量化格式调到 q 四,这样的话目前就是占用二十三 g 显存,勉强能跑。哎呀,然后我不是很推荐 q 四以下的亮华精度啊, 他们的损失太大了。就是感觉智商降低很多还是 q 四以上是一个比较 甜点的一个位置。是我一般就是用 q 四 km。 那 现在换显卡了?我现在自己就是刨原版了嘿构建指令跟启动指令回头我也会放在拼楞区到底。

来回答一下最近问的比较多的问题。第一个, power shell 窗口怎么打开?咱们以桌面环境为例,按住 shift, 再按下鼠标的右键, 点击在此处打开 power shell 窗口,这样就行。第二个问题,欧拉玛的版本,在 power shell 窗口中输入 欧拉玛杠 v 回车,可以看到我当前的欧拉玛版本号是零点一八二。第三个问题,欧拉玛下载大模型后,怎么更改大模型的存储位置?在欧拉玛任务栏的小图标中,右键选择 setting 设计, 可以看到奥拉玛默念的储存地址是在 c 盘,我们点击这个按钮,重新设定一个位置,我给它放到 d 盘,新建一个文件夹,奥拉玛 model 好, 点击确定, 这样就更改过来了。第四个问题,选择好模型,点击下载按钮后,界面没有反应,大家可以在输入框内输入一个问题,比如介绍一下自己 发送后就显示正在下载模型了。第五个问题,欧拉玛的官网下载速度太慢怎么办? 升级出现无法访问的现象?关注我,我给你发网盘的链接。

五月二十六日消息,小米汽车今日发布小米 autopilot 全新框架,为业界辅助驾驶世界模型提供了新的框架路径,推动从场景感知 向认知推演场景进化的高阶形态跃迁。目前,世界模型有两条主要技术路线,重建与生成各有明确的优势与短板。生成通过扩散模型直接预测未来画面,能想象未观测视角和未发生场景, 但缺乏显示三 d 结构,且常持续下容易漂移失真。重建从多视角观测恢复几何精确的三 d 场景, 优势是高保真、强一致性,但只能还原已建内容,缺乏想象能力。商摇头。 model 则是提出一个全新的整合框架, 将重建模块与生成模块深度藕合,让两者在结构上互相约束。重建提供三 d 几何作为结构化锚点,约束生成过程的稳定性。 生成则把预测能力延伸到观测之外,弥补重建的边界,两者形成闭环,互相增益。您看好这项技术吗?评论区留下您的看法。

登顶 robo twin 一 套系统闭环重新定义了世界模型,一秒变半秒,让机器人推理加速百分之五十将用于操作的生成,是世界动作模型部署到实际应用时受到像素级荣誉重建、 限性及内存增长以及串行推理延迟的严重之曰。为此,来自跨维智能的研究团队提出了英国隐空间世界模型,该模型以 dno v 三特征作为生成目标, 将交互语义与视觉造声结偶,从而实现了高度鲁棒的领域范化。为突破内存增长瓶颈, c l w m 设计了双态测试时训练记忆模块,保障了长城任务下严格的常数级内存占用。为克服部署延迟,该团队提出了推测试异步推理策略, 将部分扩散去造过程隐藏在物理执行背后,将阻隔延迟降低约百分之五十。为规模化训练鲁棒策略,该团队还推出了 m b d chain, 这是一个通过在训练期间注入无限量具有物理依据的轨迹来进行效率法则的在线框架。大量实验证实, c l w m。 在 复杂的双臂仿真任务中取得了当前最优性能,并在实体机器人上实现了前所未有的零样本。从仿真到真实迁移, 其表现甚至优于那些在真实世界数据上显示微调过的基线方法。

终于把我的个人 ai 助理 openclaw 搞定了,考虑到安全性,我的安装方法是把它装在了我的 mac 电脑的刀口里面,通过刀口去隔离一下安全性,又考虑它跑起来比较吃头坑,所以我选择的是 kimi 的 k 二点五 a p i 接口。那具体是怎么安装呢?第一步,需要你自己在 mac 电脑上下载一个 dawg。 第二步,你要在 dawg 里面去安装这个 openclaw。 第三步呢,会启动一个 quickslot 的 向导, 在向导里面选 kimi 模型,把你申请的 kimi 的 api 接口输入进去,一定要手动修改一下 kimi 的 api 的 地址, 未默认的地址是点 ai 的 地址,这是国外的 kimi 的 地址,我们一般在国内申请到的都是国内的 kimi 的 api 地址,在配置文件里面要把点 ai 变成点 c n, 这样 kimi 就 配置好了。第四步呢,要启动这个 open call, 启动的时候一定要给它挂在一个具体的文件目录, 因为现在的 open class 是 装在 doc 里面的,如果没有具体的文件目录,你一关闭它就所有东西都消失了。第五步,通过 mac 的 终端 就可以去连接这个 open class 了,连好之后呢,你就可以通过命令行去给他下一些命令,让他去帮你做一些操作了。如果你是程序员的话,其实到这一步就可以了, 主人呢,其实还是想在有界面的浏览器里面去操作。所以呢,第六步,你需要先把 doc 电脑能访问的这个地址, 然后呢,再通过 cloudfire 的 隧道机制,建立一个你手机和你 mac 电脑的一个隧道,这样在你手机上就可以直接访问到这个 opencloud 了,当然在电脑上也可以访问到,这样整个安装环境就搞定了。接下来就安装一些你常用的 skills, 比如让 kimi 能够联网搜索,让 opencloud 能够查找 skills, 这个非常重要,要让他遇到错误的时候去纠错,去试错,去自己解决问题的这个 skills。 这样呢,一个个人的 ai 助理就这样搭建完成了。我把整个过程用到的这些安装指令都放在了评论区需要的支取。

今天手把手教大家如何把开源大模型塞进你的普通电脑里,以后使用,不花任何偷看费用。这条视频有点长,点赞收藏好。我会和大家讲清楚,哪些人需要做本地部署,什么行业适合本地部署,以及什么硬件匹配什么样的本地部署需求。 ok, 咱们直接开始我自己平时服务的客户里,向政企、医疗、教育这几类, 他们在做品牌战略咨询的时候,都会延伸出一个新的需求,帮他们做大模型的本地部署。尤其是政企的科研部门。用通用大模型有一个很明显的问题,它没有你的私有知识库, 也没有针对你所在的行业做过适配和微调。咱们平时用拆 jpt cloud 或是国内的大模型查资料、写报告完全够用。但一旦涉及行业机密、私有语料、内部文档和客户信息,这些内容就不适合直接丢进通用的 ai 对 话里。这时候本地部署的价值就出来了。 第一类,适合做本地部署的人是对数据安全要求特别高的,比如你们企业有很多资料不能外流。第二类是内部知识体系非常反复的企业,比如你们公司有大量的产品资料、培训手册、制度文档,员工每天要反复查看, 这种情况下接一个私有化的大模型,价值非常大。那我们自己的电脑能不能做本地部署?答案是可以,但要看你的需求,咱们一步步说。第一步,我们先来选模型。首先我们来看二零二六年开元大模型的综合排行榜。第一档,入门体验级, 适合日常回答清量知识库对硬件要求是最低的。第二档,使用生产级,在普通消费级 gpu 上就能实现,很多企业内部场景都能 carve。 第三档,高阶推理级,在代码和推理能力上更强,适合有明确业务目标、预算相对充足的团队。第二步,咱们再来看看不同模型匹配什么样的硬件。如, 如果你是个人体验,跑个小参数模型,一台高配的游戏电脑就够用了。但如果你想多人使用,要求响应快、效果稳,接入公司的知识库和业务系统,那就是企业级部署的标准了,需要做算力或者上服务器。第三步,实操来了,我们以这个模型为例,它在多项公开扳指 mark 里 代码能力处于同量级的领先水平,而且对中文用户比较友好。那具体怎么做?首先,打开欧拉玛,这是本地大模型的运行工具 icon, 是 个非常可爱的羊驼,只需一行命令就能搞定。安装和运行 完成之后,下一步打开终端,输入这行代码,回车一下,它就会自动下载或启动本地模型。如果你不喜欢用命令行,也可以选择 i o m studio, 它是 g u i 图形界面,有聊天入口,更适合非技术背景的用户。好了,今天的分享就到这里,记得关注人工雨林,我们下期节目见!

想进 toc 工厂别迷茫,完整实操流程全讲透。首先第一步,选 ai 模型。 ai toc 是 智力计量单位, 不同大模型出来的 toc 效果差别很大,不一样,有的更聪明,能力更强,有的就偏弱反应。一般闭源模型无法进行部署, gpt、 cloud、 java、 豆包、 mini max 都在此类开源模型支持自主部署,千万 deepsea 及 lm 根据产销性价比 来选择。第二步,挑选顺利服务器国内脱口成本优势明显,仅为美国的五分之一到七分之一, 电力人工成本更低廉,推理型服务器功耗更高,比如搭载五零九零芯片,机器 产值更有优势。第三步,建厂部署有要求,必须选用 t 三级以上的 a、 i、 d、 c, 网络和电力要稳定可靠,先做设备主网搭建,再安装对应大模型程序,最后搭建统一调度系统。四步, 运营销售三种方式,入驻专业平台做分销,找云服务商代理渠道,也可以直接对接终端客户、高校、影视公司等直客, 利润空间会高一些。第五步,后期运维很重要,因为达服务器年均故障大约在百分之十五到百分之二十之间,要预留维修更换的预算,每月对比模型性价比 灵活切换更省钱高效。五步,刺透 token 工厂,新手入行少走大半弯路。

欢迎收听豆包 ai 播客节目。 哈喽大家好,欢迎收听我们的播客啊。今天咱们来聊一聊 deepsea v 四这个模型的一些部署和使用的经验啊,这个视频咱们就专注在纯 v 四这个版本啊,来给大家分享一些我们的经验。对,咱们就开始吧,马上进入今天的主题。 我们今天第一个要聊的呢是业务开发必知的就是 v 四的一些独有特性和接口调用的一些要点。首先第一个我们先问一个问题啊,就是 deepsafe v 四这个模型在技术层面有哪些东西是跟以前完全不一样的? 嗯,这个 v 四呢,他最大的一个不同就是他的这个上下文窗口直接拉到了一百万头。肯哦,这是一个非常恐怖的数字啊,就是他可以记住非常非常长的一个对话,或者说非常长的一个文档,然后他用了一种混合的注意力机制, 这个里面他是有一些创新的技术的啊,这个叫什么?压缩稀疏注意力和高度压缩注意力这两个东西呢,一个是为了降低计算量 啊,把一些不那么重要的信息给它丢掉。另外一个呢是为了让这个模型在遇到非常长的 输入的时候,它依然可以非常快的进行推理哦,这听上去对那种需要处理大量上下文的这种应用场景来说,简直太有用了。没错没错,而且它还专门做了这个跟国产芯片的一个深度适配, 就是它可以在华为的这个升腾啊,或者说韩五 g 的 这些硬件上面跑的非常的高效。然后它的这个推理成本也比上一代要低很多很多,同时它的这个多轮对话和这个工具调用的能力也都升级了, 就是它可以真正的去处理一些比较复杂的 agent 的 任务。那那 deepsea v 四在这个 api 的 设计和调用的方式上面有哪些东西是跟以前不一样的呢?嗯,这个 v 四呢,它是全面的兼容了 openai 的 这个接口,然后同时它也支持 ospec 的 这个接口,就是它的这个输入输出的规范是变得更灵活了啊。同时呢,它在这个流逝的输出上面也做了一些新的设计, 就它可以让你实时地看到这个结果。哎,这个对那种需要立刻看到反馈的这种应用场景来说就很重要了。没错没错,而且它还增加了一些新的这个消息的角色,比如说什么 context 和 to 这两个新的角色, 然后这个思考模式也可以去配置这个推理的这个强度,就是它的这个实用性和这个可控性都大大的提升了, 包括它的这个对于这个大模型的这个复杂的输出,你也可以通过这个 json 来保证它的这个结构是正确的。 如果我们现在要从零开始去对接 deepsea v 四的话,在实际的开发当中有哪些细节是我们必须要注意的?呃,就是这个多轮对话的时候,你要注意这个 assistant 里面的这个 reasoning content 你 要不要回传,然后这个 stream options 你 要合理的去配置,包括这个 长上下文的这个缓存你要利用起来。再就是这个你在调这个 api 的 这个病发的时候,你要去结合你自己的这个实际的机器的资源和这个模型的版本去考虑。 再就是这个视觉的这个功能现在还是处于一个灰度的阶段,所以你在使用的时候要呃关注这些东西,才能让你的这个应用更稳定高效。我们接下来就进入这个运维工程师的这个视角啊,我们来聊一聊这个 在部署 deepsea v 四的时候,这个推理引擎我们到底要怎么选?然后在不同的场景下面我们要注意哪些事情?嗯, 这个生产环境的话,我们是强烈推荐就是用 v l l m, 那 它是对这个超大规模的模型和这个超长的上下文做了极致的优化。 然后它有一些比如说像配置的 tension 这种非常黑科技的东西,可以帮你节省百分之六十以上的这个显存的开销。 它也支持这种多卡的并行,包括对这种稀疏的 m o e 有 专门的调度。那就是说如果是,比如说我资源有限,或者说我是在本地开发,有没有更灵活的选择呢?呃,本地或者说你资源有限的这种情况的话,你可以用欧拉玛或者是说拉玛点 c p p 这种比较清亮的 框架。那如果你想要极致的低延迟,或者是说你想要用一些国产的芯片,那可能 s g, l n x 和 k transformers 会更合适。 对,但是你要注意就是不同的框架,它的这个模型的格式和这个量化的方式是不兼容的,这个要特别小心。就是说如果我们要把 deepsea v 四部署到生产环境当中, 这个硬件和这个系统的配置我们要怎么去规划?呃,像这种就是,呃 v s pro 这种大的模型的话,如果你要全精度的去推理,那肯定是多块高端的 gpu 啊,比如说八张 h 一 百,或者是说四张 b 三百这种,那如果你是用这个量化的版本的话,可能就可以 少一点卡,然后如果你是用这个 light 版的,那可能就一张卡就够了。但是我们还是建议就是用 n v link 把你的这些 g p u 都高速的互联起来。除了这个 g p u 之外的话,内存和存储这一块儿有什么特别的要求吗?呃,内存的话就是每一张卡我们建议是配二百五十六 g, 然后系统盘的话,我们建议是呃毒素要超过七 g 的 这种 nvme 的 ssd 系统的话,我们建议是用五泵头二十二点零四, c u d 要十二点一以上, 驱动的话要五百三十五以上。 python 的 话我们建议是用三点十或者三点十一。那如果你是用这个多卡的话,最好是可以用这个 n u m a 来绑一下内存,这样的话可以 最大化你的这个性能。在实际的生产当中,我们运维 deepsea v 四的话,有哪些细节是我们一定要注意的?然后有哪些坑是我们最容易踩到的? 呃,首先就是你要保证你的这个模型的文件和你的这个 tokenizer 的 配置是一致的,然后不同的这个框架的话,它是不能混用的,这个是一个非常容易出错的地方,就是你会出现一些莫名其妙的错误。嗯,第二个就是 你要注意你的这个环境变量和你的这个启动参数要正确,比如说你的这个 max model lin, 你 要设的足够大,不然的话你的这个长上下文就会被无声的截断。这个也是一个很容易出错的地方,就是你以为你传进去了,但是其实它没有传进去。 像这种大模型的话,资源管理这块有什么要特别小心的吗?呃,一定要开启这个 inggram 的 这个缓存,然后这个 devshm 的 这个权限要给够 这个稀疏的注意力和这个专家的这个并行,你要通过这个环境变量和这个启动参数把它打开,不然的话你的这个 gpu 会爆显存爆得非常厉害。包括你的这个生产环境的话,我们建议是用 ducker 来部署, 用这个官方的镜像加上这个健康检查和这个自动重启,你可以用这个 v l m 的 这个 rotor 来做这个多节点的负荷均衡, 包括你如果是要做这个高并发的话,这个推理强度你也要去合理的配置一下,不然的话很容易出现一些 稳定性的问题。对,今天我们把这个 deepsea v 四的这个核心的特性,以及这个 api 的 调用,包括这个部署和运维的一些关键的细节都给大家梳理了一遍,希望可以帮助大家能够少踩坑, 然后能够顺利地把这个服务搭建起来。好了,那么这就是本期播课的全部内容啦,然后我们下期再见,拜拜!拜拜。

特斯拉 f s d v 十四将以一种全新的名称在国内上市,不叫 f s d 了,而是被正式改名为 t a d。 种种迹象表明,满血本 f s d 入华越来越近了。 最近国内 model 三和 model y 的 车主如果仔细翻看车辆说明书,会发现里面赫然多出了 v 十四版本系统的详细介绍,而品牌名称变更为 t a d t s l assist driving。 特斯拉辅助驾驶老马在国内的交通法规和监管部门面前也是懂什么叫入乡随俗的,也是在给大众降低预期 之后的中文版用户手册介绍了 f s d v 十四的几项专属新功能,包含了标准、快速以及备受关注的疯狂 max 和慢速模式。除了更新版手册,特斯拉在今天早些时候设立了专门的本地 ai 训练中心,确保中国驾驶数据在国内进行处理。 特斯拉正在国内各大城市招聘智驾测试师,加速推进 f s d。 而且近期特斯拉急需一名软件质量保证工程师,自动驾驶方向,工作地点在上海,这明显是在为 t a d 大 规模推送做最后的路测都抵。据 说,特斯拉最近对待中国的员工 f s d 适用政策进行了一项小调整,给那些开着搭载 h w 四点零硬件测试车的中国员工加上了一条极其变态的保密条款,违反保密政策将被处以五百万元人民币的罚款。 因为车主手册已经更新,可能只需几周时间,首批中国测试人员就能在他们的特斯拉车辆上体验到 v 十四版本带来的新功能。但夏利马斯克近期也迁赴上海,争取把最后的 f s d 认证给敲定了。 无论是叫 f s e t i d 还是自动驾驶,他们的目标都是一样的,提供更安全、更便捷的驾驶体验。一旦这套纯视觉的系统真的在咱们国内这种地域级路况中存活下来,并且大面积铺开,那对所有的自动驾驶车企来说,都将是一场刺刀见红的贴身肉搏战。

上期发了有 ai 工具做视频,有粉丝问本地怎么跑,那么这期直接看配置。核心就这一个文件四部 l l m 写剧本 图片视频生成配音模板,默认配的 deepsea 填 t 就 能用。想本地跑, l l m 抓奥拉玛 by style 改成 local house, 一 四三四挖到填你下载的模型名,画面和视频,堪费了一两套方案。 running hub 是 云端机, p u 不 用显卡, third house 是 本地需要自己装 显存八 g 以上 wikflos 文件夹里 rune hub 是 云端预设, self host 是 本地预设命名规则 image video t t s 前缀,你自己做的工作留放 self host 里就行。配音默认 h t t s 免费,不稳的话换本地 t t s 工作流, 原单方案约费几十,本地方案零费用,带要显卡报错,看 flag 文档就好了。有问题评论区。