粉丝1.5万获赞15.0万


商汤突然出手发布国产最强多模态大模型,性能直接对标国际顶尖。四月二十七日,商汤科技正式发布三四 nova u 一, 这是国内首个采用 neo unifa 原生架构的多模态大模型,标志着国产 vi 技术迈入新阶段。 传统多模态模型需要独立编码器,架构复杂,效率低下。而三四 nova u 一 首创 neo unifa 架构,无需编辑码器,一套架构统一,多模态理解与生成效率大幅提升。 海光 dcu 率先完成 a 零全量适配,国内首批国产大模型加国产芯片深度协同,减少对英伟达的依赖,这才是真正的自主可控。 三四 nova u 已达到开源模型 sota 水平,在开源多模态大模型中性能最强,直接对标国际顶尖模型。 国产开源模型全球下载量已突破一百余次,占哈根 face 平台百分之四十一的份额,这意味着全球每十次 ai 开源下载近五次。是国产模型 技术层首创原生架构,为端侧 ai 部署提供更高效方案。产业层,国产大模型加国产芯片协同,推动 ai 自主可控。生态层开源搜它,让开发者直接受益。 miu unify 首创架构,海光 dcu 首批适配开源搜它水平。商汤三四 nova u 一 推动国产 ai 自主可控。

深度学习可解释性当下危且正堪这个图榜双领域,搜他的黑科技正在颠覆医疗、社交等多个赛道。曾被诟病为黑箱的深度学习,如今迎来可解释性的重磅突破。科研人员巧妙融合了注意力、机制、图、神经网络等技术,打造全新透明模型框架,拆解模型决策逻辑,彻底打破技术壁垒。为了把握这个热度超高的领域, 我们精选十六篇前沿论文加开源代码,助力你的科研超车。同时,通过改进动态权重层、引入交互式注意力技术等,增强模型对复杂语义关系的处理能力,还结合预训练模型,进一步实现性能跃升。把握热点思路,为科研注入创新点。

国家队出手就是不一样!北京人形机器人刚刚扔出一颗核弹,全球首个统一聚深智能模型 policonunify 一 点零一举拿下 world arena 两榜 s o t a 世界第一!以前的机器人看见就做,像个提现木偶,现在不一样了,他会先做梦再行动。怎么做到的?理解、推理、 想象、行动,一个模型全包圆,给你看个真实测试,让机械臂先插网线,再做防水处理,传统模型直接卡住,因为没见过串联演示,但北京人形的机器人呢?他在心里先预演了一遍,然后一气呵成 零样本迁移到新人型机器人上,照样高分通过。这就是理解、推理、想象、行动的闭环。智能 机器人不再是死记硬背,而是真的懂了物理世界。从模拟器到真实机器人,国家队交出的答卷,让具身智能迈入统一范式时代,机器人开始预演未来, agent 终于有了物理身体!关注我,一起看懂机器人最前沿!

老板们,星巴克赛百威同款的快速微波烤箱 top 酱搜他到货,这款的话是一个触摸屏的,那他比普通的快速 烤箱好在哪呢?首先他这款的话是一个大功率的三相电,六千两百瓦,效率非常高,速度快, 锁水能力强,而且做出来的产品又快又好,即使是在高峰期,他的出差速度也可以跟得上。机器呢,非常的耐用,而且故障率低,无论是烘焙还是肉类产品表现能力都很强。新机价位将近六百,价格呢,我也直接给大家打下来了,成色呢都非常给力。这边有感兴趣老板欢迎留言。

全景深度估计技术可以从三百六十度图像中恢复环境的三维结构,这对机器人导航和 vr r r 应用直观重要。然而,现有的全景深度估计研究主要集中在室内场景, 且由于缺乏大规模训练数据,其在开放世界场景中的泛化能力远不如普通视角的深度估计模型。此外,现有模型往往只能预测放射不变的深度,难以直接生成高质量的三 d 点云,且在全景图的左右边界处容易产生拼接缝隙, 影响视觉一致性。为了解决上述问题,本论文提出了 depth anything in 框架。那三六零的整体架构如图三所示,它保留了 da v 二的 dpt dance prediction transformer 架构,但在两个关键方面进行了改进。 一位宜学习 shift learning, 为了解决尺度不确定性,二循环填充解码器 circular padded decoder 为了解决边界不连续性,模型使用合成的全景深度数据集进行微调,并使用尺度不变损失函数进行监督,并且通过巧妙地利用 vt 的 类令牌 来学习大局位宜参数,并结合循环填充技术。那三六零不仅在室内外精准测试中大幅超越了现有技术,包括 panda 合并发的,而且能够生成无缝且结构一致的三 d 点云。此外,作者贡献的 metropolis 数据即为户外全景深度估计提供了宝贵的评测精准。

网络上成千上万的人手视频,为什么训不出一个能动手的机器人?我们重新采集的区别又在哪?三样东西,深度信息给距离关系、相机内参给像素到三 d 的 方向稳定的世界坐标系,让晃动的相机有不污染的轨迹。 机器人要学动手,必须知道手在三 d 空间的准确位置,这三样缺一不可。 手部识别算法,嗨门输出的股价很准,但在整个空间下的定位偏差很大,甚至可以说是漂移的。 当额外有了这三样数据,这肘深度信息不再是从前的估值,而是深度相机输出的真值。好比给近视戴上了眼镜,嗨门只留下他提供的手势和姿态。 网上的视频也不是毫无用处,能训练机器人看懂世界,这是另一条路线。但这条路线自己也承认,纯视频缺的恰恰是真实的三 d 信号,而裸手采集加真实深度,正是这一块缺的拼图,欢迎来交流。

大各位朋友,今天聊聊西湖大学开园的 deepscientist, 全球首个本地优先的自动化 ai 科研工作站。 核心结论,它能全流程替人类做科研,从假设到论文自动迭代,还能渐近超越顶尖成果。 sota 技术特点,超硬核。一、本地优先,数据全存,本地私有福, 未发表想法绝对安全。二、 get 驱动任务,管理一个任务一个仓库,每步都留痕,可追溯可复现。 三、分层背页思优化闭环,把科研变目标,试错升级,自动循环向 ai, 自己在做实验找规律。四、多端交互, web to 加微信飞书,实时报进度随时接受实测,两周顶人类三年,论文评分和人类持平。

今天给大家分享一个上海交大他们推出来的一个智能体框架,它主要是用 ai 去给 ai 写算法的,这个框架它是达到了开源界的第一,它用的也是 deep seek 的 模型,我们来看一下它的这个基准,它们用的是这个 ml 一 编程的一个基准,它主要是用这种大模型去写对应的 ai 算法, 然后去优化这些算法,使它的性能更加的好。整体来看它们的这个框架加上 deepseek 新的这个模型 v 三点二 special 这个版本,这个版本主要是重推理的模型,它应该是在推理上跟 gpt 五点二和 gemini 三 pro 应该是一个水平的, 可以看到它也是登顶了,而且比第二名的这个框架加比较强一点的 gmi 三 pro, 它们的整体的性能要高了六个百分点,总体的要高了六个百分点,这个还是非常强的一个提升了, 这也证明了它们这个框架的优越性和这个 deepsea 它这个模型的呃优越性。这个模型 special 版本它虽然只有一百二十八 k 的 上下文,但是它的推理输出就能达到一百二十八 k, 所以 说它是一个非常重推理的。 ok, 我 们来详细看一下他的这个项目和他的文章。我们先看一下他的项目,他一共推出来了是两个版本,一个版本,之前他也是说他的,但是时间长了之后他就被超越了。我们先来看一下他的这两个版本吧, 它其实一点零版本和二点零版本它提升非常大,但是它只是在工程上的提升,在整个框架和方法论上其实没有做太多的修改,其实最重要的就是它之前是使用 deepsea r one 模型,然后这一次它是使用的 deepsea special 这个重推理版本的一个模型,所以说它的性能也提升了。我们来详细看一下它的文章吧。 首先它也说了一下它们在什么样的一个基线下达到了什么样的一个标准。这个文章它是对一点零版本的,没有对二点零版本,因为二点零版本它只是一些工程上的更新,没有整体的框架,但是我们看一点零版本就可以了,它一点零版本只用了十二个小时的限制,它们二点零是用了二十四小时加 deepsafe 呃,新模型, 所以说达到的性能是比较高的。然后在之前的一点零版本它们也是达到了 soata, 而且是之前其他的一些框架的二十四小时限制的一半, 可以看出它这个性能还是非常不错啊。然后它就说了一下这个基准,或者说它们这个任务是什么样的一个任务,主要就是 ai, 对 ai 的 终极设想就是 ai 能自动优化 ai 的 算法,这个想法也是非常前沿的哈。 然后他就说了他们提出来的这个框架 m o l master, 这个框架主要有两个比较大的优化, 一个是多轨迹的探索,它其实是借鉴了那个蒙特卡罗的一个搜索术的一个方法,让他可以去探索非常多的一些路径和分支,最终得到一个最强的最优解。 第二个就是引导式推理,首先他在这种记忆的整理上有了非常大的一个创新,第二个点就是他其实把这些记忆直接塞到了这个模型的推理部分, 而不是放在这个系统提示词或者说用户提示词里面,这样的话它的整体的性能有了比较大的提升。因为最近很多模型或者说这种框架其实都在这上面做了非常多的优化,比如说 g a m 四点七它们的一些思维交错推理, 它们都是对这个做了非常大的优化的,很多都是保留了它推理的上下文的第二次继续进行推理,像 minx m 二 二点一,他也是有这样的一个功能,说明他们在推理的时候,其实推理的这个过程保留下来很重要。 ok, 他 们就说了一下,这样提升了非常多,提升了百分之三十,比之前的他们主要的这个贡献或者创新就是提出来了一个新的框架,然后获得了更好的效果, 主要就是他们还只用了十二个小时的限制,而且他们用了这种蒙拓卡罗的一个搜索术的方式来做的这种路径优化,而且它是有并行计算的。还有就是他们推理的时候是可控的,记忆也是可以自己调整的,并行进行处理。 ok, 主要的方法论就是跟蒙特卡罗的一个算法很相似,首先他会在一个根节点,就是能初步跑出结果的一个根节点,然后再去探索这里,比如说这里去优化他的一个超参数,这里去换一个模型,这里去增加一些 模型的,或者说增加一个模型,再做一下参数,或者说做一下这种参数优选,最终选出来一个比较好的,然后继续这样去做推理优化,而且它的记忆是包含它的胸节点和它的腹节点,它的一些操作以及它 在推理的过程中的一些摘药,它也会保留下来,得到这样的节点,得到这样的一个记忆了之后,再塞到这个模型的一个推理的部分里面,而不是直接塞到这个系统提示词或者用户的消息里面去,所以说它们有一个比较大的提升。 ok, 我 们就不讲那么详细,他这个就是典型的蒙托卡罗数的一个算法,去反向传播去增加他的一个权重。他们做这种子节点的优化的时候,主要分成三个,主要就是首先写出这个可以运行的一个最初的一个代码解,然后第二个就是调试 代码的一些错误。第三个就是通过进行一些调优或者说预处理,或者说模型优化,模型修改,然后得得到这样的一个动作。 接下来就是他们蒙托卡罗的一些反向传播和一些病情搜索,病情处理,他最最重要的就是这个可引导的推理,就相当于把这种记忆全部整理了之后,并不是全部的内容都直接放到下一次进行推理,而是 进行一些摘药之后放到这个推理的内容中,这样他也要求这些模型他必须是在 thinking, 这个步骤他是能被拆开的, 比如说这种开源模型你才能去动它的新品这个部分。但是像一些闭源模型你就没办法去动它的新品部分,你就只能放在比如说用户,用户消息或者系统提示词里面,你把你的记忆上下文塞进去。 但是像现在的一些闭源模型其实也可以换一种方式,我不知道他们有没有支持它的这个项目里,其实是支持到了 gpt 五,没详细去拆解它的项目,因为现在的很多推理它是可以在推理中调用工具的,其实可以给他一个提示词,在 工具中调用,在这推理中调用一个工具去获取之前的一些上下文其实也是可以的,相当于一个性质。只不过在推理的过程中必须要调用一下工具才能获取这个上下文的记忆, 其实也是相当于一样的东西。然后他就讨论了一下他们的这个方法的一些优势,这个就不说了,这个是之前一点零版本的,之前也给大家看了,他这个版本在低的时候已经达到了非常高的一个水平,在中等提升最高,然后在高等的时候也比第二名也是提升了百分之二点二的一个水平, 总体提升了百分之六,所以说他这个优越性还是非常强的。这后面就没有什么了,重点就是说了一下他们这个框架主要的一些优势, 就是他们蒙特卡罗的一个搜索术的这个算法,他会把探索和思考两个都进行综合的去测重,而不是光测重探索或者光测重推理思考。 而且最最重要的,我个人感觉他的性能的话,比其他的框架提升最多的应该就是在他记忆直接塞到推理过程中,这个部分应该是他最大的一个创新,也应该是他们性能提升最大的一个板块。

深思定位,迅捷行动首个面向可泛化视觉语言导航的双系统基础模型来了!来自以上单位的研究团队提出了 doo v l n, 这是首个双系统 v l n 基础模型,可有效解决现有视觉语言导航的端到端方法。将输入直接映设为短期离散动作导致轨迹碎片化、高延迟 且难以应对动态障碍,规避未能充分发挥大型视觉语言模型的泛化优势的问题。该系统协调整合了高层推理和底层动作执行系统。二是一个基于 v l m 的 全局规划器, 它通过图像推理预测中期路径点目标,从而实现缓慢着陆。系统一是一个轻量级的多模态条件扩散变换器策略, 它利用显示像素目标和来自系统二的潜在特征生成平滑且精确的轨迹,从而实现快速移动。这种双系统设计使得系统能够在复杂动态环境中实现稳健的实时控制和自适应的局部决策。通过节偶训练过程为 l m 保持了棋范化能力, 而系统一则实现了可解释且高效的局部导航。多奥 v l n 在 所有 v l n 精准测试中均优于以往方法,并且真实世界的实验表明,它在动态环境中具有稳健的长时程规划和实时适应能力。

二零二六年想冲顶会?那我告诉你,别再死磕 transformer 了,靠液态神经网络才能弯道超车! transformer 他 不是不行,是他的赛道已经被挤爆了。但是反观液态神经网络, 正在成为顶会神稿人眼中的香饽饽,这是批量出成果的黄金期。前段时间 mit 团队的 lfm 模型大家应该都刷到了吧,他就跳出了 gpt 那 套框架,头一回实打实的把 transformer 小 一半,推力速度还快一截,相当于是用小排量的发动机跑出了大马力的效果。 所以它能火透学术界,靠的就是它自身的硬实力。首先,它的动态适应性特别强,就是一样能贴合不同的场景。其次,它的稀疏性和计算效率更是能碾压传统模型,那些算力不足的同学就完全不用担心现在普通实验室的设备就能把它跑通。目前在自动驾驶、智能机器人、 原宇宙交互等对复杂环境响应要求极高的应用场景中,其优势尤为突出。如果你想系统深入了解这一方向,我已经整理了九篇液态神经网络的核心论文,附带开源代码,帮助你快速复现。

kimi 最近发了一个最新版的模型 k 二点五,他们的效果也是达到了非常高的一个程度,跟通易千问他们发的是一样的,这个 kimi k 二还要略微比通易千问的稍微高一点点,他俩可能差不多,可能略微强一点点吧, 特别是在这种多模态上面,因为现在的国内的模型其实它都不大支持多模态,但是这个 kimi k 二二点五它是一个多模态的模型,可以图片,可以音频视频,并且它的这种多模态的能力只略微比这个 gpt 五点二最高版本稍微差一点点, 它比这个 cloud 都要强很多,因为 cloud 它本身的多模态能力是较差的,但是跟这个 jimmy 是 还有一定的差距的。 它的模型参数基本上是没有什么变化,但模型参数跟之前一样,都是一 t 万亿参数。总体来讲,它的各种参数都是非常不错的,特别是在 s w e bench 这种写代码的能力上,它也是接近甚至要超过这个 g m i 三 pro 的 版本,可能比这个 cloud 和 g p t 五点二 codex 稍微略差一点点,但是都没有特别大的差距了。 最最重要的是它的多模态能力,这个多模态能力是非常亮眼的,它的上下文也没有什么改变,二百五十六 k, 并且它还是一个开源的。另外也给大家推荐一下,可以用英伟达他们的这个网站去注册一下,就可以直接用这个 kimi k 二的这个模型,这儿可以看到 你注册了之后就可以免费使用。这个 kimi k 二这个模型在它的官网还是比较贵的,这个 kimi k 二它价格,价格是输入 零点六美元,产出是三美元,他比其他的模型肯定要便宜,比国外的模型肯定要便宜,但是算上汇率的话就价格很高了。大家可以在英伟达的官网去申请一个 key 就 可以免费使用。

模型精度度比 sata 低了百分之零点五就去改数据造假结果,千万别干傻事,这种 dota 模拟推理一旦被发现,学术生涯直接给 model。 真正的科研高手从来不跟 sata 死磕精度,我是于哥,做了九年科研辅导,帮忙超过两百人拿到录用。现在的顶会早就过了只看精度的时代了。 教你四个工业界最看重的指标,只要占一条文章就能发。第一点, inference b 精度低没关系,但我 fps 高啊,你要大喊 sata 只能在服务器跑。我的模型可以在手机端实时运行,这叫 real time, 价值连城。 第二点, computation cost, 去测计算量和参数量,强调你的模型是来来去去的,对硬件要求极低,现在绿色 ai 热点省电也是一种贡献。第三点, data efficiency, 强调你不挑食 sota, 用十万张图训练你,只用一千张就能达到百分之九十五的效果。第四点, robustness 给测试图加点噪音,旋转一下, sota 可能直接过你和崩掉了,但你的模型因为结构简单反而很稳,所以别在一棵树上吊死。 为了让你把这些对比图画的漂亮,我整理了这套 ai 科研能力进阶秘籍,专门有一节讲实验设计的降维打击策略,还包含从选题到文献阅读到创新点设计,实验设计再到写作的方法论,怎么投稿,全流程内容,想要的公屏打出,一一一分享给你。

我们 skyra 机器人家族平台,它就是一个四轴的那种机器人嘛,它主要特点就是精度高,速度快,性价比高。我们主要包含啊四种不同的机型,然后它一共有十种的啊 b 展和丝杆的长度,最大的难点可能就是通用性和差异化的这个需求 轻载呢,可能需要高处低灌量,然后做的要快,还要轻,然后重载呢,做的要稳。从一个螺丝钉,然后到我们入厂,我们都会需要在前期做一个气泡图,做一些检验需求,然后去协助我们的检验人员来给他做一个全面的一个 审查,然后来保证我们这个机型的从生产到出厂这一个平稳性。这个 sky 家族平台 像一只训练紧密的一只特种部队吧,我希望通过引入 ai 的 技术,能让机器人呃,不靠人工的施教可以变成一个会感知、会装配、会修正的一个柔性的机器人。

三项国际权威榜单全部进搜!特性能,北京人形机器人创新中心发布的首个具身大衣筒模型帕瑞克 uniform i 一 点零,不仅在乌鲁木齐的登顶世界第一, 还在八个 b l m benchmark 中拿下模型第一名,更在落榜单 robo twin 稳居前列,单项能力能打,综合能力更强,这就是中国国家队的硬核实力!