粉丝127获赞894

跑 leet 手时, limda dimming 选出来的变量是零个,这通常是因为你的变量之间多重贡献性太严重,或者样本量太少而噪声太大。这时候可以尝试两个办法, 第一,改用 rich regression 领回归,它保留所有变量但压缩系数。第二,用 elastic net 弹性网络,它是 lasso 和 rich 的 折中机器学习模型。没有最好的,只有最适合你数据的。


辣搜回归,为何他是筛选建模变量的神器?上一篇我们说了单因素屁值筛选不靠谱,很多医生问,那我手里有五十个指标,怎么选出最好的五个?这时候,审稿人通常会建议你用辣搜回归, 别被这个洋名字吓到。他其实是数据处理界最无情的断舍离大师。一、传统的回归最小。二、乘法是老好人。 普通的回归模型,无论是现行还是逻辑回归,他们有一种强迫症,他们试图让每一个纳入的变量都发光发热,哪怕某个变量,比如爱吃苹果跟结局,比如患癌,只有一丁点及其微弱的联系, 普通回归也会给他算出一个不为零的系数,比如零点零零零零一,结果就是你的模型里塞满了这种没用的垃圾变量,导致模型臃肿甚至过你和二、纳索回归带惩罚的管家 纳斯奥利斯, absolute shrinkage selection operator, 翻译过来叫最小绝对收缩和选择算子。名字太拗口,你只要记住它的核心机制。乘法 penalty, 生活中的例子,带重量限制的背包客,想象你要去爬珠峰构建模型,体能有限,样本量有限。 普通回归会把家里所有的东西都塞进背包,牙刷、指甲刀、相框。虽然有的东西只有几克重,但积少成多把你累死。那艘回归,他是你的魔鬼教练, 他给你的背包加了一个 l e 惩罚项,就像给每件物品收重量税,教练规定你的总负重有上限。如果某个东西的价值对模型的贡献抵消不了他的重量成本, 我就强行把它扔掉。三、辣搜是怎么扔掉变量的方法学依据,这是辣搜最神奇的地方,压缩系数指令。 在数学公式里,辣搜给回归方程加了一个约束条件,辣的辣的,随着这个辣的值的调整,它会向所有的变量施压。 对于那些信号很强,真的很重要的变量,比如血压对心梗,他们能顶住。压力系数虽然会变小一点,但依然存在。对于那些浑水摸鱼贡献不大的变量,比如爱吃苹果,在压力的作用下,他们的系数会直接变成零。 注意,是变成零,不是变成零点零零一、系数为零,意味着这个变量在方程里彻底消失了。这就是蜡索为什么能自动筛选变量的原因,他把没用的变量系数压缩为零,剩下的非零变量就是他为你精选出来的干货。 四、总结蜡索回归之所以高级,是因为他不是只看屁值,而是权衡了模型准确度和模型复杂度。 他宁愿牺牲一点点你和度,也要换取一个更精简、更稳健、更不容易过你和的模型。下次在面对几十个变量不知所措时,请出辣怂这位断舍离大师,他会给你一份干净漂亮的变量清单。

发现一个特别适合发论文的方向,小样本机器学习。前不久, nature 发表了一篇小样本机器学习论文,讲的是一个表格处理模型, tab p f, 平均二点八秒解读任意表格开箱即用,在精度和速度上实现了突破性进展。 有人说这是电子表格的叉 g p t 时刻,倒也不夸张。本身小样本机器学习对于解决数据稀缺问题就十分重要,如今也正处于快速发展阶段,关于它的研究一直是热门,现在有了如此突破,后续发展趋势必将更加火爆。 目前小样本机器学习上有很多问题没解决,对于科研人来说,潜在创新方向或可考虑模型架构优化、数据增强、技术跨领域迁移与泛化、绿色高效算法安全与鲁棒性研究。另外,我整理了十篇关于小样本机器学习的最新论文及代码,方便大家参考。

今天给大家分享一个上海交大他们推出来的一个智能体框架,它主要是用 ai 去给 ai 写算法的,这个框架它是达到了开源界的第一,它用的也是 deep seek 的 模型,我们来看一下它的这个基准,它们用的是这个 ml 一 编程的一个基准,它主要是用这种大模型去写对应的 ai 算法, 然后去优化这些算法,使它的性能更加的好。整体来看它们的这个框架加上 deepseek 新的这个模型 v 三点二 special 这个版本,这个版本主要是重推理的模型,它应该是在推理上跟 gpt 五点二和 gemini 三 pro 应该是一个水平的, 可以看到它也是登顶了,而且比第二名的这个框架加比较强一点的 gmi 三 pro, 它们的整体的性能要高了六个百分点,总体的要高了六个百分点,这个还是非常强的一个提升了, 这也证明了它们这个框架的优越性和这个 deepsea 它这个模型的呃优越性。这个模型 special 版本它虽然只有一百二十八 k 的 上下文,但是它的推理输出就能达到一百二十八 k, 所以 说它是一个非常重推理的。 ok, 我 们来详细看一下他的这个项目和他的文章。我们先看一下他的项目,他一共推出来了是两个版本,一个版本,之前他也是说他的,但是时间长了之后他就被超越了。我们先来看一下他的这两个版本吧, 它其实一点零版本和二点零版本它提升非常大,但是它只是在工程上的提升,在整个框架和方法论上其实没有做太多的修改,其实最重要的就是它之前是使用 deepsea r one 模型,然后这一次它是使用的 deepsea special 这个重推理版本的一个模型,所以说它的性能也提升了。我们来详细看一下它的文章吧。 首先它也说了一下它们在什么样的一个基线下达到了什么样的一个标准。这个文章它是对一点零版本的,没有对二点零版本,因为二点零版本它只是一些工程上的更新,没有整体的框架,但是我们看一点零版本就可以了,它一点零版本只用了十二个小时的限制,它们二点零是用了二十四小时加 deepsafe 呃,新模型, 所以说达到的性能是比较高的。然后在之前的一点零版本它们也是达到了 soata, 而且是之前其他的一些框架的二十四小时限制的一半, 可以看出它这个性能还是非常不错啊。然后它就说了一下这个基准,或者说它们这个任务是什么样的一个任务,主要就是 ai, 对 ai 的 终极设想就是 ai 能自动优化 ai 的 算法,这个想法也是非常前沿的哈。 然后他就说了他们提出来的这个框架 m o l master, 这个框架主要有两个比较大的优化, 一个是多轨迹的探索,它其实是借鉴了那个蒙特卡罗的一个搜索术的一个方法,让他可以去探索非常多的一些路径和分支,最终得到一个最强的最优解。 第二个就是引导式推理,首先他在这种记忆的整理上有了非常大的一个创新,第二个点就是他其实把这些记忆直接塞到了这个模型的推理部分, 而不是放在这个系统提示词或者说用户提示词里面,这样的话它的整体的性能有了比较大的提升。因为最近很多模型或者说这种框架其实都在这上面做了非常多的优化,比如说 g a m 四点七它们的一些思维交错推理, 它们都是对这个做了非常大的优化的,很多都是保留了它推理的上下文的第二次继续进行推理,像 minx m 二 二点一,他也是有这样的一个功能,说明他们在推理的时候,其实推理的这个过程保留下来很重要。 ok, 他 们就说了一下,这样提升了非常多,提升了百分之三十,比之前的他们主要的这个贡献或者创新就是提出来了一个新的框架,然后获得了更好的效果, 主要就是他们还只用了十二个小时的限制,而且他们用了这种蒙拓卡罗的一个搜索术的方式来做的这种路径优化,而且它是有并行计算的。还有就是他们推理的时候是可控的,记忆也是可以自己调整的,并行进行处理。 ok, 主要的方法论就是跟蒙特卡罗的一个算法很相似,首先他会在一个根节点,就是能初步跑出结果的一个根节点,然后再去探索这里,比如说这里去优化他的一个超参数,这里去换一个模型,这里去增加一些 模型的,或者说增加一个模型,再做一下参数,或者说做一下这种参数优选,最终选出来一个比较好的,然后继续这样去做推理优化,而且它的记忆是包含它的胸节点和它的腹节点,它的一些操作以及它 在推理的过程中的一些摘药,它也会保留下来,得到这样的节点,得到这样的一个记忆了之后,再塞到这个模型的一个推理的部分里面,而不是直接塞到这个系统提示词或者用户的消息里面去,所以说它们有一个比较大的提升。 ok, 我 们就不讲那么详细,他这个就是典型的蒙托卡罗数的一个算法,去反向传播去增加他的一个权重。他们做这种子节点的优化的时候,主要分成三个,主要就是首先写出这个可以运行的一个最初的一个代码解,然后第二个就是调试 代码的一些错误。第三个就是通过进行一些调优或者说预处理,或者说模型优化,模型修改,然后得得到这样的一个动作。 接下来就是他们蒙托卡罗的一些反向传播和一些病情搜索,病情处理,他最最重要的就是这个可引导的推理,就相当于把这种记忆全部整理了之后,并不是全部的内容都直接放到下一次进行推理,而是 进行一些摘药之后放到这个推理的内容中,这样他也要求这些模型他必须是在 thinking, 这个步骤他是能被拆开的, 比如说这种开源模型你才能去动它的新品这个部分。但是像一些闭源模型你就没办法去动它的新品部分,你就只能放在比如说用户,用户消息或者系统提示词里面,你把你的记忆上下文塞进去。 但是像现在的一些闭源模型其实也可以换一种方式,我不知道他们有没有支持它的这个项目里,其实是支持到了 gpt 五,没详细去拆解它的项目,因为现在的很多推理它是可以在推理中调用工具的,其实可以给他一个提示词,在 工具中调用,在这推理中调用一个工具去获取之前的一些上下文其实也是可以的,相当于一个性质。只不过在推理的过程中必须要调用一下工具才能获取这个上下文的记忆, 其实也是相当于一样的东西。然后他就讨论了一下他们的这个方法的一些优势,这个就不说了,这个是之前一点零版本的,之前也给大家看了,他这个版本在低的时候已经达到了非常高的一个水平,在中等提升最高,然后在高等的时候也比第二名也是提升了百分之二点二的一个水平, 总体提升了百分之六,所以说他这个优越性还是非常强的。这后面就没有什么了,重点就是说了一下他们这个框架主要的一些优势, 就是他们蒙特卡罗的一个搜索术的这个算法,他会把探索和思考两个都进行综合的去测重,而不是光测重探索或者光测重推理思考。 而且最最重要的,我个人感觉他的性能的话,比其他的框架提升最多的应该就是在他记忆直接塞到推理过程中,这个部分应该是他最大的一个创新,也应该是他们性能提升最大的一个板块。


今天分享的是 pin 加机器学习,今年依然是物理信息机器学习持续爆火的一年,光是其典型代表 pin 在 science 和 nature 就 有多偏像模型 h f m pigeon 近来更是迎来里程碑式突破。模型 p t s 通过设计新的基函数,提供了一个有前途的替代方案, 主要在于它能够利用已知的物理方程来约束机器学习模型,使模型更好地符合物理规律,提高预测准确性和可信性。 尤其在数据稀缺的情况下,能够提高数据利用效率,在金融、医疗、工程、材料学等领域都有广泛应用,但也面临计算成本高、可解释性差、需手工选择物理知识等挑战,对它的研究成为迫切需求。另外,我给大家整理了十篇片加机器学习的最新论文及代码,方便大家参考。

山姆奥特曼怎么也想不到,那个时刻威胁签 gbt 的 deepsea, 居然最开始只是梁文峰用来炒股的。二零一五年,梁文峰终于把八万块钱本金变成了五个亿。这个时候,他做的事还远远谈不上伟大,因为说好听点是量化交易,但是说难听点就是个炒股的。 此时,距离他第一次把机器学习算法用到量化交易上,已经过去了七年。预见到中国量化交易将迎来私募基金时代,他成立了杭州换方量化,很快管理的资金就达到了百亿级别。由于不差钱,梁文峰挥下聚集了一大批来自浙大和清华计算机专业的高材生。彼时正值 a 股牛市, 传统量化策略大放异彩,但梁文峰却力排众议,决定全面转向人工智能驱动。当时的首席风控官认为 ai 模型是黑箱,风险不可控。梁文峰却说,如果我们不敢用最好的技术,就不配在这个行业生存。 个决定导致了两名资深交易员的离职,却也吸引了更多年轻 ai 人才的加入,也为最终诞生 deepsea 埋下了种子。到了二零一七年,随着策略复杂度的提升,算力平局日渐明显,当时猪肉云算力的成本已经占到换方利润的百分之三十。于是梁文峰做出了一个被内部称为疯狂的决定,自荐操算中心。 在一次董事会上,有投资人质疑,一个私募基金为什么要建超算中心,我们又不是搞科研。梁文峰的回答成为后来被反复引用的名言,我们不是一家基金公司,我们是一家用 ai 解决复杂问题的科技公司,只是碰巧在金融领域找到了一个应用场景, 你们相信我就跟着我干,不相信我可以撤职。这句话掷地有声,也一锤定音。二零一八年,投入数亿元的萤火一号在杭州落成,一下子变成了国内民用领域顶尖的 gpu 集群。但这次投入也直接导致当年分红减少百分之四十,再次引发内部争议。 而梁文峰不仅顶住了所有的压力,还秘密启动了一个代号探月的计划。他从炼化团队中抽掉了五名最顶尖的 ai 研究员,组成独立小组,跟他们说,不要管金融了,去研究全球最前沿的 ai 技术,特别是自然语言处理。这个小组的负责人后来回忆, 梁总给我们的指令很模糊,只是说我相信 agi 会改变一切,我们要参与其中。然而,早期的探索并不顺利,团队尝试了多个方向,包括知识图谱、推荐系统等等, 但进展缓慢。二零一九年,美国的 gbt 二发布换房,团队经过连夜测试后,得出了一个激动人心的结论,基于 transformer 的 大语言模型,可能就是通向 a g i 的 正确路径。得知消息的任文峰决定加大投入。 二零二零年,他提出要建设一个更强大的萤火二号,预算高达数十亿。这一次反对声达到了顶峰,股东们强烈反对梁鸿峰把钱不断投入这个无底洞。就连他的共同创始人徐静,也在二零二一年选择了带领部分团队离开。因为徐静认为应该专注量化投资主业,挣钱才是王道。 而梁文峰却坚持,必须为更宏大的 ai 研究布局做点真正有意义的事情。这次分裂对梁文峰打击巨大。在二零二一年春节后的内部信中,他写道,有人选择在已知的道路上继续辉煌,而我选择走向未知的黑暗森林。这没有对错,只有选择。 二零二一年六月,分裂后的患方梁文峰彻底掌控了方向。他将探月小组升级为独立部门,正式命名为深度求索下长成了一个独立的科研项目, 也开创了中国企业家中用搞金融的快钱来支撑做科研的先例。此时, deepsea 团队的所有人都不知道,他们做的事将在我们民族的科技发展中书写多么波澜壮阔的篇章。

发现一个特别适合发论文的方向,小样本机器学习。小样本机器学习提出 star 模型,首次将集合函数与最优传输结合,分别用于提取图数据中的集合集特征和校准支持集与查询集的分布,解决了现有模型忽视集合集特征和分布偏移的问题。 理论证明 star 能捕获更多任务相关信息。收紧泛化误差上界,增强了模型的理论可解释性和泛化能力。设计无监督图,小样本学习框架,无需基础类标签数据即可进行原训练,适用于真实场景中标签稀缺的情况,拓展了小样本学习的应用范围。另外,我整理了十篇关于小样本机器学习的最新论文记代码,方便大家参考。

发现一个特别适合发论文的方向,深度估计大模型单目深度估计近期新作频发,从 depths anything v 二到 matrix 三 d v 二,深度估计的准确度和速度不断提高,为快速准确地重建三维世界提高了可能性。 单目深度估计是一种计算机视觉任务,只在从单一的二维图像中估计场景中各个像素点到摄像头的深度。 与双目视觉或多视图立体视觉不同,单目深度估计只依赖于单张图像来推断深度信息。这是一个高度不确定性的问题,因为单张图像通常缺乏直接的深度线索, 例如,双目视觉依靠两个相机间确定的距离可以计算出绝对的深度信息。另外,我整理了十篇关于深度估计大模型的最新论文及代码,方便大家参考。