粉丝1696获赞1.1万

我相信通过前面的分享,大家应该对 boss 听也有了初步的了解。在接下来分享的部分,我重点来讲解 boss 听里最为流行的模型,叉 g boost。 叉 g boost 虽然模型本身跟之前 gbdt 没什么太大区别,但在具体实现方面,他做了很多改进,使得能够可以顺利的应用在大数据环境下,而且也保证很好的效果。 在后面的分享中,我重点来讲解叉 g boost 模型的细节,但如何通过病情化来实现算法并不是后面的重点,我们仍旧把重点放在模型本身的细节上。那为什么叉 g boost 这么火呢?我觉得有以下的几个原因。那首先他的设计的本身上, 他是可以并行的,所以 charge boost 这个模型呢,他其实花了很多的精力再去考虑如何把一个算法做一个病情,使得这样的一个算法呢,他可以应用在很 大量的数据上,所以他的训练的效率是非常高的,那这是他的第一个原因。然后第二个原因也是最为重要的原因是,比起其他的做法,他的效果确实比较不错, 比如说比起像其他传统式的算法,那我用 charge boss 之后呢,那我的系统明显的提升了,所以从效果的角度来讲,他还是啊非常优秀的。 虽然有些时候呢,比如像图像识别领域,我们可能使用卷机神器,网络更多,但是呢,在很多的其他的场景上,其实超级 boss 他的效果 不会比,比如说深度血型差很多,或者是相当,或者甚至更好。所以很多人其实越来越喜欢使用 china boots 来解决一些比较常见 的积极学习问题。然后第三点,那这个模型呢,它可以控制的参数会很多的,所以就这就导致我们可以做灵活的调整,然后呢,最后我可以得到一个更好的结果,所以参数很多也有它的一个优势的,因为我们可控的范围是更大, 就是我可以灵活的去做一个调整,根据不同的问题呢,我可以做一个调整,然后最后我可以得出啊,在这个问题上啊,可能是最好的一个模型出来, 所以这是我觉得 charge boost 最近几年火的几个主要的原因。那当然这里最重要的一点还是它的效果,因为如果效果很差,没人没人会使用的,即便它的效率很高,比如说训练效率很高,或者是它的灵活度很高,所以核心 还是他的效果确实不错,所以他经常的应用在工业界的项目当中,也经常应用在啊各类的数据大赛。 所以如果你在工作当中如果遇到了一个问题,而且你不太清楚到底要使用什么模型来解决的时候,我建议可以试一下 charge boost, 其实火爆的原因还是源于他确实效果好,但完全看得懂。叉 g boss 的本身是有门槛的,我给大家提前打个预防针,如果你学完后面分享的内容,但总感觉并没有完全掌握,千万不要气馁,确实理解起来不容易,下一节我分享下叉 g boss 的学习路径。

那接下来呢,我给大家简单的介绍一下如何去正确的学习 charge boost。 那首先 charge boost 在传统的积极学习范畴里面,算是比较有挑战的一个模型,所以啊,基本还是比较难理解,因为他的数学的门槛,包括他的一些理解的门槛是很高的, 所以我这里面接下来讲 charge boost 的时候,我分成四个阶段来给大家做一个讲解,那这里面我列了一个大致的学习路径。 那首先我们知道针对任何的模型呢,我们可以设计他的目标函数的,所以任何的一个模型他一定是有对应的目标函数, 即便很简单的算法,像 cannon, can means, 它都是有目标函数的。所以第一步要构造一个目标函数,接下来呢,相当于有 有了目标函数,我就可以去优化目标函数了,因为目标函数本身它其实有一些参数的,那整个的模型的训练过程就等同于我 去优化目标函数,然后呢去寻找让这个目标函数,比如说最小化或者最大化的那个参数,所以这是咱们训练的过程。 然后呢,在 charge boots 里面,当我们去构造目标函数的时候,其实这个目标函数是很难直接通过优化的方式来优化的,为什么呢?因为在这个目标函数里面,我们有数的概念, 就是我没有办法把一个数直接通过梯度下降法去优化,所以这个时候怎么做?这个时候因为目标函数它的一个复杂性,所以我们把目标函数做了一个近似, 就是我通过更简单的方式来近似了我们原来的目标函数,所以第二个阶段呢,就说目标函数直接优化是比较难的,所以我们这里面采用了一些近似的方法, 然后呢在这里使用的禁词的方法呢,我们把它叫做泰勒展开式,叫 taylor expansion。 那这个泰勒展开式我相信很多人在高高数里面已经学过,就是我,我把一个函数把它近似了一下,但是近似的他的基础呢就是泰勒的展开式, 那通过泰德展开式呢,我们得到了一个更为简单的一个目标函数,但是呢对于提升数,我们还是不知道这个目标函数怎么去把它求解出来, 为什么呢?因为仍然是因为在这里面我们有一个竖的结构,所以我们不知道如何去把一个竖把它参数化。所以我们在解决这个问题的过程当中,我们 还需要做一件事情,就是如何把树的结构呢引入到目标函数里面,也叫做把一棵树做参数化,这里的每棵树他是都有结构的, 那这里的一个核心问题是我如何把一个数的结构做成一个模型里的参数,所以这就是咱们第三步, 我通过第三步呢把树做成了一个参数化,用参数的方式来表示了这棵树,所以到到此为止呢,我们相当于 整个的模型里面包含了很多数,但这个数本身我们通过参数的方式已经表达了出来,然后接下来做什么?那接下来看一下我们能不能把这个目标函数直接去优化, 但是很遗憾我们还是不能做到这一点,那怎么办呢?所以我们这里面采用的算法呢,其实就是禁止的算法,也叫做贪心算法, 所以贪心算法我们在构建决策术的时候也使用过贪心算法,然后我们再构建 charge boost 的时候呢,也会使用碳算法,所以他的逻辑是一样的,所以这是咱们学习提升数过程当中的每一步。所以在接下来的这个环节里呢,我们会一个一个来介绍一下每个部分他所做的事情,然后按按照这个故事线 给大家讲一下如何从构建目标函数开始,慢慢的去把这个目标函数做一个简化,然后再把数参数化,然后最后我通过他算法去学习一个提升数的结构。好,那这是我们接下来章节的主要的核心内容。

各位小伙伴们大家晚上好,今天分享的是构建 sports 的 最佳模型,用 shop name, deluxe 等工具来做可解释的分析。那么首先我们来了解一下什么叫可解释性分析。在可解释性学习当中最常用的就是 app, 它是来衡量这个特征样本,它的不同特征对于这个预测结果贡献,这是一个 step value, 你 可以把它理解为个体输入的特征对模型预测值贡献的一个重要性。如果说这一个值它越高,也就是我们的 step value 它越高,那么就证明我们的贡献值越高 啊。这里有两种格式化来进行一个单个的一个预测,一个呢是我们的 summary plot, 然后另一个呢是我们的瀑布图,还有我们的例图。 我们来怎么来看这个图呢?就是红色的条呢,就表示该特征对预测值的一个正贡献,蓝条呢就显示该特征对预测值的一个负贡献。 然后呢都包含了一个整体的预期预测值,或者是叫我们的一个基值,这可以理解为整个训练值的平均模型输出。 然后条形图呢,是按照绝对重要性的降序来排列的。预测的概率是怎么计算的呢?首先呢啊,你要先计算出一个总的一个概率,也就是我们的平均概率, 然后我们可以叫它为大 p, 然后再通过个例概率,最后呢进行一个比较,比较大 p 和小 p, 也就是平均概率和各类概率。最后呢来确定患者它属于结局事件发生,高概率患者还是低概率患者。 好,让我们来看到我们的一个代码部分啊,因为这个代码又是比较的长,然后我们呢来大概讲解一下啊,它的一个大概的一个意思, 首先呢我们先从序面集当中提取了八个特征,一个目标结局变量,用 sports 的 算法呢来构建的二分类模型,然后我们的特征提取,这里是我们的一个特征提取,还有我们的一个目标结局变量的一个提取,然后来构建我们的 sports 的 一个模型, 然后训练集当中呢一共有呃一千四百九十九个样本特征呢,包括了我们的 a, s, t, 然后年龄还有我们的 w, b, c 等临床的一些指标,然后这里是我们的一个样本的一个筛选, 然后下面呢来进行一个建模,然后建模的话我们是用的是这一个函数来进行一个建模,处理我们的数据,这里的意思呢就是说一百迭代次数,然后目标函数呢是我们的二分类, 然后呢这这里的礼盒,我们的 sports 这个模型呢,它的参数是一个分类模型,所以说我们的 objective 呢选择是我们的二分类,也就是我们 x, y, 然后这里呢是我们的模型的一个礼盒,然后下面呢是我们的下部的一个可识画 格式化呢,它一共会通过我们的 sv importance 呢生成两种图,一个呢是我们的条形图,一个是我们的风琴图。我们首先来看我们的特征重要性图,然后这是我们的一个条形图, 然后呢下面一个呢就是我们的一个风琴图。为了看我们单个患者的一个预测过程,我们可以选择我们的第八百八十五号和我们的第八号患者来进行一个局部的一个解释,然后就是来做他的一个例图,还有一个瀑布图, 嗯,依赖图呢,展示了单个特征与 app 值的一个关系,比如说我们可以来做我们的 a s t 的 一个依赖图,年龄和心率的一个交互, 也就是这里这这里就是一个 app 的 一个依赖图,然后下面呢就是年龄与 hr 的 一个交互,然后这是 a s, t, 然后呢这是我们的 w, b, c 啊 l, l, p, 然后这些呢都是我们在前面筛选出来的八个特征,还有我们的一个呃结局变量, 下面呢就是 name, name 和 deluxe 的 一个补充特征, name 呢是通过局部拟合线性模型来解释单个样本, 我们选了第一个患者,这是第一个患者,然后用七个最重要的特征来进行一个解释,先是呢 name 进行一个模型的一个构建,然后再来解释我们的第一个样本,这里是解释第一个样本, 然后 dx 呢,它是用于全局或局部的一个模型诊断。然后就是变量的一个重要性部分依赖图就是 p d p, 然后单样本的下不值,然后变量重要性呢就是对应的是我们的一百零九,就这里一个代码变量重要性的一个分析, 然后 p d p 图就是来解释单个零序解,解释变量与响应变量之间的一个关系,然后单样本的下图呢,然后计算它的一个 value 值, 下面呢就是一个 roc 曲线的一个比较,我们这里呢是比较了我们的 a p, a, c, h e 三的一个 roc, 还有我们的 g c, s roc, 就是来比较它们两个之间的一个啊 r o c 的 一个曲线值, 如果这里需要添加我们 r o c 曲线的话,就将我们的 type 等于 s 改为 a 的 等于 true, 然后来添加我们的 a u c 的 一个值,然后下面就是进行一个外部验证,我们用独立,我们是采用的是一个独立的外部数据集, 也就是我们的 e, x, c, s, v。 我 们先做了一个基线表,然后呢确认两组患者在特征上的分布是均衡的。首先呢是读取我们的 web 数据, 这里是读读取我们的一个外部数据,然后再删除我们的一个缺失值。然后呢构建我们外部验证的一个基线表,然后再用训练好的模型在外部集上进行一个预测, 然后得到我们的一个 a u c 值,然后我们外外部级的一个 r o c, 然后再来绘制我们外部级的一个 r o c 的 一个啊,一个图, 这里的一个群的一个数据数据集的一个结局变量。因为我们之前被我们的啊更改了我们的数据类型,现在的话就需要将它的一个更改回来,从我们的零 e 变成我们的 low 和 yes。 前面的话,我们是将 low 和 yes 改为了它的一个零 e 嘛。 总的来说呢,我们通过 app name dx 从全职到局部呢完整地解释呢 s x box 模型的一个决策的一个逻辑,验证了我模型的一个可解释性和稳定性。 r o c 曲线和外部验证呢,也表明这个模型的性能明显优于我们传统的临床里的一些评分。 然后今天的分享就到这里结束了,谢谢大家。

大家好,今天我们来看机器学习,集成学习与随机森林部分。今天我们来看另外一种算法叫 x c boost。 x c boost 是一种经过优化的分布式梯度提升库,它高效灵活且可移植,所以 x g boost 在一些比赛中经常会用到,而且它的效果也是非常好的。 而要使用 x g boost, 它的理论基础比较复杂,而如果我们只需要使用,我们也可以已经有封装好的 x g boost 直接安,先通过安装 x t boost 的一个包就可以直接拿来调用,那么我们的时间就使用 x t boots 的工具库对数据进行一个回归 礼盒。首先创建数据,然后数据切分得到训练级和测试级,导入 x g boost, 创建 x g boost, 然后里面有一些 各种参数,我们直接使用默认的即可,然后使用 fit 来进行训练,最后再使用模型来进行一个预测和评估,使用 predict 得到预测,然后计算出它的一个损失值,使用 均方五叉,然后再创建一个添加早停机制的 x c boost。 为了防止过离合, 同样我们只需要在 any stopping route 设置一下就可以了。 然后预测模型和评估得到最优的最后的一个损失值为零点零零二六。那么这就是使用的是 x g boost 来进行数据礼盒的一个过程,谢谢大家。

x boost 选股三零零幺三六,信为通信一个基本盘,消费电子占比约百分之五十。泛射频龙头,苹果华为核心供应商,主营天线模组、无线充电 m e t m c。 精密连接器散热、 ai 眼镜折叠屏,高端手机份额提升,毛利率修复至百分之二十一,加两大增长。引擎,商业航天卫星通信第二曲线, spacex 星链地面终端,高频高速连接器独家供应是占近百分之一百,墨西哥建厂专供。二零二五,年收入十五到二十亿,毛利率百分之四十五到五十, 新增第二家北美卫星客户智能汽车第三区线,车规 m l c c。 车载天线连接器进入特斯拉比亚迪理想。 二零二五,年收入二十到二十五亿,增速约百分之八十。安格新赛道 ai 硬件服务器 m l c c。 散热六 g r s。 互联网机器人才料加射频一体化壁垒二。近年业绩二零二四到二零二五,二零二四,全年营收八十七点四四亿加百分之零点八。规模净利六点六二亿,负百分之十二点三, 经营现金流十点七六亿,稳健。二零二五,前三季度营收六十四点六二亿加百分之一点零七。 规模净利四点八六亿,负百分之八点七七。扣菲四点二九亿,加百分之四点 五九亿加百分之四点二。净利三点二四亿加百分之二十五点四五,环比加七点六。 p c t。 显著改善。二零二五,全年预告 营收九十五到一百零五亿加百分之八到二十。净利七点零到八点五亿加百分之五到二十八。卫星加汽车驱动结构优化关键特征,营收起稳,尽力触底回升, 现金流强劲,前三季度十二点九四亿,资产负债率百分之四十三,健康三、净期余情二千零二十六点一减二 正面,一月二十一日官宣 spacex 独家供应卫星通信逻辑引爆六 g 布局 reis 星载毫米波,苹果透明天线散热液雾二零二六到二零二七,放量预期 q 三、业绩拐点,毛利率修复,基本面改善, 负面争议,时控人一月高位减持约八亿,引发资金分歧,消费电子周期仍弱,高估值 pe 六十倍。争议热度,卫星通信,商业航天龙头,龙虎榜密集上榜机构加油,资加散户合力 四、近两月量价二零二六年一月一日负二点一三,区间概览,股价幺九点八三六点五元,最高四十一点八八元,区间涨幅加百分之八十四,成交日均十五到三十亿,峰值六十八点三亿。一点二二, 换手率百分之三百分之二十五,关键节点,一点二一、官宣, spacex 独家,次日二十 c m 涨停, 成交四十五亿,情绪启动一点二二,最高四十一点八八元,成交六十八点三亿,换手百分之二十五,天量分歧一点二三减二点一三时控人减持加获利回吐,高位震荡 二点一三收三十六点五元,成交二十八点七亿。资金特征,游资主导加机构参与,高位筹码换手充分,主力净流入后转为净流出。五、核心总结,基本面,消费电子起稳,卫星加汽车双轮驱动, 业绩拐点,现金流强劲,长期成长清晰。市场面, spacex 独家加卫星通信加六聚三重催化 情绪与资金主导,估值偏高波动大风险收益并存。风险提示,消费电子周期时控人减持高估值 spacex 订单波动行业竞争。

j b d t 与叉 j boost 的区别与联系?这是一道高频的面试考题,首先我们来看这两者的联系, j b d t 是机器学习算法,而叉 j boost 是 j b d t 的高效实现,那么 j b d t 的具体原理呢?请看我昨天发的视频,那么我们来具体看看他们有什么区别。 首先在损失函数方面,我们的 j b d t 在每一轮的学习中,他只对损失函数做了一阶的开了展开,而叉 j boost 对损失函数却进行了二阶的开了展开,那么从而构建我们的残差进色。那这样的话呢啊,从理论上来说,叉 j bost 就更能逼近咱们的残差真实值,因为他进行了二阶开了展开。 那么这块呢,可能很多同学对开了公式啊,不太了解啊,那么如果说大家想要详细了解开了公式好,可以去我们的高等数学中详细学习下这块知识。那么这一块呢,我们可以先给大家啊,大概的讲一下,这开了公式是什么?那么开了公式呢,其实表面上比较复杂,但是我们用一句话 就可以讲清楚,就是咱们用多项式函数去逼近一些比较复杂的光滑函数。举个例子,比如说正前函数 c x 好表面上看起来很漂亮啊,就是这么一个啊,图像啊,但是呢,我如果要问你 c 二等于多少, c 二点五等于多少啊,那么正常人一般都会去用计算器去算啊, 但是呢,哎,如果我们能不能用一个多项式函数去逼近一下某些光滑函数呢?能快速的近似出某些复杂函数呢?哎,这个就是我们泰勒公式的初衷, 那么咱们胎的公式呢啊,可以用近似的计算函数的值啊,来表达我们真实的函数的值。好,那我们来看一下这个胎的展开式啊,到底是一个什么样? 好,那比如说我们一个函数 f x 加 dear x, 好,它的完全展开式呢,是这样的啊,也就是说 f x 加上一阶倒数,加上啊 f x 二阶倒数等等等啊,就是这这种形式,最终最终加到 n 阶倒数的这么一个啊,多项式函数啊,那么如果是一阶太了展开,大家请看啊,那么 f x 加 der x 就等于 f 约等于 f x 加 f x 的倒数乘以 der x 啊,那么二节导数二节它的展开,就相当于我们再加一个二节的这么一个导数的这个多项事项啊,那么咱们的 j b d p 啊,它对损失函数只是求到了咱们的一节才能展开。那么我们现在啊,说到这个叉 j boost 哎,它对损失函数呢,就展开到了二节 二阶胎的展开,那么当然二阶胎的展开就比一阶胎的展开更逼近于我们真实的损失函数值了。 ok, 那么这是就是我们呃 j b d t 与叉 j bost 在损失函数方面的差别。具体来说啊,就是 j v t 只对损失函数做了一节胎的展开,而叉 j bost 对损失函数进行了二阶胎的展开,更逼近于损失函数。 第二个问题,区别就是我们叉 j boost 啊,为了防止过敏和这个问题呢,咱们在损失函数中加入了乘法项,也叫做正格项,那么,呃,只要一旦我们在损失函数加了正格项的啊,那么就可以限制决策数的叶子节点个数啊,或者说结决策数的这个叶子节点的值,那目的只有一个,就是为了防止过 好。总结一下,叉 j boost 与 g b t 的主要区别就是,第一,在损失函数方面,叉 j boot 进行了二阶才能展开。第二好,叉 j boost 为了防止过硬核在损失函数中加入了正和项,也叫做乘法项。好,加油。

那为什么 charge boost 这么火呢?我觉得有以下的几个原因,那首先它的设计的本身上, 它是可以并行的,所以 charge boost 这个模型呢,它其实花了很多的精力再去考虑如何把一个算法做一个并行,使得这样的一个算法呢,它可以应用在很大量的数据上,所以它的训练的效率是非常高的,那这是它的第一个原因。 然后第二个原因也是最为重要的原因是比起其他的转法,他的效果确实比较不错, 比说起比起像其他传统式的算法,那我用 charge boost 之后呢,那我的系统明显的提升了,所以从效果的角度来讲,他还是啊非常 优秀的。虽然有些时候呢,比如像图像识别领域,我们可能使用卷机神器网络更多,但是呢,在很多的其他的场景上,其实 charge boost 它的效果不会比,比如说深度学习差很多,或者是相当,或者甚至更好, 所以很多人其实越来越喜欢使用 charge booth 来解决一些比较常见的积极学习问题。然后第三点, 那这个模型呢,他可以控制的参数会很多的,所以就这就导致我们可以做灵活的调整。然后呢,最后我可以得到一个更好的结果,所以参数很多也有他的一个优势的,因为我们可控的范围是更大, 就是我可以灵活的去做一个调整,根据不同的问题呢,我可以做一个调整,然后最后我可以得出啊,在这个问题上 啊,可能是最好的一个模型出来,所以这是我觉得 charge boost 最近几年火的几个主要的原因,那当然这里最重要的一点还是它的效果,因为如果效果很差,没人没人会使用的,即便它的效率很高,比如说训练效率很高, 或者是他的灵活度很高,所以核心还是他的效果确实不错,所以他经常的应用在工业界的项目当中,也经常应用在啊各类的数据大赛。 所以如果你在工作当中如果遇到了一个问题,而且你不太清楚到底要使用什么模型来解决的时候,我建议可以试一下 charge boost。
