如何使用 r 构件 begging 随机暂定 boosting 并进行模型对比?在上期视频中,我们介绍了决策术与逻辑 stick 回归模型在 r 分类问题中的预测性能对比。 在这期视频中,我们将引入决策术的集成模型 begging、 随机森林 boosting, 并对比他们在二分类问题中的预测性能。 bagging、 随机、称铃、 boosting 都是决策术的集成算法。 bagging 是多次使用 bootstrap 进行随机采样,构建多个决策术, 并将所有决策数的预测结果进行加权组合。随机森林是在 begging 的基础上随机抽取变量构建不同的决策数,并将所有决策数的预测结果进行 加权组合。 boosting 是在对预测误差进行预测,第一个决策数预测输出变量,第二个决策数输出第一个决策数的预测误差,第三个决策数预测第二个决策数的预测误差。以此类推。 首先,我们加载 teddyverse、 teddy text airport、 ip r、 e d、 random forest、 fast and boost 这几个包,然后加载一份来自开狗的数据及 car data。 这是一份关于汽车购买决策的数据。 数据中的变量有用户 id、 性别、年龄、年收入、是否购车。接下来我们需要对数据进行预处理。 由于用户 id 对于预测是否购车而言没有意义,所以使用 select 函数删除用户 id。 另外,由于性别和是否购车是分类变量,所以使用 mutate 函数和 aspect 函数将其转换为 fact 格式。 由于我们选择构建的 boosting 模型是 at the boost fast。 at the boost 包中的函数要求数据格式为 date frame, 所以使用 as date frame 将预处理好的数据转换为 date frame 格式。 在前期视频中,我们已经对数据进行过探索性数据分析,这里我们不再重复,有兴趣的朋友可以到上一期视频中观看。接下来使用三坡函数,从完整的数据集中随机抽取百分之七十的数据作为训练集剩余百分 之三十的数据作为测试机。我们在训练级上分别训练 logistic、 回归决策术、 bagging、 随机森林、 at the boost。 在训练 at the boost 时,我们需要设定参数 n eater, 这是 bosting 中的决策数的个数,我们将其设定为五十。在这里需要说明,我们没有对模型进行调餐,而是使用默认参数训练模型。关于模型调餐,我们会在后续的视频中讲解。 下面使用训练好的各个模型,分别预测测试集中的个体是否会购车, 然后自定义一个函数用于计算模型。在 r 分类问题中的评估指标包括 accuracy、 re core、 precision、 after school。 这些评估指标的概念我们在上期视频中有过详细的介绍,有兴趣的朋友可以到上期视频中观看。 接着使用定义好的函数,分别计算各个模型在测试机上的预测性能。最后,我们使用柱状图对比所有模型的各种评估指标。 可以看到,在 accuracy、 fe school、 precision 这三个指标上,随机森林的表现均是最优的。 在 record 这个指标上,决策术的表现是最优的。综合来看,随机森林的预测准确性是最好的。以上 就是对 bagging 随机森林 boosting 在 r 语言中的使用介绍,下期想学习什么,在评论区中告诉我,期待您的点赞和收藏,祝您早安、午安、晚安!
粉丝914获赞2886

至于构建集成模型,通常有两种方法,一种叫掰定,另外一种叫 boss 定,这是两种完全不一样的方法。在这一章我们主要来讲解第一种随机森林式 by 定的一种方法。在之后的章节我们会讲解 boss 定的方法, 随机森林式经典的掰定模型等同于同时训练了很多颗决策术,并同时用这些决策术来做决策。具体的构造和预测的大致过程请看下方的视频。掰定的过程是大致是这样的,那首先我们给定了一批 样本数据,然后基于这个样本数据呢,我们会同时训练出几套模型出来,比如说模型一,还有模型二, 模型三一直可能到模型四,或者是模型一百,所以啊,那这些模型呢,是咱们通过训练数据来去得出来的,然后在预测的阶段呢?那怎么办?那假设给 一个预测样本,那这个预测样本呢,他会经过每个模型,而且经过的过程都是一个独立的过程,所以你可以理解成这里的每个模型他是互相独立的, 所以我经过每一个模型呢,那这个测试样本都有都会有一个预测的结果,比如说第一个预测是由模型一来去得出来的,然后我有预测二,那预测二呢,是由模型二来得出来的,然后呢,我们接下来有预测三,一直到比如说预测四, 然后呢,我得到这四个不同的预测之后呢,我们最后需要把每个预测做一个综合,然后呢,从而得到一个最终的结果, 所以这个过程会涉及到一些投票决策的过程。那假如我现在有四个预测结果,那啊,前前三个他 说 a, 那预测四呢?他会说 b, 那这个时候呢,我可以通过投票决策的方式可以得到最终的预测结果,他是 a 的, 所以在白领过程里面,其实每个预测呢,他都是一个独立的。然后呢,我们在综合的时候一般会采用这种投票决策的方式来做 好,那这个是白净的训练和他的一个这个预测的整个的流程。 所以这里很重要的一点是在 banking 模型里面,每个模型他是互相独立的,所以我训练的时候也是独立的把每个模型做一个训练,所以这点非常重要,而且这一点呢是跟 boss 性最大的区别。

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。 该分类器最早由利奥布雷曼和阿戴尔卡特勒提出,并被注册成了商标。在机器学习中,随机森林是一个包含多个决策术的分类器,并且其输出的类别是由个别墅输出的类别的重数而定。 奥利布雷曼和阿戴尔卡特勒发展出推论出随机森林的算法,而随机森林是他们的商标。这个术语是一九九五年由贝尔实验室的田锦格所提出的随机决策森林而来的。 这个方法则是结合布雷曼的引导带具和想法和和的随机子空间法,以建造决策术的集合。随机森林的概 面主要有一、分裂,在决策术的训练过程中,需要一次次的将训练数据题分裂成两个此数据题,这个过程就叫分裂。二、特征,在分类问题中,输入到分类器中的问题叫做特征。以上面的股票涨跌预测问题为例, 特征就是前一天的交易量和收盘价。三、待选特征在决特殊的构建过程中,需要按照一定的次序从全部的特征中选取特征。 代选特征就是在目前的步骤之前还没有被选择的特征的集合。例如全部的特征是 abcde, 第一步的时候代选特征就是 abcde, 第一步选择了 c, 那么第二步的时候代选特征就是 abde。 四、分裂特征 接代选特征的定义,每一次选取的特征就是分裂特征。例如上面的例子中,第一步的分裂特征就是 c, 因为选出的这些特征将数据及分成了一个个不相交的部分,所以叫他们。

今天给大家科普一下集成学习中 begging 家族中的随机森林算法。随机森林 random forest algorithm 是一种监督式学习算法, 适用于分类和回归问题。它是由很多决策术构成的,不同决策术之间没有关联。 他的核心思路是,当训练数据被输入模型时,随机森林并不是用整个训练数据级建立一个大的决策数,而是采用不同的子级和特征属性建立多个小的决策数,然后将他们合并成一个更强大的模型。通过对多个决策数的结果进行组合, 随机森林可以增强模型的效果。当我们进行分类任务时,新的输入样本进入,就让森林中的每一颗决策术分别进行判断和分类。每个决策术会得到一个自己的 分类结果。决策术的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。打个形象的比喻,一个森林的树中召开会议,讨论某个动物到底是老鼠还是松鼠。每棵树都要独立地发表自己对这个问题的看法, 也就是每棵树都要投票,该动物到底是老鼠还是松鼠,要依据投票情况来确定。获得票数最多的类别就是森林的分类结果。森林中的每棵树都是独立的, 百分之九十九点九不相关的数做出的预测结果涵盖所有的情况,这些预测结果将会彼此抵消,少数优秀的数的预测结果将会超脱于芸芸噪音。做出一个好的预测,将若干个若分类器的 分类结果进行投票选择,从而组成一个强分类器,这就是随机森林 bargain 的思想。它的步骤如图,步骤一,一个样本容量为 n 的样本有放回的抽取 n 次, 每次抽取一个,最终形成了 n 个样本。这选择好了的 n 个样本用来训练一个决策术作为决策术根节点处的样本。 步骤二,当每个样本有大 m 个属性时,在决策数的每个节点需要分裂时,随机从这大 m 个属性中选取出 m 个属性,满足条件小 m 小于大 m。 然后从这小 m 个属性中采用某种策略,比如说信息增益来选择一个属性作为该节点的分裂属性。步骤三,决策术形成过程中,每个节点都要按照步骤二来分裂,很容易理解, 如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无需继续分裂了,一直到不能够再分裂为止。注意,整个决策术形成过程中没有进行剪织。 步骤四,按照步骤一到三建立大量的决策术,这样就构成了随机森林了。他的优缺点有哪些呢?优点一,每棵树都选择部分样本及部分特征,一定程度避免过你核。二,每棵树随机选择样本并随机选择特征, 使得具有很好的抗造能力,性能稳定。三,能处理很高维度的数据,并且不用做特征选择,不需要降为处理。四,适合并行计算,训练速度比 比较快,五十线比较简单。六,对于不平衡的数据级来说,它可以平衡误差。七,可以评估特征的重要性。缺点一,在某些噪音较大的分类或回归问题上会过拟核。二、对于有不同曲直的属性的数据, 曲直划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性全值是不可信的。三、 参数较复杂,总结一下,今天给大家简单分享了随机森林算法的原理、学习步骤和优缺点,有不合理的地方希望大家批评指正,谢谢你们的支持!

随机森林机器学习经典算法,俗话说呢,三个臭皮匠可以点一个诸葛亮。随机森林啊,就是这个人多力量大的一个非常形象的例子,从字面上理解呢,森林表示的就是说他是由多颗角色数组成的,随机呢,表示的是在构建每一颗角色数的过程中呢,这个训练样本啊,都是从整体的训练样本中 随机选取的,所以说相当于是不同的角度去看问题,然后得到结果是相似但是不完全相同的。最后呢,我们在综合这些决策结果,得到一个最终的结果。 决策术的整体思想是这样的,首先呢,我们要设定超参数,也就是说这个森林中有多少棵树,每个树有多少层。然后呢,我们假设说啊,这个总体的训练样本中呢,有大 n 个样本,有大 m 个特征属性,我们对每一颗决策数啊,都有放回的,取出大 n 个啊这个样本作为他的训练数据,然后选取小 m 的特征属性, 这个小 m 呢一定是小于大 m 的。然后我们就构建出了一棵决策树,重复这个过程啊,要构建许多棵决策树。然后呢,我们将带预测的这个样本呢,输入到每一棵树中,都可以得到一个预测结果,我们综合这些预测结果啊,得到一个最终的结果。对于分类问题呢,我们通常使用的办法是求种树, 对回归问题啊,通常使用的办法是求平均数,因为之前有这个随机采用的这个过程,所以说呢,随机森林啊,他不容易出现这个过敏和现象,他对于这个噪声和离寸点呢,也不并不敏感,而且呢,由于我们的这个训练样本啊,其实相当于是抽取了总体样本中的一部分,因为是有放回的抽取吗?肯定是会有这个重复的,值得。 所以说啊,对于高位数据来说呢,他的这个训练速度啊,会有一个大幅度提升。好了,今天的分享就是这样,这是艾瑞斯,拜拜。

学机器学习,你不能瞎学,不能海学,因为我们的机器学习算法其实比较著名的算法大概能有二十个左右,但是你要考虑到工业界真正在用的有谁,五种常见的机器学习算法有哪些?逻辑回归、 随机、森林决策术、叉雷、 boss, 然后朴素贝耶斯。但是这个朴素贝耶斯其实来讲是在传统机器学习里面 非常经典,非常重要的。到现在其实公司业务里面也会有,基本来讲工业器就围绕这五个算法在转,除了这五个算法,别的就很多算法,那就纯粹是教科书算法,工业器里面基本上不用哈。

大家好,欢迎光临我的频道,今天我们来深度探讨一下机器学习中的随机森林算法。首先我们要解答的是为何随机森林在性能上胜过我们常用的决策术。然后我将通过图解的方式来阐释他的运作机制。 如果你对这类主题感兴趣,别忘了订阅我的频道并点击铃铛图标,这样你就能及时收到我发布的关于机器学习和数据科学的新视频。好,废话不多说,我们进入正品。首先我们需要一个数据集, 我这里用的是一个小数据集,只有六个样本和五个特征。你看这里目标变量外只有两个可能的曲值,零和一,所以这是个二分类问题。 首先我们得先明白,既然决策术已经能满足我们的需求,为什么我们还要使用随机森林呢?来,我们以这个数据集为例,画一颗决 测数。如果你对决策数还不太了解,或者对决策数的训练过程有疑惑,我强烈推荐你去看一下我之前的视频。简单来说,决策数是通过决策节点来递规的划分数据级,直到我们得到的叶子节点都是纯净的。我们寻找最佳的划分点就是要使得商增以最大化。 如果一个数据样本满足决策节点的条件,那么他就会被送到左子节点,否则就会被送到右子节点。最后,当他到达叶子节点时,我们会给他分配一个类别标签。 那么决策数有什么问题呢?我们稍微调整一下训练数据看看。你看这行数据 id 唯一的那个,我们来改变一下 x 零和 xe 特征的值。现在如果我们用这个修改过的数据集来训练决策数,得到的结果会和之前完全不同。这就说明决策数对 训练数据非常敏感,容易产生高方差,这样的模型在泛化上可能就会有问题。这就是随机森林闪亮登场的时刻。随机森林其实就是一群随机生成的决策术,对训练数据的敏感度要小的多。想象一下,我们用了好多棵树,所以我们叫他森林。 但是为什么要用随机这个词呢?这个问题暂且放一边,等到视频结束的时候你就会明白。现在让我来向你展示如何创建一个随机森林。首先,我们要从原始数据中生成新的数据机。 为了简便,我们先只创建四个,我们从原始数据中随机挑选型来构建新的数据级。每个新数据级的横数和原始数据级是一样的,这就是第一个新的数据级。由于篇幅限制,我只标出了行 id。 你可能注意到了,二号和五号型出现了不止一次, 这是因为我们采取的是有放回的随机抽奖,也就是说抽出一行数据后,我们会把它放回数据中。其他的数据集也是这样。 我们刚才创建新数据的过程叫做自举不 stripping。 现在我们要对每个自举得到的数据集分别训练一个决策术。但是有个转折点,我们在训练决策术的时候不会使用所有的特征,我们会为每棵树随机选取一部分特征,然后只用这些特征来训练。 比如说在第一个案例中,我们就只用了特征 x 零和 xe。 同样的,这就是用来训练剩余数的特征子籍。 现在我们已经有了数据和特征的子集,就可以开始建树了,你看看这些树之间的差异有多大,这就是包含四棵树的随机森林。但是我们应该如何使用这个森林来进行预测呢?我们来看 看一个新的数据点,我们要把这个数据点逐一在每棵树中进行预测,并记录下每棵树的预测结果。现在我们需要将所有数的预测结果整合起来,因为这是一个分类问题,我们将采用多数投票的原则。很显然,一号得到了最多的投票, 所以我们的随机森林预测的结果就是一,这个过程就叫做聚合,也就是从多个模型中整合结果。所以在随机森林中,我们首先进行自举,然后进行聚合,用专业术语来说就叫做 bad。 好的,这就是创建随机森林的全过程。现在我们在讨论一下这个算法的几个重要要点。首先,为什么叫做随机呢?因为我们运用了两个随机过程,分别是自举和随机选择特征。那么自举和特征选择的目的又是什么? 好的,自己能确保我们每棵树使用的数据都不同,这样能在某种程度上降低模型对原始训练数据的敏感度。随机选择特征则有助于降低数与数之间的相关性。 如果你使用所有的特征,那么你的大多数数的角色节点都会相同,这样的话他们的行为会非常类似,这就会增加方差。随机选择特征还有另一个好处 就是有些数会在不那么重要的特征上训练,所以他们可能会给出不太好的预测结果,但同时也会有一些数在相反的方向上给出不太好的预测结果, 所以他们可以相互抵消。接下来我们要确定的是特征子级的理想大小是多少。在我们的案例中,我们选择了两个特征,这个数值接近总特征数五的平方根。研究者发现,接近总特征数 对数或平方根的值能取得不错的效果。那么我们如何用随机森林解决回归问题呢?其实非常简单,在聚合预测结果的时候,只需要取平均值,然后你就可以用它来解决回归问题了,那就是全部的内容了。我希望现在你对随机森林有了深刻的理解。 如果你喜欢这个视频,请分享给朋友们看,并记得订阅我的频道,保重身体,感谢你的收看!

构建完随机森林之后,我们即可以对新的样本做预测了,预测过程类似于投票的过程。那当我们,呃训练好每个决策数的时候,那接下来其实很简单,我们只需要去做共同的预测就可以了,所以我们需要做的是共同预测。 那对于分类问题呢?那我可以比如说少数服从多数吗?比如说有四个人同意,三个人不同意,那结论就是同意同。 然后呢,对于回归问题也是一样的,那回归问题呢?比如说这棵树他的答案是一,这棵树答案是一,这棵树答案是比说三, 对吧?那这个时候呢,他们共同决策的这个预测的结果可能就是一加一加三再除以三,也就是我取他的平均。所以回归的时候最简单的决策啊,这个方式呢,就是取平均。然后呢,分类的时候 我们可以比如说投票的方式,然后呢,少数服从多数啊,反正很简单,随机森林模型本身对避免过你和现象是有着不错的表现的,但这并不代表随机森林就不会过你和任何的一个机器学习模型都存着过你和的风险。对于这个问题,目前主流的方法还是调餐。

通过两个方面的随机操作,我们可以得出具备多样性的决策术,这也是为什么我们把它叫做随机森林的主要原因。第一种随机化来自于样本的采样,也就是说每一颗决策术来自于不同的训练样本。那这里面首先看一下第一个层面的随机化,就是怎么去采样, 抽取样本,那给定一个训练数据,然后呢,首先我要去采样样本,所以呢,我通过一次采样,我可以构造一个训练数据一, 所以这是咱们的第一批数据,然后通过第一批数据呢,我可以去训练一个决策数模型,所以从数据到训练一个决策数,那这个过程是跟咱们上上一个章节里面讲到的内容是没有任何的区别的。然后接下来呢,我从这个数据里面再采样一批 数据,那这个把它叫做训练数据二,然后呢基于他呢,我再构造一个决策数二,那以此类吹。那比如说我最后呢,我采样到了训练数据 n, 然后基于这个数据,我们构造了一个决策数 n, 所以这是一个采样的过程,所以先采样,然后呢再构造一个决策数,而且整个的决策数的构造的过程呢,它是可以并行化的,可以同时进行,对吧?因为一旦我们采样完数据之后呢,那整个的流程它是可以完全可以并行化的。 那接下来我们来看一下具体采样的过程是怎么做的。那这个采样的算法呢?我们把它叫做 booststep, 那这是一个抽样的方式,那什么叫不 strap 呢?那这个不 strap 跟我们前端里面说的不 strap 是不太一样的,那这是我们只要主要收的还是采样的过程,那这个采样的过程大家一定要注意, 他是可以重复采样的,所以这里面他有一个关键词叫做重复采样 sample weight replacement。 所以同样的样本我们可以多次采样,没有关系。所以比如说我十个样本里面,我重复采样第一个样本啊,没有任何的关系啊, 所以假如我这里面有六个样本,比如说我第一次呢,我可能采样了第三个,然后第二次呢?我采样了第六个,然后第三次呢?我采样了第三个,对吧?然后呢,第四次我可能采样了第二个,所以啊,这个应该是二写错了, 所以这里面呢啊,第三个样本被我们重复了采样了,采样了多次,所以不 选这个采样的方式呢,它是可以重复采样的,所以大家一定要记住这一点。其实呢,重复采样这个过程可以使得咱们后续得出来的决策出模型,它更具有多样性。 好,那这是啊,采样这个过程,那除了采样呢,我们其实第二个随机性就是来自于咱们特征的随机性。 除了样本的随机化,我们在构造每一颗决策术的时候也会随机化特征。回顾之前决策术模型,当我们要选择当前最好的特征作为根结点的时候,我们把所有可能的特征全部尝试了一遍,然后选了其中最好的。但在随机森林里 选择特征的时候,首先会做采样,比如从一百个特征里选择十个,然后从十个当中选择最好的特征作为当前的根结点,所以每一次做分裂的时候,先要做特征的采样,然后一做比较, 最后选择效果最好的。这两个方面的随机化可以保证带来多样化的决策数,当然除了这两个还可以设计更多的随机化,但主要还是以这两个为主。

如果价格在六十日均线的上方,我们认为价格比较强势,那我们选择做多。如果价格在六十日均线的下方,那我们再去看一看他的现货身上是什么样的情况,是不是需求大于供给,哎,如果说需求大于供给, ok, 我们仍然选择做多。如果不是我们选择做扩, 那以上这一套思路呢,就是一个典型的决策术。那如果说把成千上百颗决策术放在一起,那其中的信息不但包含上述的这个军线,还有基本面信息,也包含什么布林带、持仓量、交易量等等这些信息,那会不会我们能够对行情有一个更好的预测呢? 那这个思想呢,实际上就是随机森林的思想。随机森林实际上是机器学习中集成学习里面的一种,那它实际上的作用是分类器。比如说在我们的购物 a p p 里边, 那购物软件呢,会去查找我们的历史浏览记录,会查找我们对商品的浏览时长,从而去判断我们到底是对什么感兴趣,他会对我们的兴趣进行一个归类,然后去推荐给我们所感兴趣的商品。 所以我们就想着我们需要去做一个分类器,去对当前的行情进行一个分类,对明天的最终行情结果进行一个分类,他是上涨还是下跌,而且是通过随机森林的算法去做,我把这样的想法实现了,并且把它做成了一个量化策略, 这个策略里面呢是一个简化版的策略啊,我其中呢使用了三个因子,也就是说三个特征值,那第一个呢是军线,是趋势性的因素,那第二个因素呢?是我们上期所说的这个布林带作为一个特征值。 那第三个因素呢?是 atr, 它是衡量波动率的,它的名字也叫真实波动率。那这三个特征值呢?几乎可以说是互不干扰,那它们的 y 值是多少呢?我把 y 值,也就是最终的预测结果设置成每天的涨跌情况, 比如说上涨是一,下跌是负一,然后把这三个特征值和这个预测的结果放在一起进行训练,最终呢我会获得一个随机森林算法构成的分类器,那这个分类器最终的作用是什么呢? 你给他任意的均线,给他任意的 a t r, 给他任意的布林带,他就能够告诉你未来的涨跌情况。那这个策略呢?非常简单,我们来进行一个测试。 ok, 我们看一下这个策略, 看他回测的效果到底怎么样。 ok, 打开 part charm, 我们看下这个策略啊。首先我们以白糖为例子, 然后呢,我们交易时间设定在每天的两点五十分,因为在两点五十分的时候,当天的价格不会有一个特别大的变化。 我们在两点五十分的时候,呃,对近三十天的数据进行一个计算,然后得到一个分类器,然后去判断未来第二天的涨跌情况。那最终的结果就是我们在今天下单,结果明天获得了收益,这样的话就不存在未来函数了。 我们选择回测时间是七月二十二号到十一月三十号,跟上一个视频的交易时间是一样的,那起始的金额是五十万啊,那我们再看一下,在这个随机测评算法中有几个参数,第一个参数是 第一个参数 stmasters, 也就是说我们的随机森林中那个决策数的个数是五十个,每次训练是五十个,我们又放特别多,因为特别多的话可能会产生过敏核的问题,那后边这两个参数呢?我之后会写在这个 说明文档里边,这里就多做一个阐述了。 ok, 当我们预测下一个交易日为上涨的时候,我们去选择做多做多二十首。如果我们去预测下一个交易日为下跌的时候,我们去选择做空做空二十首。 ok, 那我们来进行一个回测, 我们看一下回测的结果, ok, 开始回测了,那我们的交易的 k 线是按日 k 去做的,我们没有做分钟 k, 因为上一次交易,上一次视频呢,我们是拿小值 k 去做的,这一次呢,由于每次交易是在两点五十分的时候,我们去拿日 k 去做一个回测,我们看一下效果啊,一开始五十万,从做白糖,从七月二十六号开始, 从五十万亏到了四十六万了啊,这个回测呢,是比较慢的,因为每根 k 线他都会去对过去三十的数据进行一个呃,计算,进行一个拟合啊。稍微等一下, 我们可以看到交易的频率还是非常的高的,因为是在日 k 上进行交易,基本上你看在七月二十八号到八月八号的时候就进行了四次交易,两天就会进行一次交易,交易频率 比较高的,这一看,这怎么就下去了,好,到三十九万了,到三十六万了,到三十三万了,稳定下跌中,禁止稳定下跌。 ok, 最终结果是五十万的起始资金,最终是亏了十八万, 这个结果非常的不理想。但是我们可以看到一件事情在后边,从十月二十七号开始 啊,也包括前面他都是一个稳定下跌的走势,大家有没有发现这个?所以说他可能啊,他可能是一个反向指标,我们试一下,当他预测 上涨的时候,咱们做空,当他预测下一阶的时候,我们去做多,看最终的效果怎么样。理论上是这个图反过来啊,是一个非常完美的图形,我们试一下。 哎,我们在他预测为上涨的时候做空二手白糖,认为他下跌的时候做多二手白糖,我们来测一下。好,他从七月二十四号开始做多,看起来是完美的,哎呦,一下子就赚钱了, 这个地方做空可不是很明智啊,八月四号做空不是很明智,然后从五十万亏到了四十七万。 ok, 然后他从八月十五号做多,然后八月十六号立即改为做空, 然后后边一直是在做空,怪紧张的。还在做空吗?还在做空。 五个交易者里边,然后换了五次观点, 但他的效果其实非常好的。 ok, 截止到一月三十号,我们从从五十万做到了五十六万,当然他的交易只交易二手白糖,没有交易更多的白糖,没有去满仓去干, 最终的收益是到了五十八万。那我们也看到白糖今天应该还是暴跌吧,如果说算上今天的话,他应该是能达到六十万左右。这个策略的效果其实还是不错的,除了一开始有些回撤,那基本上到了后边是 完全没有回车的,基本上可以说是没有回车。 ok, 那我们再去看一下这个策略的试运行,我们再试个啥呢? 啊?这个碳酸里,碳酸里上市日期太少,他不够计算的。交 煤吧,我们试一下胶煤啊,胶煤是大量交易所 d c e 那 g m 二四零一, ok, 那我们这个交易也从七月二十号开始吧,同样从七月二十号开始, 然后做空二十手,如果他如果模型预测他为涨,那我就做空做空二十手,四十万的保证金,那五十万基本上就打满了,我们去看一下这个效果是什么情况。 ok, let's try。 哦,可以看到七月二十四号他是做空,这个做空是完全没有任何问题的。 ok, 他还是在做空,没有变化,第一笔做空完成,然后在这八月十六号到八月十八号之间做空做多,转化了三次,最终是选择做多, 然后资金来到了七十五万, ok, 他继续的做多,哇,这个太神了,八月二十三号开始做空,八月二十九号选择做多,你们敢信吗? 哎,但是他后边这学这学错了,回车比较大, 这种资金是来到了七十四万,这个效果当然还不是特别的满意啊 啊,但是我们似乎也没有什么可以调整的东西了,我们看是在八月三十一号资金来到了这个顶峰, 八月三十一号, ok, 之后呢,他就基本上就做错了,有一个 比较大的回撤,所以这个随意思论策略也不能去尽信吧。但是呢,这个策略呢,有一个特点啊,就是,呃,你所有的数据都一样, 但是你每一次去进行跑回侧的时候,他可能会出现一些变化,他并不是完全不变的,而其中里边呢也是一个黑匣子的策略。什么叫黑匣子策略呢?比如说有五十棵决策树啊,你不知道他这棵决策树他到底是投了上涨的票,还是投了下跌的票, 你也不知道每一棵决策树,它的每一个节点到底是一个什么样的状况,这是它的一个坏处,它不具备特别强的可解释性。那它的好处是什么呢?它的好处就是你不会去预设一个想法,哎,比如说我在做布林带策略,我在军军械策略的时候,我, 我们在做回测的时候,肯定是已经知道他过去是上涨还是下跌,然后我们进行回测,那这个回测是有马后炮的嫌疑的。 但是呢,像随机策略的策略,他没有这个协议,因为你也不知道你这个策略到底是看多的还是看空的,他是一个比较客观的东西。 这种策略呢也包括了比如说用人工智能的策略、神经网络的策略,甚至说现在用 gdp 做策略了,这些策略呢,实际上它本身就是个黑匣子。那这种策略呢?当然了,如果说我们能够跑出来一个长期稳定的 呃,有人工智能或者机器学习组成的策略,那这个策略是一定要好好的去利用的。因为他不需要你去考虑基本面的涨,或者说大事上的涨还是跌,你只需要的就是 遵循这个策略,然后去走就可以了。那这个呢,就需要就是大家很多人一块去挖掘这个东西了。 ok, 那今天的量化内容就这样,这个随机策略的策略,我也会慢慢的去改进它,但是这只能是慢慢的来了,我之后也会写一个文档哎,供大家去参考,大家也可以去 去自己去调这个参数。 ok, 我们再回到一部分实盘的内容,现在是十二月一号两点四十,看一下啊,看一下实盘 我自己也没看。哎呦,还不错,那最近呢,我看到这个棕旅游已经下来了,这个棕旅游已经是耗了我太长的时间了,我马上就要回本了,甚至也有可能去赚一点,然后 i c 的股票市场还是挺让人失望的,不过我也习惯了。最后呢,是贵金 如期,如今如期,现在是赚了一万块钱,做多做多赚的。那目前呢,我个人啊,我比较看好的品种,也是未来想去做的品种。第一个比较关注的是碳酸里,那碳酸里从二十四啊,我就是从二十四万开始跌啊,跌到了现在已经快接近十万了。 那十万一定是一个比较比较大的一个分水岭吧,也可能是一个呃,比较好的反弹点。那第二事情呢,我们看到聂贵金属聂最近有一些反弹啊,他这个反弹 啊,注定他不是长久的一个反弹,这个孽还要继续定,因为他基本面,我在这个文文章中说过,他基本面发生了极大的变化。 那第三个呢,就是我现在做的稀,你看贵金属念已经跌了这么多了,但是稀它基本上还是没有一个特别大的跌幅,那其中也是肯定是有一些原因的。稀之前之所以这么硬, 那是因为缅甸他没有产量了,他的预期的进口会大大的减少,但是最近呢,这个消息被政委了,缅甸的供应量是继续正常的,但是我们还是比较担忧在更长一个期间的情况下,缅甸的供应量到底好不好, 那我认为呢是不好的,所以我目前是做作息,同时呢息被念啊,带着跌了,已经跌了不少了,所以我现在去 短期的去做多它吧。还有几个值得注意的品种,一个是铁矿石和胶煤,这两个是一起的,那铁矿石和胶煤的涨幅都超出了我的预计啊,没想到它能长这么多,但是呢,我认为基本面目前是不支持铁矿石和胶煤长这么多的, 他们也到达了一个自己该到的均衡价格,那我那我个人呢是比较看空的。那还有呢,就是我们之前 说到的这个急用指数,目前有比较大的上涨,但是船在增加对不对?船日的数量在增加,只不过是这些公司去硬性提价,他到底能坚持多久呢?我也不知道,我认为 很快,这他是他也是一个比较好的一个做工的品种。最后呢,还有最近所关注到的一个就是生猪,生猪这个品种呢,自上市以来就特别的弱势,但是他很少有超过 跌破十四万的时候,目前生猪二四零三已经是跌破了啊,十四万了,已经到了十三万多,我认为这也可能是一个还不错的机会。以上的实拍内容就这样啊,祝大家每天开心,拜拜。

大家好,本次案例分析的主题是基于随机森林对死亡风险的预测,下面将从以下三个部分进行介绍,第一部分是随机森林,第二部分是案例分析,第三部分是模型介绍。下面先来看第一部分随机森林模型简介, 随机森林是有监督学习方法,在模型中同时生成多个预测模型,并将模型的结果汇总于提升准确率。随机森林涉及对样本和变量进行抽样,从而生成大量决策数。 对于每个样本来说,所有决策数依次对其进行预测,所有决策数预测结果的重数或者平均数作为这一样本的最终预测结果。如果因 变量是分类变量,那么每个样本的预测结果是所有决策数预测结果的重所决定。如果因变量是连续性变量,那么每个样本的预测结果是所有决策数预测结果的平均所决定。 生成决策数时未用到的样本的类别也可由决策数估计,其预测结果是由所有决策数估计的重数或者平均数决定,与其真实结果比较即可得到预测误差。当没有验证数据时,这是随机森林的一大优势。 下面来看一下随机森林算法的步骤。假设数据集中共有 n 个样本, m 个变量。随机森林算法如下,首先是从数据集中随机有或者是无放回 抽取 n 个样本,生成大量的决策数。然后从每一节点随机抽取小 m 个变量,将其作为分割该节点的候选变量。每个节点处的变量数应该为保,应该保持一致。第三是完成生成所有决策数。 第四是终端节点所属类别由节点对应的重数决定。最后对于新的观测点,用所有的数对其进行分类,其类别由多数决定原则生成。 随机森林有以下优势,可以处理大量的输入变量,如果输入变量具有的特征越多,其模型间尽可能不存在贡献性,那么建立的模型也就越稳定。 可以评估变量的重要性,对于每个自变量都可以得到一个重要性评分。建模时使用无篇估计模型,泛化能力比较强,当数据缺失较多时,仍可维持一定的精度。 可以处理混合数据。这边量可以有数直行,也可以有因子性。 来看一下本次案例所采用的数据,本次案例共采用了这些数据,分别的含义也在这下面进行案例分析。 本次采用的是胆汁型肝硬化数据,因变量是随访时间和生存结局, 其他变量为自变量,比如说治疗方法、年龄、性别等变量。上面展示了部分变量的基本信息,在这也可以看到有些变量存在缺失值信息,比如治疗方法的缺失值为一百零六个。 由上面的数据可以看出部分数据存在缺失值,尽管随机森林可以处理缺失数据,但是会带来很大的不方便性。下面将删除存在缺失值的观测数据。处理后的数据还剩二百七十六条观测数据, 也给出了部分变处理后的变量信息。 接下来建立生存时间和生存状态的随机模型。 由模型结果可以看到,由二百七十六条数据建立的随机森林死亡人数是一百一十一人,共生成了二百棵不同的树,采用的方法是无放回抽样。建立模型的错误率为百分之十七点二四。 基于建立的模型,画图展示错误率与数的大小的关系,以及各个变量的重要程度。 由图一可以看出累计错误率与数的大小之间的关系。随着数模型的增加,错误率有不断降低的趋势,大约在一百七十五左右,达到了错误率最低值。 图二评价了各个字面的的重要性,可以看到排在第一位的是血清胆红素,第二是水肿,以此类 推。 由模型的重要程度我们可以知道各个变量所占的比重,这样就可以对变量进行筛选,评分大于多少的可以纳入随机森林中。下一步考虑使用随机森林模型进行变量筛选, 由模型的筛选结果可知,使用的是最小深度,保守程度为中等。对质变量进行加权处理,建立模型,新建立的模型累计错误率为十七点二四九一,百分之十七点二四九一。 下面看一下筛选出的字变量,一共筛选出了七个字变量,与上面字变量的重要程度图形进行对比,可以发现于上面的结 果几乎是相同的。由鉴定的模型来看一下模型结果,这里绘制了所有自变量与死亡率之间的关系。 为了使结果更清晰,单独绘制图像进行分析。以排名第一的血清胆红素进行分析,绘制死亡风险图像。由图像可以看出,随着质变量的增加,死亡风险也在逐渐的升高。 下面以重要性排第一的变量血清胆红素绘制生存风险图像,嗯,分别绘制了两条两个 图形,一个是时间为一千二的手,另一个是时间为两千四的手。由图像可以看到,不同的时间点血清胆红素的变化与生存力之间的关系是不同的。 下面进行模型预测,从原数据集中选取第一百到二百五十的数据进行测试,结果显示了模型的累计错误率为百分之八点九十,可以看到模型达到了较好的效果。 嗯,我的分享就是这些,谢谢大家。

前几天有学生问我什么是随机森林?随机森林他是一种机器学习的算法, 他能够对微生物群络样本进行准确而有效的分类,能够区分组建差异。最为关键性的成分是哪些?比如说是 oto 或者物种 随机森林。简单来说,他就是用随机的方式构建了一个森林,森林里面有很多的决策数,决策数之间他们是相互独立的。当心加入一个样本之后, 随机森林里面的角色数都会做一下判断,然后进行分类,最终比较一下被分为哪一类,最多则判定为这该样本为哪一类。随机森林更多的情况下是用在白尔马克的筛选上,那一般 在图上面呈现的话,我们一般是挑选右上角的那些菌群或者是物质作为关键性的成分进行后续的分析。好了,科研有道点赞!