粉丝223获赞239

今天画相关性分析图, 第一行是自己筛选出来的化合物,下面是我的六个样本, 打开 r, s, d, u, d, l, 同样 mud 画线安装一下, 然后把这些运行一哈, 这块是获取文件的路径吧?运行一下,然后选择数据文件, 这个再运行一下就能看到文件路径。在这里这里就把数据搞进来,转换成矩针,这里就对数据进行相关性分析。 这块网脸是什么脸?好像是对 p 值干嘛来着?然后这里就可以画图脸, 这里我选择的是 circle, 也可以盖成 color, 就是这个样子, 这个是把字体概列, 这类似设置颜色, 如果没有,后面这里就是原来的颜色, 但是我想红色,再示意这里, 加上这些就可以把颜色换过来咧。 这里是下半部分的图,后面就和之前一样是导出 p, n, g 文件列。

来开始介绍书中第三章数据可说话相关的内容。数据可说话技术是数据探索的利器,在数据分析时,有效的利用数据可说话技术往往能够得到事半功倍的效果。尤其是在海量的数据面前 观察图像通常能够更方便更直接的从数据中获得更多的有用信息。抖音 人的绘图能力非常的出众,不仅有自带的。不仅有自带的绘图系统,而且还有很多拓展包,尤其是 ggplt 包和 基于基基普洱图包的相关拓展包。下面的程序主要通过四个方面介绍儿的绘图功能,分别是 r 自带的基础绘图方式,使用基基普洱图 以及机器抛出的相关拓展包进行绘图。儿童其他完成特定绘图功能的包使用儿的一些包来绘制生地图和可交互的图像等。首先介绍的是儿的基本绘图包。 在 r 安装完成后,打开 r 已经自动了安装了基础恢复包。我们首先看一个使用 r 的基础包绘制闪电图的例子。我们首先使用 redcs v 函数读取数据, 使用该段程序来绘制散点图。在程序中,它函数通来设置整个绘图的显示情况。此其中翻面的参数用于指定绘图中所有使用的字体。 pc h 来指定绘图中三点的形状。 po 的函数分别指定 s 坐标和 y 坐标。后使用 tf 等于 p 表示绘制三点图。卡拉等意外的表示三点图的颜色。 man 表示我们图的名称。 sf 和 wifi 分别是 来走和外轴的标签。我们得到图像如下所示。可以发现使用 r 自带的绘图包绘图是非常的方便,该段程序可是画出了而中不同的 pc h 耳中不同的标号数字所代表的点的形状。零号代表方块,一号代表圆圈。如十七代表上三角形,二十五代表下三角形等。下面我们同样只用 上面的圆润滑数据集来可视化对多个窗口的图像进行可视化。首先 我们使用它函数来设置一些绘图的字体,指定 m、 f、 r、 w 等于 c 二二参数来将一个图像窗口切分为二行二列的四个小窗口。然后通过 a 二的函数将 窗口中的第三个和第四个窗口合并在一起,单独成为一个第三个窗口。然后第一个图像使用黑色函数绘制纸方图,第二个图像使用史 moss 开的函数绘制平滑的闪点图。第三个图像则使用 boss plut 来绘制镶嵌图。得到的图像如下所示。通过图像可以更清楚的了解数据的分布及大小相大小关系等。

接下来我们开始学习 l d a 模型和它的原理以及实现。什么是 l d a 模型? l d a 模型是一种非监督的机械学习模型。 机器学习模型大致分为两类,一类是有监督的,一类是非监督的。有监督的就是有标签。类似于我们我们刚才所构建的情感分析模型,构建了逻辑规模型,那个就是有监督的,没有监督的就是没有标签的, 他是要去发现数据中的模式。然后 d a 就是这样一种模型,他可以用来识别大规模文档和语料库中的主题信息。他采用了磁带的方, 也就是说将文本转化成次频。但是这有一个问题,就是说直接的转化就是将一个文本把它每个单词都抽离出来,统一它的频率。这样一个方法非常简单, ok。 他易于我们的工作,但但是呢,他没有考虑词与词之间的关系,因为文章他是有顺序的,他是有语意环境的,词跟词之间是有一种关系的, 但是这里没有考虑。但是换一个角度来讲呢,考虑词与词之间的关系,它是一个进一步研究的方向, ok。 嗯。 l d a 模型它的生成过程,它大概分为三个部分。首先对每一篇文档从主题分布中 抽取一个主题,然后呢,从上述被抽到的主题所对应的单词分布中抽取一个单词,然后重复这个过程。这是简单的一个思想。然后在这里我不会去详细的去介绍这个主题模型的一个推导它的公式。 呃,在这里就是帮助大家对它的一个整体有一个了解。最简单的理解的方式就是对文档的句类, 将文,将文档根据不同的主题句类起来,这是一个最简单的理解,但是它具体的时间过程跟句类并不是完全一样的,它会更复杂一些。我们 这就是主题模型的一个基本的思路。它可以用来盖 什么呢?这个模型就是可以识别文本的主题吗?就是我,我们有一批文档信息,我们可以通过这这批文档来构造。指嗯, 这个主题的数目需要我们指定。比如说我们要勾可以勾到六个主题,那么我们就可以将这一批文档分成六类, 像句句。呃,用句类的话,就用句类的方式去理解的话,就把它句成六类。然后呢,新来了一个文本,我们就可以将这个文本进行分类,将它分成哪个主题。 最简单的理解就是把它当成句类来理解。 ok, 然后呢,我们来看一下如何去实现 这个 l d a 模型。构建 l d a 模型,它首先第一步还是要去构建 d t m 矩阵,或者说 t f i d 矩阵,然后再进行构建。所以说我们一开始还是要去构建我们的数据。 构建的方式我们之前已经介绍过了,这里构建的方式也跟之前是一样的,所以说我们就直接运行就好。 然后这上面两行代码是构建 lda 模型。 首先我们要初始换一个 l d a 模型,然后我们设置我们的主题,有十个,我们也可以设置七个, 这个带有一定的主观性。设定多少主题,这个带有一定的主观性,让我们初始化。还有 dna 模型,然后用这个模型的 这个函数,第一个是我们的一个数据计,然后后面是一个参数, 我们设置默认参数就可以了。 然后这样就再构建模型了。 刚才那个参数是我们指定迭代多少次,就是我们训练多少次,如果我们默认的话,他是训练一百四十次,如果我们设置的话,他是应该训练二十次。 ok, 我们可以设置默认了,再训练一遍。 然后呢,我们就已经训练好了我们的 ldm 模型, 这个是我们 lda 模型的结果, 我们设置了七类对吧?然后这里就有七个主题,每一行代表一个文本,然后这个概率就代表这个这个文本是属于哪一个主题的一个概率。 所以说第一个文本它应该是第三个主题,因为这个概率最大。第二个文本应该属于第,也是第三个主题, 然后第四个文本属于第二个主题。 ok, 这样我们就已经构建好了我们的主题模型了。 然后后面有一个主题模型的可视化的一个函数。 然后这里就代就是代表了我们的不同的主题。我们把它放大一点, 呃,这应该是最大,这应该 ok。 然后这里有七个主题, 这个号,每个主题里面都有不同的。呃, 这是第一个主题。 然后这里显示出了最长出现的一些词。 然后这里是每一个主题 最常出现的一个词。这个这些词是第一个主题最常出现的词。然后看第二个主题, 这个是第二个主题最常出现的词。然后这个是第三个主题最常出现的词。然后 然后这里是一个主成分分析的图,然后他画他选取了两个主成分,然后针对这两个主成分做了一个可视化。大家可以看到有些主题隔得近,有些主题隔得比较远。 那么至于我们这,我们至于这个图的话,我们可以思思考。我们可以选取一个更合适的一个主题类主题的数目,比如说一、二、三、四、五。我们尝试一下去设置五个主题, 然后在这里可以看到这就是绘制五个主题的结果。然后依然可以看到二跟五隔得还是比较近的。那我们再尝试一下四个。 ok, 这样主题分类的效果就更好了。这四个主题他们没有交集,并且他们距离都非常远,就代表了呃,他们的确是有表明这些文章是属于不同的类别的。 我们 好,然后这就是我们的主题模型的构建。 接下来我们会学习一下呃,如何去衡量文本之间的一个相似性。

同学们大家好,这次我们学习一下啊,如何将一个数据进行标准化啊,以及如何读取你桌面上的这个数据啊。首先我们看一下这个数据 好看,这个竖行啊,是他的各种基因蛋白,这个横行啊,我用的是 tcga 数据库,是每一个病人。 这里头呀,我没有安全啊,没有安全,只是列了几百个基因,三百八十八个基因同行呢,一共是九十九个病人。那么在这个数据矩阵中,我们需要计算,首先我们在计算的过程中是需要进行数据的标准化。为什么 需要进行标准化呀?是你看这个地方有十四,这个地方还有七千多,这个十四和七千多,他他有数量级的差异啊,数量级的差异,我们需要把它进行一个标准化,让他们数量级之间至少相等吧, 十四和七千多就差了非常非常多倍,这是差了一百倍,所以说在这个过程中,他这个数据是不太好,不能进行运算。在我们测试数据结果出来以后,我们会发现有很多行,比如说这这几行啊,这几行 哎,有三个相同的基因,那么这三个相同基因我们只取一个呀,那到底我们取哪一个呢?啊?这里头我们选择一个取平均数方式啊,一般选择一个取平均数,当然你选择中位数 也可以,呃,多种多样的一种方式吧,但是选择平均数呢?呃,是可以在论文过程中解释的清楚。 那么我们处理一下这个数据,那么首先我们打开我们的 r、 e i, 在这个过程中,因为它是个 excel 数据,我们可以直接在这个地方点 import from excel, 当然啊, 这个地方呀,还可以导入,呃,其他不同类型的,呃,数据矩阵啊,我们,我,因为我们这个是 excel, 我们找见它 是 w e 啊,我们 w e, 我们在这里头需要命名它。 open, 好,我们把它命名为 r t, ok, 好,我命名命运进来。如果我们把这个数据线直接运行进来啊,他并不是一个计算的格式,你看我们这多了一行啊,我们这个地方多了一行, 我们应该把这个基因名字呀放在这个部位,把这个一二三四呀,一二三四五呀换成这个基因名字,这样的情况下我们才能运算,这样结束完了以后,我们还需要进行这个数据的标准化,把它的数量级差异进行减少。 那么好,我们现在运行这条代码就不需要运行啊,这条代码不需要运行,因为我们刚才是 直接选择 import 读取的数据。在这个过程中,我们进行这串代码,我们先把它变成一个矩阵,现在他, 他不是一个矩阵啊,我们现在先把它变成一个矩阵。运行好,我们再看一下他,还他,他的基础,你在肉眼上是看不见,但是而语言呢,会把它认为成为一个矩阵,这变成一个蜡质 matrix。 然后呢,我们使行名 选择他第一个行名啊,我们进行这一行。好,我们再看一下,这里的一二三四五,就变成了这边这个基因了,那么我们下一步需要把这个数数列给他删除,才能进行预算啊,那么我们就运行这一行。 好,我们再看一下。哎,我们这个基因名就变到了这边,我们的竖行那个基因名就少了一行。好,这下就可以 再往下运算,那这个地方呢,我们需要给他命名一个 dare name, 这个 dare name 呀,就是什么呀?定义这一行和这一行分别叫什么名字?看类似 row name, 就是就是, 就是这些金啊, row name, 它变成一个矩阵,变成了一个横纵的框啊,变成了一个横纵的框,然后呢? data 呢?等于什么呀?等于这个数据的矩阵,这里头字可以不用改啊,你,你只需要在它 输入的过程中把这个地方改成 r t, 运行我这串代码,就可以把它呀进行一个正确的读取。好,我们继续我们点这一行 啊,我们我们看有两个类似的,第一个类似的是 role name, 第二个类似的是行名,就是这些这些病人的名字,哎,我们把它作为一个数据框的纵行和横行,我们把它变成数据框的纵行和横行, 也就是什么呀?也就是我们数据矩阵的,先把数据矩阵的先把数据矩阵的纵行和横行先给他填上,然后呢我们再去填他里头具体的数据,这个代码就是这个意思。 好,我们继续看代码,然后呢? data 等于什么呀? data 等于 matrix, 作为一个矩阵 as numeric, 就是说它里头输入的数字呀,都是数据矩阵,都是数字啊, 是一个数,一个一个的数字啊,不是一个。呃,项链或者是一个 character, 我们就先这样 行名了,行名还是 role name 是吧?是它的也是这个 experience, 然后 daily name, 数据框上下的框,我们进行这个。 好,我们的 data 就出现了。哎,我们这个 data 呢,就是说它横这一行啊,名字呀,它是一个什么呀? character, 纵横呢,也是一个 carry, 但是这里头的这些具体啊,这是个数字啊,他就需要把这些东西定义了以后,而人家才认识。我们在这个地方需要运行一下这个代码,这个代码啊,有的时候大家是运行不出来,我们下面呢, 我们要去需要对这个矩阵呀,这个矩阵呀,进行一个取平均数啊,我们刚才都看到了,这个地方有三个,有,有四个,同样的这个同样的基因,我们需要把这些数加起来取一个平均数,所以说我们需要运行一个代码,就是这个代码, 这个代码,呃,运行这个代码呢,需要我们加载一个包叫 lamb 包,我们把这个 lamb 包啊运行一下,如如何去下载这个 lamb 包呢?可以去网上查一下教程,如何下载 lamb, 我们运行 laborably lamb, 然后呢取平均数,哎,好, 我们这个就变成了三百八十一个数列了,我们看看原始,原始是多少个呢?原始是三百八十八个,就少了那么几个, 哎,这少了那么几个呢?是取了一下平均数,然后呢我们在这个地方我们取一下它的 row means, 它的平均数呀,我们把这里头筛选掉啊,就是什么呀?它的 row 就横行, 就是横行,就是这些数啊,就是这一行的这些数啊,加起来他的平均数啊大于零,因为他有很多这些数值,他,他整个都是零啊,这些咱们就没法计算,因为他全是零,没法计算,我们需要理解下这个好, 事实证明它里头没有全都是零的啊,我们就继续,我们可以把它保存啊,我们可以保存成 t s t 格式,当然我们也可以保存成其他的格式,我们在这个地方,呃,可以点,这个我就不点了,大家可以点一下,尝试一下。好,那么我们 将这个数据啊,进行了一个什么呀?处理啊,现在是这个这个数据进行一下处理啊,这就是可以一个运运算的数据,那么在我们运算之前呢,我们刚才也看见了,这是一百,而这个呢是一万,他们相差了一百倍, 尽管是在同一个基因,但是他们之间的相差倍数也太大,所以说呀,这个数据直接进行运算是有问题的,那么我们需要把怎么样把他们之间的差异啊,把他们之间的这个数据的差距啊缩小到一个数量级之内,那么我们就需要运行下面这条带 介绍代码,我们定义为 e x 等于命,命命,它等于 data 啊,我们运行好 e x 作为一个 data, 然后呢, 底下这些代码,这一串代码就是自动给你进行,这,从这到这啊,他就是自动进行标准化, 它,它会形成一个 expression unique 的数据啊,当然我们可以改名啊,如果我们把它改成 data, 那么它出来就是个 data, 我们现在不改名,我们直接运行这串。 好,这不用管点它。好,这底下会给你显示数据已经标准化啊,标准化的方式是这个,那么它最后的这个数据矩阵命名为什么呀? expression unit, 看我们这多了一个 expression unit, 我们点开它, 好,我们看一下这里面的差距啊,就不是太大,你看有六十啊,一万,他们的数量级差异啊,就比较小, 这样的情况下我们就可以正确的计算。后续的生物信息学分析呢,就是以这个数据标准化的后的数据进行计算了,这样就不会出错。 好,我们现在命名为 express unique, 当然啊,我们可以命命名为其他的这个名字啊,以后续的计算, bitter e 啊,我们重新运行一下这个啊, 好,我们出来了,看我们这块是不是又多了一个 data 一啊,这个 data 一和这个 expression unique 啊,它是一样,我们只需要在这个地方啊 更改这些字符啊,让这些字符啊符合你后续运行的代码。这样啊,这个数据矩阵啊就处理好了。那么好, 这节课呢,我们就讲到这里啊,如果小伙伴们觉得我讲的不错呢,请一键三连,感谢大家,欢迎大家继续收看 后续圣母心医学分析的一些方法学方法论,谢谢!

嗯,上一个视频跟大家一起学习了体检验中的这个单样本体检验,今天和大家一起学一下呃体检中的两样本的体检验。两样本体检验,同样我们可以看一下在阿尔斯丢丢里面怎么进行一个代码单的一个输入,同样我们在这个阿尔斯丢丢里面我们建立一个 阿尔巴克丹文档,我们同样采用呃谢老师,也就谢一菲老师的模板, 然后我们可以把他的这个呃表图给改掉,嗯,今天为了节约时间,嗯,我的代码单已经输入好了,把 把他这个表图改为两样本的 t 检验,然后作者你自己起一个名字,然后后面的这个呃输入单呢?怎么输入什么什么文榜,基本上就是合适,呃,不需要太多的变动,如果 要查的其他的格式呢,自己再进行更改。然后我们呃,我们可以我们首先来看一下两样本体检,一个前提条件, 这个前提条件就是第一个首先为观测变量,必须联系变量,也就是说呃,你这种数据他是连续性的,一个素质变量对不对?还有两个样本之间的数据之间要相互独立,不存在干扰。三个就是呃观测变量不存在这个异常值, 这个异常值一般的来说就是你可以用镶嵌图或者是这个呃或者是排序的方式,你可以发现特别大或者特别小的值。第四个就是 嗯,呃,两个样本的数据呢,要进行正态分布,或者是满足这个正态性检验。那么在这个代码单让我们怎么输入呢?就是,嗯嗯,是, 我今天是模拟了一组数据,就是这个年龄,就是先和不先换,这年龄是不是有差异?我用这个 正在分布函数产生了五十个呃,均数为十,标准差为二的这个数据,然后呢?呃分组变量,就是吸烟有二十人,不吸烟有三十人,然后把它打包到这个数据框里面去,呃, 然后这个其次我们要做一个正在性检验,对吧?正在性检验我们要看一下呃,吸烟患者年龄失误,满足正态性,还有不吸烟年龄患者失误,满足正态性。 然后其次呢,我们要做一个放大细心检验,就是说在做两页问题点击体验,他的前一条件是正在比两样本的数据要满足正态系以及放大细细,还要做一个放大细心检验。放大细心检验我们采用这个 来看一下吸烟和不吸烟患者的年龄是否满足真这个方差其性对不对?最后我们再做一个体检验啊,在做体检验之前我们要看一下他这个方差其性是不满足条件。我们先入体验这个代码, 我们可以看到这个,呃,他的配置是小于零点零,大于零点零五,说明他是满足这个, 嗯,放大奇迹呢。那么这个时候在两样的体验这个参数设置里面,我们就可以把这个,呃, 就是这个 voeq 设为处,就是 tr eoe, 就是是真的,就是啊,这个配对的话,我们今天没有参与配对,那么我们就把这个配对的这个参都准备 phos, 然后我们再整体运行一下这个代码,我们可以看一下这个代码就出现了在吸烟患者中和不 吸烟患者这两个之间的正态性都是满足条件的,为什么呢?因为 p 指丘都是大于零点零五的。其次我们可以刚才我们已经看过了,这个 放下其性的,他也是满足条件的。最后我们来看一下两样本这个体检验,我们可以看到这两个样本的吸烟患者的趋势是九点,呃,十点一六,不吸烟患者是九点九八,那么此时我们可以呃呃认为, 嗯,这个 t 值是负的零点二九,然后 p 值是大于零一五。可以认为这两组样本之间是并没有统一学的一个差异的,比如吸烟和不吸烟患者的年龄并没有统一些差异, 就说他们可以是可可能来自于同一个样板,呃,这时候,嗯,这个阿尔玛,这时候这个分一些, 结果基本上就结束了。然后我们看一下这个阿尔玛给当时他是怎么生成这个 pdf 文件的,嗯,当你这个文本编辑都编辑好了,完了过后,我们点击这个上面这开内这按钮,然后他会自动生成一个 pdf 文件。 嗯,这个森林的快慢跟你的这个,呃计算机的这个运行速度有关系,我们可以看一下它自动生成的这样一个 p 点和文件,呃是不是,呃很好用?然后 我们可以看一下,如果你想写书或者是写一些文章的话,那么这些模板你可以自己掏用,然后把里面的内容自己更改掉,还有什么好处了?他可以呃,在编辑代码的同时呢,你可以适时的 进行一个运行,而且,呃不需要在各个平台之间的,这个就是导来导出的,你可以 在里面呃在代码单一改的话,然后点击生成的话,他就会自动生成一个 pdf 文件,然后不不需要把这些代码还有文字呃输入到 word 里面,然后再进行一个编辑,在这里面编辑好后,我们就可以自动生成一个呃 pdf 文档。如果呃 你们还想私信其他的格式的话,你只需要更改这个输出的这个的格式即可,所以所以呢特别好用,我推荐给大家。今天的内容到此结束,然后如果大家对这个呃检验 呃的方法还是不了解,或者是这这个 r mark down 如何使用,然后还是不太清楚的话,可以私信给我,谢谢大家。

如何使用阿语言完成数据处理、数据可视化、统计分析?机器学习。在学会这些技能之前,我们需要学习 r 的基本用法。接下来我们将分期介绍阿语言入门知识点。 在编写阿扣的之前需要安装基础啊软件,后续我们编写的所有阿扣的实际上都是在基础啊软件中执行的。 另外,我们强烈建议安装阿司丢丢,阿司丢丢是最流行的啊 id 一,甚至也是数据科学领域中最好用的 id 一大部分与啊相关的操作都是在阿司丢丢中完成的。 首先我们介绍文件路径的设置,当我们想要在阿中读取某个数据文件,需要先找到该文件的路径。在麦克系统中的操作室选中该文件, 点击显示。简介,双击复制位置中的文本在 windows 系统中的操作类似,不过需要注意,在 windows 系统中复制得到的路径里的斜杠是反向的,需要调整为相反方向。 获取到路径后,将其粘贴到 setwd 函数内并运行这行代码,我们就把 r 中的路径定位到指定文件夹下了。 然后我们可以读取不同格式的数据,对于 csv 格式的数据,使用 red 点 csv 函数读取。对于 txt 格式的数据,使用 red 点 table 函数读取。 对于 xlsx 或 xls 格式的数据,我们需要加在 redxl l 包,使用其中的 redxlsx 函数或 redxls 函数读取。对于 其他格式的数据,例如 stata 格式的数据或 spss 格式的数据,我们需要加载 foreign 包,使用其中对应的函数读取。接下来使用 st 二函数查看数据的结构。 在这个例子中可以看到数据集一共有一百五十条观测值和五个变量,其中有四个是数值变量,一个是自负串变量。 最后使用 vivo 函数进行数据预览,即查看读取到阿华尼中的数据对象。这样我们就完成了数据分析的第一步,设置路径,读取数据。


好的,朋友们,现在我们来学习这个经典的啊,诊断模型的一个全流程。 呃,今天的参考资料呢,来自于这个。呃,我的老乡的,他的微信公众号, 基于逻辑回归模型的构建和验证。嗯,学习的目标呢,首先进行这个缺失值的处理,然后制作这个机械表数据的八二进行拆分,然后逻辑回归构建这个模型。挂列前图, 训练级、验证级的 r、 o、 c, 训练级,验证级的较准曲线,训练级验证级的决策曲线,训练级和验证级的临床音响曲线,就是一个经典的诊断模型的。呃,全流程啊,好的,我们设置工作路径,加载这几个包,读入我们的视力数据,查 查看一下这个数据。这个数据有四百五十六行十二列,第一列是我们的结局。呃,零一,后边的话是这个各个自变量 x。 呃,我们先查看一下这个数据的缺失的一个情况,可以看到它这个 m、 p、 e 是有四个缺失值的,然后这个 l、 d、 h、 p、 s 是有四十四个缺失值。好的,该数据四百五十六个样本,十二个特征。然后每个变量的编码都已经写在这里了,它的编码含义是什么? 可以看到有九个变量有缺失值,一二三四五六七八九,有几个变量有缺失值。接着我们看这个,接着我们对缺失值进行插补,使用 mas 包的对数据进行多重插补,使用的是随机森林的方法。 好的,然后接下来我们从多种叉股中提取完整的数据框, 等这里运行完就插补完了。插补完了之后,我们可以看一下这个, view 一下这个插补之后的数据。 好的,这已经插补完了,我们看一下插补之后的这个数据,第一步 mputy 的还有没有全是值。好的,现在已经没有全是值了,我们可以把这个数据给写出来,这个是我们插补之后的数据,然后接下来进行数据的转换。我们先看一下数据的类型,其中有三个变量是分类型的, 其中这个 mp 这个结局就是是否有胸腔积液,然后金角性别靠谱,是否咳嗽,都是分类变量,所以我们先把它转化为分类变量, 再看一下这个数据的这个类型,可以看到这个这个三个分类的变量已经转化成了二分类的变量。接下来制作这个机械资料表。呃, 我们以这个 m p 进行分层,这个点就是剩下的所有的变量作为 x 使用的是我们这个插补之后的数据。好的,我们打印一下, 打印一下这个表。好的,接下来再把这个表导出,为 word 的一个格式导出,然后在我们的工作路径里边就有一个 table one doctor c, 就是就是一个长长的这样的一个极限资料表的 word 版本。接下来进行数据的划分。 呃,我们进行数据的八二拆分,八二拆分,然后接下来机遇逻辑回归,构建模型。首先一个打包的一个动作,接下来我们这里呢没有演示先单后多的这个变样筛选,而而是就是说随机挑选了几个,为了演示比较方便。这个先单后多的这个 变量筛选我们之前已经更新过了。好的,你和一个模型展示这个模型。好的,可以看到这个模型的这个,这个,这个,这个 c 指数, 这个模型的 c 指数是零点七八五。然后我们就接下来绘制这个列线图。好的,这个列线图已经画好了, 可以看到它不是一个特别花哨的,其实想画的更好看的话,可以画一个花式列腺图,用那个 regular pro 的那个包。接下来进行预测,首先是训练级的一个预测,然后测试级的一个预测 啊,接下来绘制这个 lc 曲线。绘制 lc 曲线呢,首先就是一个要有一个这个训练级的一个真实值,他是否有训练记忆,然后这个训练级的一个预测的一个结果,就这两个指标就可以画 lc 曲线了。然后接下来计算这个 l 这曲曲是零点七八五一,零点七八五一,零点七八五一。 好的,这个上面 c 引太可字确实是零点七八五啊,零点七八五。然后它的置行区间。好的,接下来 pro 的这个 r o c 曲线。 r o c 曲线 啊,这里只是进行一个简单的演示一下这个流程,其实最好的理想的话应该是把这个呃 aoc 纸给他的置进区间都给他,给他放到上面,当然你也可以用 ppt 或者用 ai 给他,给他,给他敲上去。然后接下来是测试级的 roc 和 pro 的,但是测试级的这个 r o c 曲线,接着绘制这个校准曲线。我这里为了快速只进行了一百次的这个自助重重样,最好是这个一般文章发表 要一千字。好的,这个是训练级的教程曲线,接着演示这个测试级的一个教程曲线。好的,这是测试级的教程曲线就画完了,接下来就演示这个,呃,这个,这个,这个,这个 d c a 曲线, 可以看到现在这里就生成了一个预测的一个概率。呃,然后呢? 然后它这个,它这个第一列啊,第一列,它现在是一个 no, yes, 我们需要把它转化为一个零一,接下来就从这个二元类别转化为竖直性的变量。好,现在已经转化为了零一。 接着使用这个函数计算角色,角色曲线,使用 pro 的函数进行画,它还在反应,等它,等它 给他一点时间。好的,这个角色曲线已经画完了,然后画这个临床影响曲线。 呃,一般画一个有直径区间的比较好看一点。好的,现在就可能好看一点,如果更美观的话,我们可以调一下颜色,这里只是快速的演示一下。呃,一个全流程。好的,测试级的角色区间,然后给他转换成一个零一的,然后 画一个角色曲线给它 pro 的出来,给它一点时间。 好的,再画一个临床印象群,然后给大家加一个执行区间。好的,这个全流程就已经画完了,如果你有数据的话,这一这一波图都已经画完了。

大家好,我是小明,今天来录制一期视频,跟大家介绍一下二元里面对文件的一些常用操作。 呃,首先我们是打开二十九度以后,用盖子 wd 这个命令就能获得二十九度启动以后的工作目录。然后我们想对这个目录下面的文件进行一些常用的操作,比如我们想看一下这个目录下面有什么文件。呃, 如果是通过这个界面的话,我们可以直接点这个 fuse, 这个他就会展示出当前目录下的一些文件。如果是通过命令的话,他这个里面用到的是类似的点 fuse 这个函数, 我们运行一下,他就会展示出当前目录下的所有文件的名字。啊,他这个有一个好处,就是我们还可以指定啊,想展 是什么,具体什么文件,他可以通过这种模式来。比如我们想展示,呃,就是后缀名为点四 s v 文的文件,直接加这个派对等于一个星号,点四 sv 啊,他就能展出来。这个当前目录下有多少种以后缀名为四 s v 文件呢? 文件现在我这个目录下是没有,如果是点 pdf 的话,展示一下他就会列出来,这下面有两个 pdf 文件。 好,这个是只展示出来文件,然后如果是要展示文件夹的话,用到的是类似点 dl s 这个函数, 运行一下,他就会把这个下面的文件夹,他会按目录这种形式全部展示出来 啊。如果是只想展示文件夹,而不想不展示刺激文件夹的话,他这有一个瑞克斯,有一个 这个这个参数,我们把它设置成 fos 就行了,这个他就会只展示文件夹,然后就不会再展示下一层这个文件夹的内容了。 然后接下来还有一个操作,就是展示文件的大小,他这个用到的是 fu 点四 s 函数,后面加这个文件的名字,这个文件名字是要用双引号给引起来的,运行一下,他返回的应该是这个 bp, 就是多少个 b, 如果我们想要把它变成 k b 的话,就直接除一个一零二四就行了,然后或者过来把转换成照 b 的话,就是再多除一个一零二四就行了。 然后还有一个常用操作,就是复制文件,复制文件的话他这个就用到的是 field 点 copy, 前面是要复制的那个文件的名字,然后后面是 就是最终你要把它复制成一个什么文件,这个名字,这个名字前后可以是一样的,如果是一样的话,我们就需要加一个参数,就是 这个 overrides, 我们把呢就是相当于是把原来那个文件是否给他覆盖掉这个地方写成 override 就等于处就行了,但是通常我们是不需要覆盖的,所以就是这两个名字给他区别一下, 他就能我们运行一下,然后他下面就会多出来了一个这个二 pro 的杠一,这个文件夹相对于刚才的话大家可以看一下。 然后还有一个常用操作,就是对这个文件进行重病名,他这个是非有点入于内。第一个就是当前目录下存在的一个文件,然后后面就是给给这个文件重新起个名字就行了,就是对他进行了一个重病名,你再展示一下,现在他就把这个杠一给他改成杠一杠一点 pdf 了, 然后还有一个长呢,就是删除文件,删除的文件就是对应的就是点蕊目加这个文件的名字就可以了, 这样我们就把这个文件给删除了,好,再展示下当前目录下这个文件就没有了。还有一个常用操作是展示一下这个文件的完整路径,这个里面有两个函数,第一个是用到这个 tools 这个包里面的一个函数, 然后我们加这个文件的名字,我们运行一下,他展示出来的是一个完整路径,然后还有一个 noma s pass 这个函数,这个展示的他一 有点区别,就是第一个路径里面他用到的是一个写线啊,第二个路径里面他用到的是两个反斜线啊,这两个路径就是这两个 在 windows 系统里面的是都可以接受的,如果是这一个斜线的话,就是这个方向的斜线,我们就用一个,如果是这个方向 新鲜,那就是用两个来风格这个文件夹的名字就行了。好了,今天的视频内容就介绍这么多啊, 主要介绍的就是二语言里面的一些基础知识啊,大家如果觉得内容还有帮助的话,可以点赞关注,投币转发进行支持。也欢迎大家关注我的公众号,小明的数据分析笔记本,留言讨论本期视频相关内容, 谢谢大家的收看。这个是我的公众号二维码,公众号主要分享的一些就是二语言做数据分析和数据可说话的简单小例子,大家感兴趣的话可以关注一波,谢谢大家的收看。