各位同学大家好,欢迎来到生性 a 计划,我是一峰博士,这一刻我们来学一下如何下载和整理 tcg 临床数据,通过这个 tcga berlingspr 来下载和提取相应的数据。 ok, 我们首先进入这个文件夹,那么里面文件夹里面有两个文件,一个是这个进入工作路径的一个 r project 文件,还有一个就是我们的脚本,大家只需要这两个文件就可以了,把它放在文件夹里面,然后直接点击这个 star 这个 文件,进入 ask 丢丢, 然后点击这个阿九的的右边有个 fails, 然后点击我们的脚本如何下载和整理 ppt 的数据。 ok, 我们的课程来源 a 计划,我们的十多个人是让想变得优秀的人出类拔萃。大家关注微信公众号贝尔对的三六零,回复 t 二六四可以获得脚本和一对一的指导,因为脚本将进行更新,所以大家一定要跟我取消联系。我们的教学采用保姆式教学,独特风格的脚本解读让你一眼就看明白。 ok, 我们先清清除黄金面料,点击这里就是清除这边的黄金面料,然后因为我们是直接进入共同路径,所以就不需要我们再去设置这个共同路径了,因为大家可以看到这里,对吧?这就是我们的共同路径,大家可以看到这里啊, 然后这里可以看到我们的文件,所以这些警号键后面都是注视行,是不需要运行的。然后这里呢就是调整一些系统性参数,然后这里是安装现代包,我们先安装拍个妹,这个包安装好了之后呢,再用拍个妹里面一个函数叫拼漏的函数来安装这这几个包就行了,大家不用管,就直接 直接运行就行了,直接选中,然后点击乱,而接下来我们要获取临床信息,那么怎么获取呢?如果我们可以去查一下我们的癌症的简称,比如说我们的胃癌是 stad, 那就把这个改下就行了 啊,把 ttga 干后面的癌症的简称改一下,比如说有的人是 coad, 对吧?你,你是这个的, 我们可以,你是这个癌症呢,你就写这个癌症,对吧?你是其他癌症就换一个癌症就行了,我把它换回来, ok, 我是伟爱大家,大家的数据就只需要改自己就可以了,其他的可以,其实都可以不用改,我们会一个个来运行,那么前面运行过了加载黄的相应的包之后呢?我们再来运行,可另一口又通过这个 gdc, 可另一口这个函数来获取他的一个临床信息。 那么这一步呢?可能需要点时间,因为他要从那个 gdc 官网里面去下载行程数据,大概需要五到十分钟左右,如果你的网速比较快的话,可能会稍微快一点,我们稍等片刻, ok, 等他大一号出现之后呢,那么我们的这个数据就下载完了,可以看到他总共肯定一口,可以点开看一下,对吧?他总共有 四百四十三行,六十九个列,对吧?就是九列,就是六十六九个那个变量,然后行的话就是提直接的这个样板名,他看到吗? ok, 那么我们就可以从这个数据里面直接提取,当然大概可以直接把它输出来,就是把这个表 出来,自己用手动进行整理的,也是可以的。比如说我们可以看一下这是他的名字,对吧?然后这是什么呢?这是他的一个 stay 举,然后往后拉,这是 days, two last follow up 最后一次的水防时间,那个这个也是需要的, 以及他的一些 t 分机、 n 分机、 m 分机等, 他可以把相应的需要的东西把他提出来,我们做后续处理,那么这个听个另这个包他的他的那个 作用就处理完了,就简单的一个命令,就把相应的数据下载好了。然后接下来我们可以看一下他的一个列名,他总共有六十四列,对吧?六十四列,然后我们接着通过列名来提取相应的相应的那个相应的那个数据,这是重复了啊, 然后我们重新秘密一个变量,叫肯定一口 dad 啊,我们把复制到这里面去,然后从肯定口里面提取这些列,就是我们需要那些列,我们可以看一下, 我们再看一下同一个 data, 那么他的话就变成了十行啊,十列的,对吧?就是我们需要的这十列,包括这个生存状态,然后 死亡的一个热期,对吧?时间,死亡时间,最后一个是谁访的时间,然后性别, a 举年龄以及他的 stay 举, t 分期、 n 分期、 m 分期,就是这四列,我把它提出来,把它复制为一个新的面料。那接下来我们要对生存时间进行处理,那么生存时间怎么进行处理?分两部分,第一部分就是如果他的状态是死亡的话,就是把它复制为一,如果是 live 的话,就把它复制为零,然后他们的时间是不一样的,如果是死亡时间就是他最后一次的一个,呃,他有记录的一个死亡时间,就是比如说他是带的他是死亡,也就是六百四十天,对吧?如果他是 alright 的话,我们就取他一个水纺时间,比如说这个 alright, 因为他没有死亡时间嘛,就取他的水纺时间就可以了。 ok, 我们就通过这个命令来获取他的一个 level 的数据,还有通过这个函数来获取他一个代表的数据就行了。他通过 fiat 还有 mutat 这两个函数来做,然后再把它合并,我们可以看一下, 就是肯定就是七零后的这个数据,对吧?然后他就加了一列 water state, 就是加这一列,对吧?加这一列,然后呢 其他的数据它合并在一起了,然后我们再对它进行一个名字的转化,比如说把上面的 id 把它变成 simple 样的名字,直接把它 这个 state, 把它变为这个生存 state, 包括 h 娟的,还有个 st, stage, tnmn 等等等等这些变化。 我再看一下这个数据,对吧?它的第一列就是我们的 simple, 第二列是这个 ten 生存时间,第三列是 state, 第四列是 ag 捐的就可以了。 ok, 那么我们就把这个两个文件把它输出来, 然后我们可以通过这两种再提取,我们只需要我们的生存时间的 和生存状态的,就把提议出来,我们一看一下,这就只有生存实验生存状态,然后我们把它输出来 就可以了。 ok, 我们再来看一下我们这个数据,它就生成了,我们可以看一下这是只有生成状态的,我们可以用我们机制本打开,或者用 sudio, 或者是或者用其他的一些软件打开, 这是只有生长时间和生长状态了,对吧? okay, 那么这个呢,就是所有的临床数据,大家可以后期进行进一步的处理的,他就把这个 h, 包括娟的 stage t, nm 等等都把它放进去了。 好的,我们的脚本就讲完了,大家关注我们的微信公众号,申请 a 计划 bid 的三六零,回复 t 二六四,可以获得脚本和一对一的指导。因为脚本将近更新,所以大家一定要跟我们取得联系,我们采用宝马车教学,读懂风格的脚本解读,让你一眼就看明白。