粉丝4.9万获赞82.8万

今天我们分享一下利用 ncbi 数据库下载芝麻的基因组。我们为什么要用 ncbi 去下载芝麻的基因组的话,首先就是因为我们在常见的植物基因组的网站上, 比方说 zambo, plant, 还有这个菲特字母上都没有找到芝麻的极左,因此呢我们在 ncbi 上找到了他。首先的话,首先我们需要打开 ncbi, 这有我收藏好的网站, 这样选择金,然后输入芝麻, 他这提示说这个金主的一个页面更新了,我们可以去新的页面去看一下。 搜索芝麻之后,他出现了四个版本,其中第一个版本的话他这标注了参考,而且的话,呃第一个的这个他这个水平呢已经到了染色体的水平,因此呢我们就啊点击第一个去看就行了, 这样的话就会有这个呃金主版本的一个 介绍,那最后面还有他这个染色体上的一个准备情况。 右侧的话还有关于这个金组的一个文章也可以去下载。接下来我们去下载这个金组数据, 我们只需要下载这个金主序列和这个注释的文件就可以了啊,当然呢我们也可以,嗯,下载一下这个 cds 序列和这个氨基酸序列,也就是蛋白质序列, 我们可以呃,到时候我们依据这个基因组序列和注视文件,呃,自己利用这个 tppos 软件进行这个 cds 的提取,然后呢也可以和这个下载的这个 cds 去进行一个比较, 点击下载就可以了, 已经下载完成了,然后我们打开就可以了 减压, 我们可以看到他提供的这个金组序列,他是按照染色体分开的,所以说我们首先呢需要把 这个金属训练的进行位置一下啊,就是把这个十几条染色体的训练进行一下合并,我们打开 tptos 软件, 点击 factor, tors 是里面有一个墨纸, 这些呢都是一个他的染色体训练。然后最后面的话就是有一个, 我们看一下这这个是什么文本,什么文件,然后呢这个文件的话就是说是有一些基因呢,它是没有注释到染色剂水平的,就是一些 staff 的片段, 我们也可以把这个去进行都合并到一起,他们都是精读训练, 我们设置一个输出的, 我们设置一个输出的文件, 点击开始, 哎已经合并完成了。 然后呢我们就进行这个 cds 的提取,首先我们需要输入 基因组织注视文件,点击出石化, 点击,在这我们可以看一下, 在这我们可以看一下如果我们汲取 cds 的话,他后面对应的就是一个 idid 是什么,因此呢我们就可以选择这个 id 作为这个标签,这样选择 cds 金组文件输入我们刚才木质完成的文件,设置输出文件 已经提取完成。 然后呢我们可以看一下这个 cds 的一个情况,一共有多少条基因啥的, 一共是三万五千多条基因。然后呢我们也可以可以拿我们提取的和这个下载的去进行一下对比,而这个就是下载的 cds 训练, 我们发现是没有任何差异的,我们直接下载的这个 cds 的训练,他也是一共有三万多条, 由于我们下载的这个我们提取的这个 cdsa 的这个 id 处有一个正负链的标记,我们可以对这个 id 进行一下简化, id 简化之后就是他这大于号后面就没有一个正负面的标记了, 然后其他的信息是不会改变的。接下来我们可以将批量的将这个 cds 序列翻译成蛋白质序列, 已经翻译完成, 我们发现蛋白质训练的这个数目的也是三万多条, 通过我们自己提取这个金组的 cds 训练,呃,然后呢再翻译成蛋白质训练去进行后续的分析, 这样子呢可以保证就是我们的京 id 来源于这个注视文件,后续的分析的话不会出现什么问题,因此呢后续的分析呢就是基于我们自己提取的这个 cds 训练和这个蛋白质训练去进行的。今天的分享呢就到这。


