如何将核苷酸的fasta文件切割成r中的编码区和非编码区
How to cut fasta file of nucleotides into coding and noncoding region in r
我得到了鸟枪基因组序列,可以在这里找到:
https://www.ncbi.nlm.nih.gov/nuccore/NZ_LRPF01000001
这个序列由 205,000 个字母组成。其中一些是 CDS(编码序列),但大多数是非编码的,因此并不重要。
例如第一个编码区是条目343到780,然后第二个是937到1866,这显然意味着从1到342还有非编码区,然后是781到936等等
我被要求对这个序列进行一些分析,我想要一个由编码序列组成的 fasta 文件和另一个由非编码序列组成的文件。
我知道如何在 R 中手动将此文件切割成两个向量,但有 187 个编码区域需要手动定位并正确切割。是否有一些 r 函数或算法可以检测编码区和非编码区并将它们分开分组?
也许在ncbi网站上有办法做到这一点?
编辑:至少有人能解释一下为什么我被否决了吗?
也许这篇 post 对您有用 Extracting the last n characters from a string in R。
考虑一下,我将使用 R 做什么(尽管我相信其他人可以提出更优化的替代方案)是:
首先用所有外显子特征的开始和结束坐标创建两个数据帧,另一个用内含子创建,然后在调整代码之前应用函数 stri_sub 或你可以在 post 中看到的任何其他函数.然后只需一个 for 循环就可以完成遍历数据帧上的位置的技巧,而不是手动完成。
或者如果可以从 UCSC 或 ENSEMBL biomart 网站下载此序列,则另一个选项是:
A. 从 UCSC,使用 table 浏览器首先下载一个包含内含子、外显子 and/or UTR 坐标的床文件,然后使用 bedtools getfasta 函数获取 fasta 序列。
b) 在ENSEMBLE biomart中可以直接获取外显子和UTRs fasta序列。
我得到了鸟枪基因组序列,可以在这里找到:
https://www.ncbi.nlm.nih.gov/nuccore/NZ_LRPF01000001
这个序列由 205,000 个字母组成。其中一些是 CDS(编码序列),但大多数是非编码的,因此并不重要。
例如第一个编码区是条目343到780,然后第二个是937到1866,这显然意味着从1到342还有非编码区,然后是781到936等等
我被要求对这个序列进行一些分析,我想要一个由编码序列组成的 fasta 文件和另一个由非编码序列组成的文件。
我知道如何在 R 中手动将此文件切割成两个向量,但有 187 个编码区域需要手动定位并正确切割。是否有一些 r 函数或算法可以检测编码区和非编码区并将它们分开分组?
也许在ncbi网站上有办法做到这一点?
编辑:至少有人能解释一下为什么我被否决了吗?
也许这篇 post 对您有用 Extracting the last n characters from a string in R。
考虑一下,我将使用 R 做什么(尽管我相信其他人可以提出更优化的替代方案)是: 首先用所有外显子特征的开始和结束坐标创建两个数据帧,另一个用内含子创建,然后在调整代码之前应用函数 stri_sub 或你可以在 post 中看到的任何其他函数.然后只需一个 for 循环就可以完成遍历数据帧上的位置的技巧,而不是手动完成。
或者如果可以从 UCSC 或 ENSEMBL biomart 网站下载此序列,则另一个选项是: A. 从 UCSC,使用 table 浏览器首先下载一个包含内含子、外显子 and/or UTR 坐标的床文件,然后使用 bedtools getfasta 函数获取 fasta 序列。 b) 在ENSEMBLE biomart中可以直接获取外显子和UTRs fasta序列。