如何将核苷酸的fasta文件切割成r中的编码区和非编码区

How to cut fasta file of nucleotides into coding and noncoding region in r

r
fasta

我得到了鸟枪基因组序列，可以在这里找到：

https://www.ncbi.nlm.nih.gov/nuccore/NZ_LRPF01000001

这个序列由 205,000 个字母组成。其中一些是 CDS（编码序列），但大多数是非编码的，因此并不重要。

例如第一个编码区是条目343到780，然后第二个是937到1866，这显然意味着从1到342还有非编码区，然后是781到936等等

我被要求对这个序列进行一些分析，我想要一个由编码序列组成的 fasta 文件和另一个由非编码序列组成的文件。

我知道如何在 R 中手动将此文件切割成两个向量，但有 187 个编码区域需要手动定位并正确切割。是否有一些 r 函数或算法可以检测编码区和非编码区并将它们分开分组？

也许在ncbi网站上有办法做到这一点？

编辑：至少有人能解释一下为什么我被否决了吗？

也许这篇 post 对您有用 Extracting the last n characters from a string in R。

考虑一下，我将使用 R 做什么（尽管我相信其他人可以提出更优化的替代方案）是：首先用所有外显子特征的开始和结束坐标创建两个数据帧，另一个用内含子创建，然后在调整代码之前应用函数 stri_sub 或你可以在 post 中看到的任何其他函数.然后只需一个 for 循环就可以完成遍历数据帧上的位置的技巧，而不是手动完成。

或者如果可以从 UCSC 或 ENSEMBL biomart 网站下载此序列，则另一个选项是： A. 从 UCSC，使用 table 浏览器首先下载一个包含内含子、外显子 and/or UTR 坐标的床文件，然后使用 bedtools getfasta 函数获取 fasta 序列。 b) 在ENSEMBLE biomart中可以直接获取外显子和UTRs fasta序列。