我怎样才能消除fasta文件中的重复序列

Question

我正在尝试使用已发布的所有序列来构建数据库细菌类型，以使用 bowtie2 进行映射来计算我对该数据库的读取覆盖率，为此，我将从 ncbi 下载的所有基因组序列合并为一个 fasta_library（我在 fasta 文件中合并了 74 个文件），问题是在这个 fasta 文件（我创建的库）中我有很多重复的序列，这在很大程度上影响了覆盖范围，所以我'我问是否有任何方法可以消除我的 Library_File 中的重复，或者是否有任何方法可以在没有重复的情况下合并序列，或者是否有任何其他方法可以计算我的读取对参考序列的覆盖率

希望我说得够清楚了，有什么不清楚的地方请告诉我。

Answer 1

如果您可以控制您的设置，那么您可以在您的 FASTA 文件中安装 seqkit 和运行以下内容：

$ seqkit rmdup -s < in.fa > out.fa

如果您有多个文件，您可以将它们连接起来并作为标准输入输入：

$ seqkit rmdup -s < <(cat inA.fa ... inN.fa) > out.fa

rmdup选项删除重复项，-s选项根据顺序调用重复项，忽略header中的差异。我不确定输出中保留了哪个 header，但这可能是需要考虑的问题。

要避免 third-party 依赖关系并了解如何删除重复项，可以使用 awk.

思路是将所有FASTA记录一条一条读入一个关联数组（或散列table，也称为"dictionary"中的一个Python)，仅当序列不在数组中时。

例如，从 single-line FASTA 文件开始 in.fa 如下所示：

>test1
ATAT
>test2
CGCG
>test3
ATAT
>test4
GCCT

我们可以删除重复项，保留第一个 header，像这样：

$ awk 'BEGIN {i = 1;} { if ( ~ /^>/) { tmp = h[i]; h[i] = ; } else if (!a[]) { s[i] = ; a[] = "1"; i++; } else { h[i] = tmp; } } END { for (j = 1; j < i; j++) { print h[j]; print s[j]; } }' < in.fa > out.fa
$ cat out.fa
>test1
ATAT
>test2
CGCG
>test4
GCCT

如果需要修改，需要稍微了解一下awk。这种方法还取决于您的 FASTA 文件的结构（一行或多行记录序列等），尽管通常很容易将 FASTA 文件修改为上述结构（每行一行 header和顺序）。

任何哈希 table 方法也使用相当多的内存（我想 seqkit 可能对这个特定任务做出相同的妥协，但我没有查看源代码）。对于非常大的 FASTA 文件，这可能是个问题。

如果您有可以安装软件的本地环境，使用 seqkit 可能更好。如果你有一个 IT-locked-down 设置，那么 awk 也可以完成这个任务，因为它与大多数 Unix 一起开箱即用。

我怎样才能消除fasta文件中的重复序列

How can i eliminate duplicated sequences in fasta file

bioinformatics

biological-neural-network

biopython