将适配器序列添加到 fastq 文件的末尾
adding an adapter sequence to the end of a fastq file
我有一个很大的 fastq 文件,我想将序列 "TTAAGG" 添加到我文件中每个序列的末尾(第 2 行,然后每隔 4 行),同时仍然保持 fastq 文件格式.例如:
这是我开始的第一行:
@HWI-D00449:41:C2H8BACXX:5:1101:1219:2053 1:N:0:
GCAATATCCTTCAACTA
+
FFFHFHGFHAGGIIIII
我想打印出来:
@HWI-D00449:41:C2H8BACXX:5:1101:1219:2053 1:N:0:
GCAATATCCTTCAACTATTAAGG
+
FFFHFHGFHAGGIIIII
我想 sed 或 awk 会对此有好处,但我一直无法找到允许我保留 fastq 格式的解决方案。
我试过了:
awk 'NR%4==2 { print [=12=] "TTAAGG"}' < file_in.fastq > fileout_fastq
将 TTAAGG 添加到第二行,然后每四行添加一次,但同时删除了其他三行。
有没有人对我可以使用的命令行有任何建议,或者如果您知道当前可用的软件包可以执行此操作,请告诉我!
用 GNU sed 试试这个:
sed '2~4s/$/TTAAGG/' file
我有一个很大的 fastq 文件,我想将序列 "TTAAGG" 添加到我文件中每个序列的末尾(第 2 行,然后每隔 4 行),同时仍然保持 fastq 文件格式.例如: 这是我开始的第一行:
@HWI-D00449:41:C2H8BACXX:5:1101:1219:2053 1:N:0:
GCAATATCCTTCAACTA
+
FFFHFHGFHAGGIIIII
我想打印出来:
@HWI-D00449:41:C2H8BACXX:5:1101:1219:2053 1:N:0:
GCAATATCCTTCAACTATTAAGG
+
FFFHFHGFHAGGIIIII
我想 sed 或 awk 会对此有好处,但我一直无法找到允许我保留 fastq 格式的解决方案。
我试过了:
awk 'NR%4==2 { print [=12=] "TTAAGG"}' < file_in.fastq > fileout_fastq
将 TTAAGG 添加到第二行,然后每四行添加一次,但同时删除了其他三行。
有没有人对我可以使用的命令行有任何建议,或者如果您知道当前可用的软件包可以执行此操作,请告诉我!
用 GNU sed 试试这个:
sed '2~4s/$/TTAAGG/' file