一起使用 bwa mem 和 umitools

Question

我正在尝试使用 bwa mem 将序列读取与 hg19 参考比对，但我的序列都有一个 UMI（唯一分子标识符）。我像这样使用 umitools:

umitools trim --end 5 input.fastq NNNNNN > output.fastq

然后将我的 UMI 序列正确地附加到 output.fastq 文件中的名称行，但是当使用 bwa mem 对齐时，我得到的错误是：

paired reads have different names: "someTitle:UMI_ATGCTC", "someTitle:UMI_CATTAT"

有没有办法同时使用 bwa mem 和 umitools 来避免这种情况发生？

Answer 1

所以这并没有完全回答问题，但已经很接近了。 umitools 不适用于配对的末端读取。我为解决这个问题所做的是 trim 关闭我的 UMI 序列（读取的每一侧 6bp），然后使用以下代码对齐：

sed -i~ '2~4s/^.\{6\}//' file

地址2~4表示"start on line 2, repeat each 4 lines"。

s表示替换，^匹配行首，.匹配任意字符，\{6\}指定长度（一个"quantifier"）。替换字符串为空 (//).

-i~ 替换原文件，留下文件名附加 ~ 的备份。

Using bwa mem and umitools together