为什么 FastQC 在使用 Trim galore 后无法正常工作?

Why is FastQC not working after using Trim galore?

我有一个 FASTQ 文件,我可以 运行 FASTQC 程序来分析该文件。但是当我使用 trim_galore 时,FASTQC(或 trim_galore 中的 FASTQC 选项)不再工作。

$ fastqc ./sub1_val_1.fq.gz 

这是输出:

Started analysis of sub1_val_1.fq.gz
Analysis complete for sub1_val_1.fq.gz
Failed to process file sub1_val_1.fq.gz
java.lang.ArrayIndexOutOfBoundsException: -1
    at uk.ac.babraham.FastQC.Modules.SequenceLengthDistribution.calculateDistribution(SequenceLengthDistribution.java:100)
    at uk.ac.babraham.FastQC.Modules.SequenceLengthDistribution.raisesError(SequenceLengthDistribution.java:184)
    at uk.ac.babraham.FastQC.Report.HTMLReportArchive.startDocument(HTMLReportArchive.java:336)
    at uk.ac.babraham.FastQC.Report.HTMLReportArchive.<init>(HTMLReportArchive.java:84)
    at uk.ac.babraham.FastQC.Analysis.OfflineRunner.analysisComplete(OfflineRunner.java:155)
    at uk.ac.babraham.FastQC.Analysis.AnalysisRunner.run(AnalysisRunner.java:110)
    at java.lang.Thread.run(Thread.java:695)

Failed to process file 是否因为 trim_galore 和 FastQC 之间的版本不正确而出错?

found this, but that wasn't that helpful.

我正在使用 FastQC v0.11.5 和 trim_galore v0.4.1。

我使用以下方法对文库进行了子集化(双端读取):

seqtk sample -s100 ./SRR2937435_1.fastq.gz 10000 | gzip  > sub1.fastq.gz
seqtk sample -s100 ./SRR2937435_2.fastq.gz 10000 | gzip > sub2.fastq.gz

sub1_val_1.fq.gz 文件是在将 sub1.fastq.gz 传递到 trim_galore 之后。 sub1.fastq.gz 的 FastQC 正在运行。


注意: 如在 biostars.org.

上发布的建议

我找到了答案: 你必须解压缩它。可能 trim_galore 仅适用于 tar.gz 而不是 fastq.gz。

gzip -d -k sub1.fastq.gz > sub1.fastq
y # to accept to overwrite
gzip -d -k sub2.fastq.gz > sub2.fastq
y # to accept to overwrite

trim_galore  --illumina --paired --fastqc sub1.fastq sub2.fastq