解压缩后的文件比 .gz 大得多 (60x)
Files when unzipped are much larger (60x) than .gz
我使用以下方法从 1000genomes 网站下载了 1000 个基因组 .vcf 文件:
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz
我尝试使用 gzip 解压缩这些文件,但它们解压缩后的大小比原始文件大得多。例如,第一个文件(1 号染色体)压缩后为 1.1gb,但扩展到 65.78gb。
考虑到可能是 gzip 的问题,我尝试了另外两种方法。一种是直接在.gz文件上运行注释工具snpEff,另一种是使用zcat解压文件。然而,在这两种情况下,文件大小都同样巨大。
我假设这不对,但不知道为什么会这样。有没有人经历过类似的事情?
我检查了1号染色体文件,没问题。我想所有其他人也是如此。是的,高度冗余的数据可以压缩那么多。它仅被压缩 60:1,其中 gzip 能够压缩多达 1032:1。
为了建立索引,流被分成单独的 64K 未压缩数据 gzip 片段。 (关联的 "tbi" 文件包含每个片段在大 gzip 文件中的位置。)如果他们只是将其压缩为单个流,或者索引点相距较远,它将压缩大约 68:1.
我使用以下方法从 1000genomes 网站下载了 1000 个基因组 .vcf 文件:
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502//*.gz
我尝试使用 gzip 解压缩这些文件,但它们解压缩后的大小比原始文件大得多。例如,第一个文件(1 号染色体)压缩后为 1.1gb,但扩展到 65.78gb。
考虑到可能是 gzip 的问题,我尝试了另外两种方法。一种是直接在.gz文件上运行注释工具snpEff,另一种是使用zcat解压文件。然而,在这两种情况下,文件大小都同样巨大。
我假设这不对,但不知道为什么会这样。有没有人经历过类似的事情?
我检查了1号染色体文件,没问题。我想所有其他人也是如此。是的,高度冗余的数据可以压缩那么多。它仅被压缩 60:1,其中 gzip 能够压缩多达 1032:1。
为了建立索引,流被分成单独的 64K 未压缩数据 gzip 片段。 (关联的 "tbi" 文件包含每个片段在大 gzip 文件中的位置。)如果他们只是将其压缩为单个流,或者索引点相距较远,它将压缩大约 68:1.