使用 iter_chunks() 从 S3 解压缩字节块

Ungzipping chunks of bytes from from S3 using iter_chunks()

我在使用 boto3 中的 iter_chunks() 方法解压缩从 S3 读取的字节块时遇到问题。逐块解压缩文件的策略源自this issue.

代码如下:

dec = zlib.decompressobj(32 + zlib.MAX_WBITS)
for chunk in app.s3_client.get_object(Bucket=bucket, Key=key)["Body"].iter_chunks(2 ** 19):
    data = dec.decompress(chunk)
    print(len(chunk), len(data))

# 524288 65505
# 524288 0
# 524288 0
# ...

此代码最初打印出 65505 的值,随后在每次后续迭代中打印出 0。我的理解是这段代码应该解压缩每个压缩块,然后打印未压缩版本的长度。

有什么我遗漏的吗?

您的输入文件似乎是块 gzip (bgzip http://www.htslib.org/doc/bgzip.html ),因为您解码了 65k 数据块。

GZip 文件可以连接在一起(参见 https://www.gnu.org/software/gzip/manual/gzip.html#Advanced-usage),Block GZip 使用它来连接同一文件的块,因此通过使用关联索引,只有包含感兴趣信息的特定块必须已解码。

因此,要对一个块 gzip 文件进行流式解码,您需要使用一个块中的剩余数据来开始一个新块。例如

# source is a block gzip file see http://www.htslib.org/doc/bgzip.html
dec = zlib.decompressobj(32+zlib.MAX_WBITS)
for chunk in raw:
    # decompress this chunk of data
    data = dec.decompress(chunk)
    # bgzip is a concatenation of gzip files
    # if there is stuff in this chunk beyond the current block
    # it needs to be processed
    while len(dec.unused_data):
        # end of one block
        leftovers = dec.unused_data
        # create a new decompressor
        dec = zlib.decompressobj(32+zlib.MAX_WBITS)
        #decompress the leftovers
        data = data+dec.decompress(leftovers)
    # TODO handle data