PHP 中大文件的分段 bzcompression

Question

在 PHP 中创建 bzip2 归档数据非常容易，这要归功于它在 bzcompress 中的实现。在我目前的应用程序中，我完全不能简单地将输入文件读入一个字符串，然后调用 bzcompress 或 bzwrite。 PHP 文档没有明确说明使用相对少量的数据连续调用 bzwrite 是否会产生与一次性压缩整个文件时相同的结果。我的意思是

$data = file_get_contents('/path/to/bigfile');
$cdata = bzcompress($data);

我尝试使用下面显示的例程进行零碎的 bzcompression

function makeBZFile($infile,$outfile)
{
 $fp = fopen($infile,'r');
 $bz = bzopen($outfile,'w');
 while (!feof($fp))     
 {
  $bytes = fread($fp,10240);
  bzwrite($bz,$bytes);
 }
 bzclose($bz);
 fclose($fp);
}

function unmakeBZFile($infile,$outfile)
{
 $bz = bzopen($infile,'r');
 while (!feof($bz))
 {
  $str = bzread($bz,10240);
  file_put_contents($outfile,$str,FILE_APPEND);
 }
}

set_time_limit(1200);
makeBZFile('/tmp/test.rnd','/tmp/test.bz');
unmakeBZFile('/tmp/test.bz','/tmp/btest.rnd');

为了测试这段代码，我做了两件事

我使用 makeBZFile 和 unmakeBZFile 压缩然后解压缩 SQLite 数据库 - 这是我最终需要做的。
我创建了一个 50Mb 的随机数据 dd if=/dev/urandom of='/tmp.test.rnd bs=50M count=1

在这两种情况下，我都执行了 diff original.file decompressed.file 并发现两者是相同的。

一切都很好，但我不清楚为什么会这样。 PHP 文档声明 bzread(bzpointer,length) 读取最大 length 字节的 UNCOMPRESSED 数据。如果我下面的代码正在运行，那是因为我将 bzwite 和 bzread 大小强制为 10240 字节。

我看不到的是 bzread 如何知道如何获取 lenth 字节的 UNCOMPRESSED 数据。我查看了 format of a bzip2 file。我看不到那里有任何东西可以帮助轻松确定 .bz 文件块的未压缩数据长度。

我怀疑我对它的工作原理的理解存在差距 - 或者我下面的代码似乎执行了正确的分段压缩纯属偶然。

我非常感谢这里的一些解释。

Answer 1

要了解解压缩如何获得字节长度，您必须先了解压缩。看来你对压缩算法一无所知。

BZIP2

BZIP2 的关键算法是 Burrows Wheeler transformation (BWT)，它将原始数据转换为适合后续编码的形式。当前版本应用 Huffman code。压缩算法处理完全独立于每个块的块中的数据。块大小可以设置在 1-9（100,000 - 900,000 字节）的范围内。

BZIP2 数据结构

压缩字符串的前两个字符以字母'BZ'开头，其后1个字节供算法使用。此后立即识别块大小，对整个文件有效（h1、h2、h3 到 h9）。该参数表示块大小，单位为 1-9（100,000 - 900,000 字节）。

实际原始数据根据所选大小存储在块中，并将使用 CRC32 校验和单独保护。另外一个 48 位标识符引入每个块。这种块结构允许部分重建损坏的文件。

GZIP/BZIP

Gzip 和 bzip2 在功能上是等价的。 GZIP 的一个优点是它可以压缩一个流，一个您无法回头看的序列。这使它成为 http 流的官方压缩器。 GZZIP DEFLATE RFC 1951 Compressed Data Format Specification 和 GUNZIP RFC 1952 File Format Specification 是已发布的文档。

PHP 中大文件的分段 bzcompression

Piecemeal bzcompression for large files in PHP

php

large-files

bzip2

BZIP2

BZIP2 数据结构

GZIP/BZIP

GIP 解释