PHP 中大文件的分段 bzcompression
Piecemeal bzcompression for large files in PHP
在 PHP 中创建 bzip2 归档数据非常容易,这要归功于它在 bzcompress 中的实现。在我目前的应用程序中,我完全不能简单地将输入文件读入一个字符串,然后调用 bzcompress
或 bzwrite
。 PHP 文档没有明确说明使用相对少量的数据连续调用 bzwrite
是否会产生与一次性压缩整个文件时相同的结果。我的意思是
$data = file_get_contents('/path/to/bigfile');
$cdata = bzcompress($data);
我尝试使用下面显示的例程进行零碎的 bzcompression
function makeBZFile($infile,$outfile)
{
$fp = fopen($infile,'r');
$bz = bzopen($outfile,'w');
while (!feof($fp))
{
$bytes = fread($fp,10240);
bzwrite($bz,$bytes);
}
bzclose($bz);
fclose($fp);
}
function unmakeBZFile($infile,$outfile)
{
$bz = bzopen($infile,'r');
while (!feof($bz))
{
$str = bzread($bz,10240);
file_put_contents($outfile,$str,FILE_APPEND);
}
}
set_time_limit(1200);
makeBZFile('/tmp/test.rnd','/tmp/test.bz');
unmakeBZFile('/tmp/test.bz','/tmp/btest.rnd');
为了测试这段代码,我做了两件事
- 我使用
makeBZFile
和 unmakeBZFile
压缩然后解压缩 SQLite 数据库 - 这是我最终需要做的。
- 我创建了一个 50Mb 的随机数据
dd if=/dev/urandom of='/tmp.test.rnd bs=50M count=1
在这两种情况下,我都执行了 diff original.file decompressed.file
并发现两者是相同的。
一切都很好,但我不清楚为什么会这样。 PHP 文档声明 bzread(bzpointer,length)
读取最大 length
字节的 UNCOMPRESSED 数据。如果我下面的代码正在运行,那是因为我将 bzwite
和 bzread
大小强制为 10240 字节。
我看不到的是 bzread
如何知道如何获取 lenth
字节的 UNCOMPRESSED 数据。我查看了 format of a bzip2 file。我看不到那里有任何东西可以帮助轻松确定 .bz 文件块的未压缩数据长度。
我怀疑我对它的工作原理的理解存在差距 - 或者我下面的代码似乎执行了正确的分段压缩纯属偶然。
我非常感谢这里的一些解释。
要了解解压缩如何获得字节长度,您必须先了解压缩。看来你对压缩算法一无所知。
BZIP2
BZIP2 的关键算法是 Burrows Wheeler transformation (BWT)
,它将原始数据转换为适合后续编码的形式。当前版本应用 Huffman code
。压缩算法处理完全独立于每个块的块中的数据。块大小可以设置在 1-9(100,000 - 900,000 字节)的范围内。
BZIP2 数据结构
压缩字符串的前两个字符以字母'BZ'开头,其后1个字节供算法使用。此后立即识别块大小,对整个文件有效(h1
、h2
、h3
到 h9
)。该参数表示块大小,单位为 1-9(100,000 - 900,000 字节)。
实际原始数据根据所选大小存储在块中,并将使用 CRC32 校验和单独保护。另外一个 48 位标识符引入每个块。这种块结构允许部分重建损坏的文件。
GZIP/BZIP
Gzip 和 bzip2 在功能上是等价的。 GZIP 的一个优点是它可以压缩一个流,一个您无法回头看的序列。这使它成为 http 流的官方压缩器。 GZZIP DEFLATE RFC 1951 Compressed Data Format Specification 和 GUNZIP RFC 1952 File Format Specification 是已发布的文档。
GIP 解释
在 PHP 中创建 bzip2 归档数据非常容易,这要归功于它在 bzcompress 中的实现。在我目前的应用程序中,我完全不能简单地将输入文件读入一个字符串,然后调用 bzcompress
或 bzwrite
。 PHP 文档没有明确说明使用相对少量的数据连续调用 bzwrite
是否会产生与一次性压缩整个文件时相同的结果。我的意思是
$data = file_get_contents('/path/to/bigfile');
$cdata = bzcompress($data);
我尝试使用下面显示的例程进行零碎的 bzcompression
function makeBZFile($infile,$outfile)
{
$fp = fopen($infile,'r');
$bz = bzopen($outfile,'w');
while (!feof($fp))
{
$bytes = fread($fp,10240);
bzwrite($bz,$bytes);
}
bzclose($bz);
fclose($fp);
}
function unmakeBZFile($infile,$outfile)
{
$bz = bzopen($infile,'r');
while (!feof($bz))
{
$str = bzread($bz,10240);
file_put_contents($outfile,$str,FILE_APPEND);
}
}
set_time_limit(1200);
makeBZFile('/tmp/test.rnd','/tmp/test.bz');
unmakeBZFile('/tmp/test.bz','/tmp/btest.rnd');
为了测试这段代码,我做了两件事
- 我使用
makeBZFile
和unmakeBZFile
压缩然后解压缩 SQLite 数据库 - 这是我最终需要做的。 - 我创建了一个 50Mb 的随机数据
dd if=/dev/urandom of='/tmp.test.rnd bs=50M count=1
在这两种情况下,我都执行了 diff original.file decompressed.file
并发现两者是相同的。
一切都很好,但我不清楚为什么会这样。 PHP 文档声明 bzread(bzpointer,length)
读取最大 length
字节的 UNCOMPRESSED 数据。如果我下面的代码正在运行,那是因为我将 bzwite
和 bzread
大小强制为 10240 字节。
我看不到的是 bzread
如何知道如何获取 lenth
字节的 UNCOMPRESSED 数据。我查看了 format of a bzip2 file。我看不到那里有任何东西可以帮助轻松确定 .bz 文件块的未压缩数据长度。
我怀疑我对它的工作原理的理解存在差距 - 或者我下面的代码似乎执行了正确的分段压缩纯属偶然。
我非常感谢这里的一些解释。
要了解解压缩如何获得字节长度,您必须先了解压缩。看来你对压缩算法一无所知。
BZIP2
BZIP2 的关键算法是 Burrows Wheeler transformation (BWT)
,它将原始数据转换为适合后续编码的形式。当前版本应用 Huffman code
。压缩算法处理完全独立于每个块的块中的数据。块大小可以设置在 1-9(100,000 - 900,000 字节)的范围内。
BZIP2 数据结构
压缩字符串的前两个字符以字母'BZ'开头,其后1个字节供算法使用。此后立即识别块大小,对整个文件有效(h1
、h2
、h3
到 h9
)。该参数表示块大小,单位为 1-9(100,000 - 900,000 字节)。
实际原始数据根据所选大小存储在块中,并将使用 CRC32 校验和单独保护。另外一个 48 位标识符引入每个块。这种块结构允许部分重建损坏的文件。
GZIP/BZIP
Gzip 和 bzip2 在功能上是等价的。 GZIP 的一个优点是它可以压缩一个流,一个您无法回头看的序列。这使它成为 http 流的官方压缩器。 GZZIP DEFLATE RFC 1951 Compressed Data Format Specification 和 GUNZIP RFC 1952 File Format Specification 是已发布的文档。