在 Java 中读取 gzip 压缩的分块数据 HTTP 1.1

Question

我正在尝试使用 gzip 数据 + 分块编码获取 HTTP 请求的正文。我使用的代码：

byte[] d; // *whole* request body

ByteArrayOutputStream b = new ByteArrayOutputStream();

int c = 0;
int p = 0;

int s = 0;

for(int i = 0; i < d.length; ++i) {
    if (s == 0 && d[i] == '\r' && d[i + 1] == '\n') {
        c = Integer.parseInt(new String(Arrays.copyOfRange(d, p+1, i)), 16);

        if(c == 0) break;

        b.write(Arrays.copyOfRange(d, i+2, i+2+c));

        p = i + 1;
        i += c + 1;

        s = 1;
    } else if (s == 1 && d[i] == '\r' && d[i + 1] == '\n') {
        p = i + 1;
        s = 0;
    }
}

// here comes the part where I decompress  b.toByteArray()

简而言之，程序读取块大小并将整个请求的一部分（从'\n'到'\n'+块大小）写入ByteArrayOutputStream b并重复该过程直到块找到尺寸 0。

如果我尝试解压缩此类数据，我总是会收到一些损坏的数据警告，例如java.util.zip.ZipException: invalid distance too far back.

有没有想过我可能做错了什么？

Answer 1

强制性序言：在专业环境中，我总是为此使用库。例如，参见 Apache HttpComponents，它可以为您处理（以及更多）。如果您不想要库，并且喜欢冒险，JRE 中有 sun.net.www.http.ChunkedInputStream。

此外，在专业上下文中，最好使用描述性变量名称:)

无论如何，我看到一个错误：p应该用-1初始化，而不是0。

似乎就这些了，因为通过这个修复我可以解码以下内容（礼貌 Wikipedia）：

4\r\n
Wiki\r\n
5\r\n
pedia\r\n
E\r\n
 in\r\n
\r\n
chunks.\r\n
0\r\n
\r\n

进入这个：

Wikipedia in

chunks.

（是的，这是预期的输出，请参阅维基百科页面）。

如果你把p初始化为0，那么你第一次需要用它来读取4，你使用的是p+1所以它指向在之后4。

我知道我的示例没有压缩，但我的意思是错误出在读取第一个块大小的代码中，所以这应该无关紧要......运气好的话这将是唯一的错误.

在 Java 中读取 gzip 压缩的分块数据 HTTP 1.1

Reading gzipped chunked data HTTP 1.1 in Java

java

gzip

http

http-1.1

chunked-encoding