在 Java 中读取 gzip 压缩的分块数据 HTTP 1.1
Reading gzipped chunked data HTTP 1.1 in Java
我正在尝试使用 gzip 数据 + 分块编码获取 HTTP 请求的正文。我使用的代码:
byte[] d; // *whole* request body
ByteArrayOutputStream b = new ByteArrayOutputStream();
int c = 0;
int p = 0;
int s = 0;
for(int i = 0; i < d.length; ++i) {
if (s == 0 && d[i] == '\r' && d[i + 1] == '\n') {
c = Integer.parseInt(new String(Arrays.copyOfRange(d, p+1, i)), 16);
if(c == 0) break;
b.write(Arrays.copyOfRange(d, i+2, i+2+c));
p = i + 1;
i += c + 1;
s = 1;
} else if (s == 1 && d[i] == '\r' && d[i + 1] == '\n') {
p = i + 1;
s = 0;
}
}
// here comes the part where I decompress b.toByteArray()
简而言之,程序读取块大小并将整个请求的一部分(从'\n'到'\n'+块大小)写入ByteArrayOutputStream b
并重复该过程直到块找到尺寸 0。
如果我尝试解压缩此类数据,我总是会收到一些损坏的数据警告,例如java.util.zip.ZipException: invalid distance too far back
.
有没有想过我可能做错了什么?
强制性序言:在专业环境中,我总是为此使用库。例如,参见 Apache HttpComponents,它可以为您处理(以及更多)。如果您不想要库,并且喜欢冒险,JRE 中有 sun.net.www.http.ChunkedInputStream
。
此外,在专业上下文中,最好使用描述性变量名称:)
无论如何,我看到一个错误:p
应该用-1
初始化,而不是0
。
似乎就这些了,因为通过这个修复我可以解码以下内容(礼貌 Wikipedia):
4\r\n
Wiki\r\n
5\r\n
pedia\r\n
E\r\n
in\r\n
\r\n
chunks.\r\n
0\r\n
\r\n
进入这个:
Wikipedia in
chunks.
(是的,这是预期的输出,请参阅维基百科页面)。
如果你把p
初始化为0
,那么你第一次需要用它来读取4
,你使用的是p+1
所以它指向在之后4
。
我知道我的示例没有压缩,但我的意思是错误出在读取第一个块大小的代码中,所以这应该无关紧要......运气好的话这将是唯一的错误.
我正在尝试使用 gzip 数据 + 分块编码获取 HTTP 请求的正文。我使用的代码:
byte[] d; // *whole* request body
ByteArrayOutputStream b = new ByteArrayOutputStream();
int c = 0;
int p = 0;
int s = 0;
for(int i = 0; i < d.length; ++i) {
if (s == 0 && d[i] == '\r' && d[i + 1] == '\n') {
c = Integer.parseInt(new String(Arrays.copyOfRange(d, p+1, i)), 16);
if(c == 0) break;
b.write(Arrays.copyOfRange(d, i+2, i+2+c));
p = i + 1;
i += c + 1;
s = 1;
} else if (s == 1 && d[i] == '\r' && d[i + 1] == '\n') {
p = i + 1;
s = 0;
}
}
// here comes the part where I decompress b.toByteArray()
简而言之,程序读取块大小并将整个请求的一部分(从'\n'到'\n'+块大小)写入ByteArrayOutputStream b
并重复该过程直到块找到尺寸 0。
如果我尝试解压缩此类数据,我总是会收到一些损坏的数据警告,例如java.util.zip.ZipException: invalid distance too far back
.
有没有想过我可能做错了什么?
强制性序言:在专业环境中,我总是为此使用库。例如,参见 Apache HttpComponents,它可以为您处理(以及更多)。如果您不想要库,并且喜欢冒险,JRE 中有 sun.net.www.http.ChunkedInputStream
。
此外,在专业上下文中,最好使用描述性变量名称:)
无论如何,我看到一个错误:p
应该用-1
初始化,而不是0
。
似乎就这些了,因为通过这个修复我可以解码以下内容(礼貌 Wikipedia):
4\r\n
Wiki\r\n
5\r\n
pedia\r\n
E\r\n
in\r\n
\r\n
chunks.\r\n
0\r\n
\r\n
进入这个:
Wikipedia in
chunks.
(是的,这是预期的输出,请参阅维基百科页面)。
如果你把p
初始化为0
,那么你第一次需要用它来读取4
,你使用的是p+1
所以它指向在之后4
。
我知道我的示例没有压缩,但我的意思是错误出在读取第一个块大小的代码中,所以这应该无关紧要......运气好的话这将是唯一的错误.