使用 HttpClient/MultipartEntity 流式传输上传
Streaming an upload with HttpClient/MultipartEntity
我现在有一个 Tomcat 实例可以上传并对数据进行一些处理。
我想用符合类似 API 的新 servlet 替换它。起初,我希望这个新的 servlet 将所有请求代理到旧的 servlet。它们 运行 在不同的 JVM 上,但在同一主机上。
我一直在尝试使用 HttpClient 来代理上传,但客户端似乎在代理请求之前等待流完成。对于大文件,这会导致 servlet 崩溃(我认为它正在缓冲内存中的所有内容)。
这是我目前使用的代码:
HttpPost httpPost = new HttpPost("http://localhost:8081/servlet");
String filePartName = request.getHeader("file_part_name");
_logger.info("Attaching file " + filePartName);
try {
Part filePart = request.getPart(filePartName);
MultipartEntity mpe = new MultipartEntity();
mpe.addPart(
filePartName,
new InputStreamBody(filePart.getInputStream(), filePartName)
);
httpPost.setEntity(mpe);
} catch (ServletException | IOException e) {
_logger.error("Caught exception trying to cross the streams, thanks Ghostbusters.", e);
throw new IllegalStateException("Could not proxy the request", e);
}
HttpResponse postResponse;
try {
postResponse = HTTP_CLIENT.execute(httpPost);
} catch (IOException e) {
_logger.error("Caught exception trying to cross the streams, thanks Ghostbusters.", e);
throw new IllegalStateException("Could not proxy the request", e);
}
我似乎无法弄清楚如何让 HttpClient/HttpPost 在数据传入时流式传输数据,而不是在第一次上传完成之前阻塞。有没有人做过类似的事情?有更简单的解决方案吗?
谢谢!
问题在于 Mime/Multiplart 框架(您用来处理 HTTPServletRequest 和访问文件部分的框架)处理您的请求的方式。
MIME/Multipart 请求的本质很简单(在高层次上),这些请求没有传统的键=值内容,而是具有更复杂的语法,允许它们携带任意的、非结构化的数据(要上传的文件)。
它基本上看起来像(取自维基百科):
Content-type: multipart/mixed; boundary="'''frontier'''"
This is a multi-part message in MIME format.
--'''frontier'''
Content-type: text/plain
This is the body of the message.
--'''frontier'''
Content-type: application/octet-stream
Content-Disposition: form-data; name="image1"
Content-transfer-encoding: base64
PGh0bWw+CiAgPGhlYWQ+CiAgPC9oZWFkPgogIDxib2R5PgogICAgPHA+VGhpcyBpcyB0aGUg
Ym9keSBvZiB0aGUgbWVzc2FnZS48L3A+CiAgPC9ib2R5Pgo8L2h0bWw+Cg==
--'''frontier'''--
需要注意的重要部分是部分(此处由边界 '''frontier'''
分隔)具有 "names"(通过 Content Disposition header),然后是内容。一个这样的请求可以有任意数量的部分。
当然,实现这种请求的解析最简单直接的方法是处理到最后,检测边界,并创建一个临时文件(或in-memory缓存)以保留每个部分,按名称标识。
看到框架不知道你首先需要哪一部分(你可能需要在你的 servlet 调用中的第二部分在第一部分之前),它解析整个流,然后,把控制权还给你。
因此您的电话在此线路被阻止
Part filePart = request.getPart(filePartName);
在这里,框架必须等待解析整个 MIME 部分,然后才能让您使用结果(即使是一个 rethorical,超级优化的解析器也不能既懒惰地解析流,又允许您随机访问任何部分消息,您必须在两个选项之间进行选择)。
所以你无能为力...
除此之外,不使用多部分解析器。如果您不熟悉 MIME(and/or MIME 库,例如 Apache James),也不相信您可以控制请求的结构,我不会推荐这个。
但如果你是,那么你可能会绕过框架处理,并访问请求的原始流。您将手动解析 MIME 结构,并在您到达请求 body 的开头时停止,并在此时开始构建您的 HTTP Post,注意实际处理 MIME 级别的技术细节(de-base64?de-gzip?,...)。
或者,如果您认为您的服务器因内存不足而崩溃,则很可能您的框架配置为在内存中缓存 multpart 的内容。但是如果有办法将其配置为缓存到磁盘,那么这是一个可能的解决方法。
我现在有一个 Tomcat 实例可以上传并对数据进行一些处理。
我想用符合类似 API 的新 servlet 替换它。起初,我希望这个新的 servlet 将所有请求代理到旧的 servlet。它们 运行 在不同的 JVM 上,但在同一主机上。
我一直在尝试使用 HttpClient 来代理上传,但客户端似乎在代理请求之前等待流完成。对于大文件,这会导致 servlet 崩溃(我认为它正在缓冲内存中的所有内容)。
这是我目前使用的代码:
HttpPost httpPost = new HttpPost("http://localhost:8081/servlet");
String filePartName = request.getHeader("file_part_name");
_logger.info("Attaching file " + filePartName);
try {
Part filePart = request.getPart(filePartName);
MultipartEntity mpe = new MultipartEntity();
mpe.addPart(
filePartName,
new InputStreamBody(filePart.getInputStream(), filePartName)
);
httpPost.setEntity(mpe);
} catch (ServletException | IOException e) {
_logger.error("Caught exception trying to cross the streams, thanks Ghostbusters.", e);
throw new IllegalStateException("Could not proxy the request", e);
}
HttpResponse postResponse;
try {
postResponse = HTTP_CLIENT.execute(httpPost);
} catch (IOException e) {
_logger.error("Caught exception trying to cross the streams, thanks Ghostbusters.", e);
throw new IllegalStateException("Could not proxy the request", e);
}
我似乎无法弄清楚如何让 HttpClient/HttpPost 在数据传入时流式传输数据,而不是在第一次上传完成之前阻塞。有没有人做过类似的事情?有更简单的解决方案吗?
谢谢!
问题在于 Mime/Multiplart 框架(您用来处理 HTTPServletRequest 和访问文件部分的框架)处理您的请求的方式。
MIME/Multipart 请求的本质很简单(在高层次上),这些请求没有传统的键=值内容,而是具有更复杂的语法,允许它们携带任意的、非结构化的数据(要上传的文件)。 它基本上看起来像(取自维基百科):
Content-type: multipart/mixed; boundary="'''frontier'''"
This is a multi-part message in MIME format.
--'''frontier'''
Content-type: text/plain
This is the body of the message.
--'''frontier'''
Content-type: application/octet-stream
Content-Disposition: form-data; name="image1"
Content-transfer-encoding: base64
PGh0bWw+CiAgPGhlYWQ+CiAgPC9oZWFkPgogIDxib2R5PgogICAgPHA+VGhpcyBpcyB0aGUg
Ym9keSBvZiB0aGUgbWVzc2FnZS48L3A+CiAgPC9ib2R5Pgo8L2h0bWw+Cg==
--'''frontier'''--
需要注意的重要部分是部分(此处由边界 '''frontier'''
分隔)具有 "names"(通过 Content Disposition header),然后是内容。一个这样的请求可以有任意数量的部分。
当然,实现这种请求的解析最简单直接的方法是处理到最后,检测边界,并创建一个临时文件(或in-memory缓存)以保留每个部分,按名称标识。
看到框架不知道你首先需要哪一部分(你可能需要在你的 servlet 调用中的第二部分在第一部分之前),它解析整个流,然后,把控制权还给你。
因此您的电话在此线路被阻止
Part filePart = request.getPart(filePartName);
在这里,框架必须等待解析整个 MIME 部分,然后才能让您使用结果(即使是一个 rethorical,超级优化的解析器也不能既懒惰地解析流,又允许您随机访问任何部分消息,您必须在两个选项之间进行选择)。
所以你无能为力...
除此之外,不使用多部分解析器。如果您不熟悉 MIME(and/or MIME 库,例如 Apache James),也不相信您可以控制请求的结构,我不会推荐这个。
但如果你是,那么你可能会绕过框架处理,并访问请求的原始流。您将手动解析 MIME 结构,并在您到达请求 body 的开头时停止,并在此时开始构建您的 HTTP Post,注意实际处理 MIME 级别的技术细节(de-base64?de-gzip?,...)。
或者,如果您认为您的服务器因内存不足而崩溃,则很可能您的框架配置为在内存中缓存 multpart 的内容。但是如果有办法将其配置为缓存到磁盘,那么这是一个可能的解决方法。