pdfbox中的PDFDebugger锁定查看页面内容流

PDFDebugger in pdfbox locks up viewing page content stream

我有一个奇怪的 PDF，它似乎将图像数据直接编码到内容流中，而不是作为资源隐藏起来（资源中有图像，但由于某种原因它们实际上不在页面中）。实际页面的内容长度非常大（107,988,275）。

它正在杀死我们的服务器，所以我想我应该打开 PDFDebugger 看看内容流中有什么。当我打开 PDF 并导航到内容流时，它就完全锁定了。我尝试增加堆大小 (4g)，但似乎没有帮助。

有没有办法只查看流的头部？我真的很想知道这里面有什么。有没有办法将图像数据直接编码到页面的内容流中？

正如 Tilman 在评论中建议的那样，您可以通过将 PDPage.getContents() 给出的 InputStream 写入文件来查看内容流。