pdfbox中的PDFDebugger锁定查看页面内容流
PDFDebugger in pdfbox locks up viewing page content stream
我有一个奇怪的 PDF,它似乎将图像数据直接编码到内容流中,而不是作为资源隐藏起来(资源中有图像,但由于某种原因它们实际上不在页面中)。实际页面的内容长度非常大(107,988,275)。
它正在杀死我们的服务器,所以我想我应该打开 PDFDebugger 看看内容流中有什么。当我打开 PDF 并导航到内容流时,它就完全锁定了。我尝试增加堆大小 (4g),但似乎没有帮助。
有没有办法只查看流的头部?我真的很想知道这里面有什么。有没有办法将图像数据直接编码到页面的内容流中?
正如 Tilman 在评论中建议的那样,您可以通过将 PDPage.getContents() 给出的 InputStream 写入文件来查看内容流。
我有一个奇怪的 PDF,它似乎将图像数据直接编码到内容流中,而不是作为资源隐藏起来(资源中有图像,但由于某种原因它们实际上不在页面中)。实际页面的内容长度非常大(107,988,275)。
它正在杀死我们的服务器,所以我想我应该打开 PDFDebugger 看看内容流中有什么。当我打开 PDF 并导航到内容流时,它就完全锁定了。我尝试增加堆大小 (4g),但似乎没有帮助。
有没有办法只查看流的头部?我真的很想知道这里面有什么。有没有办法将图像数据直接编码到页面的内容流中?
正如 Tilman 在评论中建议的那样,您可以通过将 PDPage.getContents() 给出的 InputStream 写入文件来查看内容流。