如何处理大pdf？

Question

我正在尝试使用此代码从大型 pdf 中提取文本（我的文件来自 azure 上的一个 blob，pdf 占用 7.3mb，它有 140 页，它们都是图像）并且它总是到达超时。

os.environ['TIKA_SERVER_ENDPOINT'] = 'http://0.0.0.0:9998/'

headers = {
    "X-Tika-OCRLanguage": "eng+nor",
    "X-Tika-PDFextractInlineImages": "true",  # run OCR against inline images
}

data = parser.from_buffer(
    buffer.readall(),
    xmlContent=True, 
    requestOptions={
        "headers": headers, 
        "timeout": 3600
   }
)

我在处理大文件时是否缺少任何header？

我使用 tika-server 运行直接在 docker 图像上使用此命令：

docker run -d -p 9998:9998 apache/tika:1.28.2-full

感谢您的宝贵时间！

Answer 1

我想我已经设法解决了这个问题。我只需要更改 headers，目前它正在工作：

headers = {
    "X-Tika-OCRLanguage": "eng+nor",
    "X-Tika-PDFocrStrategy": "auto"
}

如何处理大pdf？

How to deal with large pdf?

python

apache-tika

tika-server

tika-python