如何处理大pdf?

How to deal with large pdf?

我正在尝试使用此代码从大型 pdf 中提取文本(我的文件来自 azure 上的一个 blob,pdf 占用 7.3mb,它有 140 页,它们都是图像)并且它总是到达超时。

os.environ['TIKA_SERVER_ENDPOINT'] = 'http://0.0.0.0:9998/'

headers = {
    "X-Tika-OCRLanguage": "eng+nor",
    "X-Tika-PDFextractInlineImages": "true",  # run OCR against inline images
}

data = parser.from_buffer(
    buffer.readall(),
    xmlContent=True, 
    requestOptions={
        "headers": headers, 
        "timeout": 3600
   }
)

我在处理大文件时是否缺少任何header?

我使用 tika-server 运行 直接在 docker 图像上使用此命令:

docker run -d -p 9998:9998 apache/tika:1.28.2-full

感谢您的宝贵时间!

我想我已经设法解决了这个问题。我只需要更改 headers,目前它正在工作:

headers = {
    "X-Tika-OCRLanguage": "eng+nor",
    "X-Tika-PDFocrStrategy": "auto"
}