如何处理大pdf?
How to deal with large pdf?
我正在尝试使用此代码从大型 pdf 中提取文本(我的文件来自 azure 上的一个 blob,pdf 占用 7.3mb,它有 140 页,它们都是图像)并且它总是到达超时。
os.environ['TIKA_SERVER_ENDPOINT'] = 'http://0.0.0.0:9998/'
headers = {
"X-Tika-OCRLanguage": "eng+nor",
"X-Tika-PDFextractInlineImages": "true", # run OCR against inline images
}
data = parser.from_buffer(
buffer.readall(),
xmlContent=True,
requestOptions={
"headers": headers,
"timeout": 3600
}
)
我在处理大文件时是否缺少任何header?
我使用 tika-server 运行 直接在 docker 图像上使用此命令:
docker run -d -p 9998:9998 apache/tika:1.28.2-full
感谢您的宝贵时间!
我想我已经设法解决了这个问题。我只需要更改 headers,目前它正在工作:
headers = {
"X-Tika-OCRLanguage": "eng+nor",
"X-Tika-PDFocrStrategy": "auto"
}
我正在尝试使用此代码从大型 pdf 中提取文本(我的文件来自 azure 上的一个 blob,pdf 占用 7.3mb,它有 140 页,它们都是图像)并且它总是到达超时。
os.environ['TIKA_SERVER_ENDPOINT'] = 'http://0.0.0.0:9998/'
headers = {
"X-Tika-OCRLanguage": "eng+nor",
"X-Tika-PDFextractInlineImages": "true", # run OCR against inline images
}
data = parser.from_buffer(
buffer.readall(),
xmlContent=True,
requestOptions={
"headers": headers,
"timeout": 3600
}
)
我在处理大文件时是否缺少任何header?
我使用 tika-server 运行 直接在 docker 图像上使用此命令:
docker run -d -p 9998:9998 apache/tika:1.28.2-full
感谢您的宝贵时间!
我想我已经设法解决了这个问题。我只需要更改 headers,目前它正在工作:
headers = {
"X-Tika-OCRLanguage": "eng+nor",
"X-Tika-PDFocrStrategy": "auto"
}