从 tika-server 获取 hocr 输出
getting hocr output from tika-server
我正在使用 Apache TIKA 服务器对 PDF 文件进行 OCR。
我对 hOCR 输出感兴趣,但只成功获得纯文本格式的输出。
在 wiki and the code 之后,我正在尝试使用 X-Tika-OCR...
HTTP headers 配置 Tesseract。在这种情况下,我使用的是 X-Tika-OCRoutputType: hocr
HTTP header,但我得到的是纯文本输出或没有 HOCR 标签的 html 输出。
我尝试了 /tika
和 /rmeta
端点。
我使用的curl
命令:
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/tika" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/rmeta" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
我还尝试将 Accept
header 设置为 text/plain、text/html text/xhtml 和 text/hocr。 None 有效。最后一个出错。
我正在使用:
- 阿帕奇蒂卡 1.22
- Tesseract 4.1.0-3.1.x86_64
- 红帽 7
通过检查 TikaResourceTest
的集成测试代码,我发现缺少 HTTP header。正确的命令应该包括 X-Tika-PDFOcrStrategy: ocr_only
HTTP header。在 ocr & pdf parser docs
中查看更多信息
因此命令为:
curl -v -X PUT \
--data-binary @file.pdf \
-H "Content-Type: application/pdf" \
-H "X-Tika-PDFOcrStrategy: ocr_only" \
-H "X-Tika-OCROutputType: hocr" \
"http://tika-server:8081/tika"
我正在使用 Apache TIKA 服务器对 PDF 文件进行 OCR。
我对 hOCR 输出感兴趣,但只成功获得纯文本格式的输出。
在 wiki and the code 之后,我正在尝试使用 X-Tika-OCR...
HTTP headers 配置 Tesseract。在这种情况下,我使用的是 X-Tika-OCRoutputType: hocr
HTTP header,但我得到的是纯文本输出或没有 HOCR 标签的 html 输出。
我尝试了 /tika
和 /rmeta
端点。
我使用的curl
命令:
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/tika" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/rmeta" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
我还尝试将 Accept
header 设置为 text/plain、text/html text/xhtml 和 text/hocr。 None 有效。最后一个出错。
我正在使用:
- 阿帕奇蒂卡 1.22
- Tesseract 4.1.0-3.1.x86_64
- 红帽 7
通过检查 TikaResourceTest
的集成测试代码,我发现缺少 HTTP header。正确的命令应该包括 X-Tika-PDFOcrStrategy: ocr_only
HTTP header。在 ocr & pdf parser docs
因此命令为:
curl -v -X PUT \
--data-binary @file.pdf \
-H "Content-Type: application/pdf" \
-H "X-Tika-PDFOcrStrategy: ocr_only" \
-H "X-Tika-OCROutputType: hocr" \
"http://tika-server:8081/tika"