Apache Tika 服务器 - 请求 Header 参数?

Apache Tika Server - Request Header Parameters?

Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求 header 参数,如 X-Tika-PDFOcrStrategy。例如:

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

从许多关于 tika 的不同文档中,我发现这些记录了额外的 header 参数:

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但是似乎没有文档说明如何使用 X-Tika-.....? header 参数或支持哪些参数,哪些不支持。

例如,我想知道是否可以用类似的东西覆盖 ImageType 模式或 DPI:

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是:支持哪些 header 参数,这些参数遵循哪些命名约定?

处理 X-Tika-OCRX-Tika-PDF header 的代码是 TikaResource.processHeaderConfig

那些 header 后缀和值然后通过反射映射到 TesseractOCRConfig and PDFParserConfig 配置 objects。

因此,要查看您可以设置哪些 X-Tika header,请查看要调整的配置 class 上的选项 (Tesseract or PDF) ,然后建名,然后设置header。如果您不确定该选项的作用或它采用的值,请查看 JavaDocs 以了解将被调用的基础 setter 方法。

例如 setExtractInlineImages 在 PDF 上映射到 X-Tika-PDFextractInlineImages