Apache Tika 服务器 - 请求 Header 参数?
Apache Tika Server - Request Header Parameters?
Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求 header 参数,如 X-Tika-PDFOcrStrategy
。例如:
$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"
从许多关于 tika 的不同文档中,我发现这些记录了额外的 header 参数:
X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only | ocr_and_text_extraction
X-Tika-OCRoutputType: hocr
但是似乎没有文档说明如何使用 X-Tika-.....?
header 参数或支持哪些参数,哪些不支持。
例如,我想知道是否可以用类似的东西覆盖 ImageType 模式或 DPI:
X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100
我的问题是:支持哪些 header 参数,这些参数遵循哪些命名约定?
处理 X-Tika-OCR
和 X-Tika-PDF
header 的代码是 TikaResource.processHeaderConfig。
那些 header 后缀和值然后通过反射映射到 TesseractOCRConfig and PDFParserConfig 配置 objects。
因此,要查看您可以设置哪些 X-Tika
header,请查看要调整的配置 class 上的选项 (Tesseract or PDF) ,然后建名,然后设置header。如果您不确定该选项的作用或它采用的值,请查看 JavaDocs 以了解将被调用的基础 setter 方法。
例如 setExtractInlineImages 在 PDF 上映射到 X-Tika-PDFextractInlineImages
Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求 header 参数,如 X-Tika-PDFOcrStrategy
。例如:
$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"
从许多关于 tika 的不同文档中,我发现这些记录了额外的 header 参数:
X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only | ocr_and_text_extraction
X-Tika-OCRoutputType: hocr
但是似乎没有文档说明如何使用 X-Tika-.....?
header 参数或支持哪些参数,哪些不支持。
例如,我想知道是否可以用类似的东西覆盖 ImageType 模式或 DPI:
X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100
我的问题是:支持哪些 header 参数,这些参数遵循哪些命名约定?
处理 X-Tika-OCR
和 X-Tika-PDF
header 的代码是 TikaResource.processHeaderConfig。
那些 header 后缀和值然后通过反射映射到 TesseractOCRConfig and PDFParserConfig 配置 objects。
因此,要查看您可以设置哪些 X-Tika
header,请查看要调整的配置 class 上的选项 (Tesseract or PDF) ,然后建名,然后设置header。如果您不确定该选项的作用或它采用的值,请查看 JavaDocs 以了解将被调用的基础 setter 方法。
例如 setExtractInlineImages 在 PDF 上映射到 X-Tika-PDFextractInlineImages