在 SOLR 中使用 TIKA 索引 URL 指向 pdf

Indexing URL pointing to pdf using TIKA in SOLR

我有一个要求，即传入的更新请求具有 "link":"htp://example.pdf" 之类的元数据（以及其他一些元数据），我必须解析 PDF 文档并将其编入另一个字段中像 "link_value":"PDF extracted contents"。在使用 tika 的 SOLR 中这可能吗？

注意：我无法使用数据导入处理程序，因为传入请求不是来自单一来源，而是通过外部来源完成的

您可以在使用 ExtractingRequestHandler 时 map content to a specific field and supply specific field values（如果您自己使用 Tika，您会将内容作为常规文档字段包含在内）。

要将内容映射到不同的字段，请使用 fmap: fmap.content=link_value，并包含文字值（即您正在索引的文档的 URL），使用 literal: literal.link=http://example.com/test.pdf（根据需要应用 URL 转义）。

那么，如果我理解正确的话：

是的，您可以在 Solr 中执行此操作，但您需要做一些工作：

设置一个 UpdateRequestProcessor，你可以开始 TikaLanguageIdentifierUpdateProcessorFactory 因为它也使用 Tika，也许你可以重用一些东西
你连接你的 URP 以便它被 /update 处理程序使用
每次添加文档时，URP 都会启动
在 URP 代码中，您：检索 pdf，使用 Tika 以编程方式提取文本，并将其添加到目标字段