在 SOLR 中使用 TIKA 索引 URL 指向 pdf

Indexing URL pointing to pdf using TIKA in SOLR

我有一个要求,即传入的更新请求具有 "link":"htp://example.pdf" 之类的元数据(以及其他一些元数据),我必须解析 PDF 文档并将其编入另一个字段中像 "link_value":"PDF extracted contents"。在使用 tika 的 SOLR 中这可能吗?

注意:我无法使用数据导入处理程序,因为传入请求不是来自单一来源,而是通过外部来源完成的

您可以在使用 ExtractingRequestHandlermap content to a specific field and supply specific field values(如果您自己使用 Tika,您会将内容作为常规文档字段包含在内)。

要将内容映射到不同的字段,请使用 fmap: fmap.content=link_value,并包含文字值(即您正在索引的文档的 URL),使用 literal: literal.link=http://example.com/test.pdf(根据需要应用 URL 转义)。

那么,如果我理解正确的话:

  • 您正在接到一些 /update 电话以添加一些文档
  • 文档包含一个 'link' 字段,您要检索该字段,使用 Tika 提取文本,并索引到另一个字段

是的,您可以在 Solr 中执行此操作,但您需要做一些工作:

  1. 设置一个 UpdateRequestProcessor,你可以开始 TikaLanguageIdentifierUpdateProcessorFactory 因为它也使用 Tika,也许你可以重用一些东西
  2. 你连接你的 URP 以便它被 /update 处理程序使用
  3. 每次添加文档时,URP 都会启动
  4. 在 URP 代码中,您:检索 pdf,使用 Tika 以编程方式提取文本,并将其添加到目标字段