在 SOLR 中使用 TIKA 索引 URL 指向 pdf
Indexing URL pointing to pdf using TIKA in SOLR
我有一个要求,即传入的更新请求具有 "link":"htp://example.pdf" 之类的元数据(以及其他一些元数据),我必须解析 PDF 文档并将其编入另一个字段中像 "link_value":"PDF extracted contents"。在使用 tika 的 SOLR 中这可能吗?
注意:我无法使用数据导入处理程序,因为传入请求不是来自单一来源,而是通过外部来源完成的
您可以在使用 ExtractingRequestHandler
时 map content to a specific field and supply specific field values(如果您自己使用 Tika,您会将内容作为常规文档字段包含在内)。
要将内容映射到不同的字段,请使用 fmap
: fmap.content=link_value
,并包含文字值(即您正在索引的文档的 URL),使用 literal
: literal.link=http://example.com/test.pdf
(根据需要应用 URL 转义)。
那么,如果我理解正确的话:
- 您正在接到一些 /update 电话以添加一些文档
- 文档包含一个 'link' 字段,您要检索该字段,使用 Tika 提取文本,并索引到另一个字段
是的,您可以在 Solr 中执行此操作,但您需要做一些工作:
- 设置一个 UpdateRequestProcessor,你可以开始 TikaLanguageIdentifierUpdateProcessorFactory 因为它也使用 Tika,也许你可以重用一些东西
- 你连接你的 URP 以便它被 /update 处理程序使用
- 每次添加文档时,URP 都会启动
- 在 URP 代码中,您:检索 pdf,使用 Tika 以编程方式提取文本,并将其添加到目标字段
我有一个要求,即传入的更新请求具有 "link":"htp://example.pdf" 之类的元数据(以及其他一些元数据),我必须解析 PDF 文档并将其编入另一个字段中像 "link_value":"PDF extracted contents"。在使用 tika 的 SOLR 中这可能吗?
注意:我无法使用数据导入处理程序,因为传入请求不是来自单一来源,而是通过外部来源完成的
您可以在使用 ExtractingRequestHandler
时 map content to a specific field and supply specific field values(如果您自己使用 Tika,您会将内容作为常规文档字段包含在内)。
要将内容映射到不同的字段,请使用 fmap
: fmap.content=link_value
,并包含文字值(即您正在索引的文档的 URL),使用 literal
: literal.link=http://example.com/test.pdf
(根据需要应用 URL 转义)。
那么,如果我理解正确的话:
- 您正在接到一些 /update 电话以添加一些文档
- 文档包含一个 'link' 字段,您要检索该字段,使用 Tika 提取文本,并索引到另一个字段
是的,您可以在 Solr 中执行此操作,但您需要做一些工作:
- 设置一个 UpdateRequestProcessor,你可以开始 TikaLanguageIdentifierUpdateProcessorFactory 因为它也使用 Tika,也许你可以重用一些东西
- 你连接你的 URP 以便它被 /update 处理程序使用
- 每次添加文档时,URP 都会启动
- 在 URP 代码中,您:检索 pdf,使用 Tika 以编程方式提取文本,并将其添加到目标字段