如何在 Solr 6.4 中存储文档内容?

How to store documents content in Solr 6.4?

我正在尝试使用 Windows 版本的 post 索引文档,使用如下命令:

java -Dc=docs -Dauto=yes -Dc=docs -Ddata=files -Drecursive=yes -jar
post.jar C:\docs

我可以看到文档已正确编入索引,但我想存储提取的文本以使用突出显示。我添加到我的托管架构字段中,例如:

<field name="text" type="text_general" multiValued="true" indexed="true" stored="true"/>
<field name="source" type="text_general" multiValued="true" indexed="true" stored="true"/>
<field name="content" type="text_general" multiValued="true" indexed="true" stored="true"/>
<field name="content" type="strings"/>

但它不起作用,我无法在我的文档搜索内容中 return。如何存储从 doc、docx、pdf 文件中提取的文本并 return 它在我的查询中?

post.jar 将执行索引操作。因此,当您索引任何文档时(有一个选项可以设置为 true/false 以将内容存储在 schema.xml 文件中),您可以搜索其内容。

只有保存才能使用高亮

检查此 Link 以了解索引和搜索是如何完成的

bin/post(不确定 post.jar,但我也相信)会告诉您它确定每个文件的类型以及它提交给哪个处理程序。

例如,MSWord、PDF 等都将转到 /extract 处理程序,该处理程序使用 Tika 来提取内容。

然后,如果您在 solrconfig.xml 中查看 /extract 处理程序的定义,您将看到告诉您如何映射提取的内容的参数,其中包括字段的名称。然后,您可以存储这些字段并重新编制索引。