在 Solr 中索引纯文本文件

Indexing plain text files in Solr

无法找到结构良好的正确手册以及如何在 Solr (.txt) 中对纯文本进行索引的信息。

我明白了如何使用 Solr 标准数据类型,如 .xml 或 .json,但直到现在还没有至少一本结构化和完整描述的纯文本索引手册(特别是如果您的文件不包含 ID,并且只有单词和空格)。

期待收到一些可以帮助我解决这个问题的资源或一些有助于解决这个问题的代码示例。

您应该仍然可以使用 extract 端点(它在后台使用 Apache Tika)。您可以提供字段值 through the query string as seen in the example for the techproducts data set:

/solr/techproducts/update/extract?literal.id=doc1&commit=true

literal.id=doc1 参数给出了无法从提交的数据集中提取的字段的实际值。

确保 set the Content-Type header to text/plain when you're submitting(除非您提交为常规 html 表单上传)。