在 Solr 中索引纯文本文件

Indexing plain text files in Solr

无法找到结构良好的正确手册以及如何在 Solr (.txt) 中对纯文本进行索引的信息。

我明白了如何使用 Solr 标准数据类型,如 .xml 或 .json,但直到现在还没有至少一本结构化和完整描述的纯文本索引手册(特别是如果您的文件不包含 ID,并且只有单词和空格)。


您应该仍然可以使用 extract 端点(它在后台使用 Apache Tika)。您可以提供字段值 through the query string as seen in the example for the techproducts data set:


literal.id=doc1 参数给出了无法从提交的数据集中提取的字段的实际值。

确保 set the Content-Type header to text/plain when you're submitting(除非您提交为常规 html 表单上传)。