在 Solr 中索引纯文本文件
Indexing plain text files in Solr
无法找到结构良好的正确手册以及如何在 Solr (.txt) 中对纯文本进行索引的信息。
我明白了如何使用 Solr 标准数据类型,如 .xml 或 .json,但直到现在还没有至少一本结构化和完整描述的纯文本索引手册(特别是如果您的文件不包含 ID,并且只有单词和空格)。
期待收到一些可以帮助我解决这个问题的资源或一些有助于解决这个问题的代码示例。
您应该仍然可以使用 extract
端点(它在后台使用 Apache Tika)。您可以提供字段值 through the query string as seen in the example for the techproducts data set:
/solr/techproducts/update/extract?literal.id=doc1&commit=true
literal.id=doc1
参数给出了无法从提交的数据集中提取的字段的实际值。
确保 set the Content-Type
header to text/plain
when you're submitting(除非您提交为常规 html 表单上传)。
无法找到结构良好的正确手册以及如何在 Solr (.txt) 中对纯文本进行索引的信息。
我明白了如何使用 Solr 标准数据类型,如 .xml 或 .json,但直到现在还没有至少一本结构化和完整描述的纯文本索引手册(特别是如果您的文件不包含 ID,并且只有单词和空格)。
期待收到一些可以帮助我解决这个问题的资源或一些有助于解决这个问题的代码示例。
您应该仍然可以使用 extract
端点(它在后台使用 Apache Tika)。您可以提供字段值 through the query string as seen in the example for the techproducts data set:
/solr/techproducts/update/extract?literal.id=doc1&commit=true
literal.id=doc1
参数给出了无法从提交的数据集中提取的字段的实际值。
确保 set the Content-Type
header to text/plain
when you're submitting(除非您提交为常规 html 表单上传)。