在 Solr/lucene 中索引结构化数据集 XML 个文档

Indexing structured dataset XML documents in Solr/lucene

我正在尝试使用 Solr 为 XML 文档的小型数据集编制索引, 在此处示例 xml:

<?xml version='1.0' encoding='utf-8'?>
<doc xmin = 0, xmax = 9.233174603174604>     
<title>John speech</title>
<description>shjshksjcjslkclsjk </description>
<uploaded_time>03/14/2010 08:44 PM</uploaded_time>
<likes>84906</likes>
<tier name="words">
<trans   xmin="0.0"  xmax="0.8325873015873018">silent</trans>
<trans   xmin="0.8325873015873018"   xmax="1.9564232192938984">Hi</trans>
<trans   xmin="1.9564232192938984"   xmax="3.874938884654082">I</trans>
<trans   xmin="3.874938884654082"    xmax="4.940780920965295">am</trans>
<trans   xmin="4.940780920965295"    xmax="6.495133890585815">John</trans>
:
:
</tier>
<doc>

这种类型的嵌套 xml 标签可以被 Solr 索引吗? 我用 solrconfig.xml! and this xml-data-config.xml 尝试了 DataImportHandler! (不确定其正确性仍然不清楚如何处理嵌套 xml 特别是对于未确定的层长度)

但是尝试进行数据导入时,我收到:

Indexing ... Requests: 0 , Fetched: 0 , Skipped: 0 , Processed: 0

虽然我的小数据集只包含几个短文件,但它保存了很长时间。

我错过了什么??

我的配置文件中有很多错误。 主要问题是我必须使用 "XPathEntityProcessor" 作为 xml 文件数据源实体的处理器,而不是 TikaEntityProcessor。 对于未确定长度的字段,如 "trans",将添加 multiValued="true" 即使在我将 DateFormatTransformer 添加到实体后,上传时间也需要采用 ISO-8601 格式。