在 Solr/lucene 中索引结构化数据集 XML 个文档
Indexing structured dataset XML documents in Solr/lucene
我正在尝试使用 Solr 为 XML 文档的小型数据集编制索引,
在此处示例 xml:
<?xml version='1.0' encoding='utf-8'?>
<doc xmin = 0, xmax = 9.233174603174604>
<title>John speech</title>
<description>shjshksjcjslkclsjk </description>
<uploaded_time>03/14/2010 08:44 PM</uploaded_time>
<likes>84906</likes>
<tier name="words">
<trans xmin="0.0" xmax="0.8325873015873018">silent</trans>
<trans xmin="0.8325873015873018" xmax="1.9564232192938984">Hi</trans>
<trans xmin="1.9564232192938984" xmax="3.874938884654082">I</trans>
<trans xmin="3.874938884654082" xmax="4.940780920965295">am</trans>
<trans xmin="4.940780920965295" xmax="6.495133890585815">John</trans>
:
:
</tier>
<doc>
这种类型的嵌套 xml 标签可以被 Solr 索引吗?
我用 solrconfig.xml! and this xml-data-config.xml 尝试了 DataImportHandler! (不确定其正确性仍然不清楚如何处理嵌套 xml 特别是对于未确定的层长度)
但是尝试进行数据导入时,我收到:
Indexing ...
Requests: 0 , Fetched: 0 , Skipped: 0 , Processed: 0
虽然我的小数据集只包含几个短文件,但它保存了很长时间。
我错过了什么??
我的配置文件中有很多错误。
主要问题是我必须使用 "XPathEntityProcessor" 作为 xml 文件数据源实体的处理器,而不是 TikaEntityProcessor。
对于未确定长度的字段,如 "trans",将添加 multiValued="true"
即使在我将 DateFormatTransformer 添加到实体后,上传时间也需要采用 ISO-8601 格式。
我正在尝试使用 Solr 为 XML 文档的小型数据集编制索引, 在此处示例 xml:
<?xml version='1.0' encoding='utf-8'?>
<doc xmin = 0, xmax = 9.233174603174604>
<title>John speech</title>
<description>shjshksjcjslkclsjk </description>
<uploaded_time>03/14/2010 08:44 PM</uploaded_time>
<likes>84906</likes>
<tier name="words">
<trans xmin="0.0" xmax="0.8325873015873018">silent</trans>
<trans xmin="0.8325873015873018" xmax="1.9564232192938984">Hi</trans>
<trans xmin="1.9564232192938984" xmax="3.874938884654082">I</trans>
<trans xmin="3.874938884654082" xmax="4.940780920965295">am</trans>
<trans xmin="4.940780920965295" xmax="6.495133890585815">John</trans>
:
:
</tier>
<doc>
这种类型的嵌套 xml 标签可以被 Solr 索引吗? 我用 solrconfig.xml! and this xml-data-config.xml 尝试了 DataImportHandler! (不确定其正确性仍然不清楚如何处理嵌套 xml 特别是对于未确定的层长度)
但是尝试进行数据导入时,我收到:
Indexing ... Requests: 0 , Fetched: 0 , Skipped: 0 , Processed: 0
虽然我的小数据集只包含几个短文件,但它保存了很长时间。
我错过了什么??
我的配置文件中有很多错误。 主要问题是我必须使用 "XPathEntityProcessor" 作为 xml 文件数据源实体的处理器,而不是 TikaEntityProcessor。 对于未确定长度的字段,如 "trans",将添加 multiValued="true" 即使在我将 DateFormatTransformer 添加到实体后,上传时间也需要采用 ISO-8601 格式。