Solr:索引 fb2 文件
Solr: indexing fb2 files
我想使用 Solr 为一些图书馆编制索引,这些图书馆代表 fb2 格式的书籍。
事实上fb2只是xml,类似xsd format。
但是,post.jar 会忽略 *.fb2 文件,我不明白如何将 fb2 文件中的值映射到索引字段,例如:
<book-title>some book</book-title>
...到索引中的 "book-title" 字段。
我应该创建一个插件还是其他东西?
您应该查看 Solr 数据导入处理程序 (DIH)。
在 Solr 示例文件夹中,您有一个 RSS 导入示例。如果查看 rss-data-config.xml 文件,您将看到它们如何使用 XPathEntityProcessor 从 XML 映射到 Solr 字段,例如:
这里有更多信息:http://www.andornot.com/blog/post/Sample-Solr-DataImportHandler-for-XML-Files.aspx
我过去也编写过 Tika 解析器来处理特定的文件格式。
https://lucidworks.com/blog/2010/06/18/extending-apache-tika-capabilities/
为了获得更大的灵活性,您可以使用自己喜欢的编程语言读取文件,然后使用 API 将数据发送到 Solr。我们不得不为最近的应用程序执行此操作,因为 DIH 不够灵活,无法实现我们想要实现的目标。
我想使用 Solr 为一些图书馆编制索引,这些图书馆代表 fb2 格式的书籍。 事实上fb2只是xml,类似xsd format。 但是,post.jar 会忽略 *.fb2 文件,我不明白如何将 fb2 文件中的值映射到索引字段,例如:
<book-title>some book</book-title>
...到索引中的 "book-title" 字段。 我应该创建一个插件还是其他东西?
您应该查看 Solr 数据导入处理程序 (DIH)。
在 Solr 示例文件夹中,您有一个 RSS 导入示例。如果查看 rss-data-config.xml 文件,您将看到它们如何使用 XPathEntityProcessor 从 XML 映射到 Solr 字段,例如:
这里有更多信息:http://www.andornot.com/blog/post/Sample-Solr-DataImportHandler-for-XML-Files.aspx
我过去也编写过 Tika 解析器来处理特定的文件格式。
https://lucidworks.com/blog/2010/06/18/extending-apache-tika-capabilities/
为了获得更大的灵活性,您可以使用自己喜欢的编程语言读取文件,然后使用 API 将数据发送到 Solr。我们不得不为最近的应用程序执行此操作,因为 DIH 不够灵活,无法实现我们想要实现的目标。