nutch 没有在 solr 中索引特定的 teg

nutch not indexing specifig teg in solr

我正在使用提取器 plug-in。 https://github.com/BayanGroup/nutch-custom-search 我按照 github 上提到的步骤进行操作。 这是我的配置: 1) extractors.xml 标题" />

2) nutch-site.xml
<property>
  <name>plugin.includes</name>
  <value>protocol-http|urlfilter-regex|parse-(text|html|metatags|msexcel|msword|mspowerpoint|pdf)|extractor|scoring-opic|index-(basic|anchor|more|metadata)|query-(basic|site|url|lang)|urlnormalizer-(pass|regex|basic)</value>
</property>
3)  added field in schema.xml of solr and nutch   <field name="aakashtitle" type="string" stored="true" indexed="true" multiValued="true"/>
4)I added plugin in parse-plugins.xml
I am not getting any error but my data is not indexing in solr??
please help . and thanks!

我快速查看了 GH 存储库,因为代码实际上像正常工作一样 ParseFilter 您应该能够使用 parsechecker 命令检查数据是否正确提取:

$ bin/nutch parsechecker <URL>

这应该输出 Nutch 提取的常用数据(内容类型、签名、url)和 ParseData(状态、标题、外链等)以及从插入。

您也可以使用 indexchecker 命令:

$ bin/nutch indexchecker <URL>

这将输出将由活动索引插件 (Solr/ES) 索引的实际字段。