nutch 没有在 solr 中索引特定的 teg
nutch not indexing specifig teg in solr
我正在使用提取器 plug-in。
https://github.com/BayanGroup/nutch-custom-search
我按照 github 上提到的步骤进行操作。
这是我的配置:
1) extractors.xml
标题" />
2) nutch-site.xml
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(text|html|metatags|msexcel|msword|mspowerpoint|pdf)|extractor|scoring-opic|index-(basic|anchor|more|metadata)|query-(basic|site|url|lang)|urlnormalizer-(pass|regex|basic)</value>
</property>
3) added field in schema.xml of solr and nutch <field name="aakashtitle" type="string" stored="true" indexed="true" multiValued="true"/>
4)I added plugin in parse-plugins.xml
I am not getting any error but my data is not indexing in solr??
please help . and thanks!
我快速查看了 GH 存储库,因为代码实际上像正常工作一样 ParseFilter
您应该能够使用 parsechecker
命令检查数据是否正确提取:
$ bin/nutch parsechecker <URL>
这应该输出 Nutch 提取的常用数据(内容类型、签名、url)和 ParseData
(状态、标题、外链等)以及从插入。
您也可以使用 indexchecker
命令:
$ bin/nutch indexchecker <URL>
这将输出将由活动索引插件 (Solr/ES) 索引的实际字段。
我正在使用提取器 plug-in。 https://github.com/BayanGroup/nutch-custom-search 我按照 github 上提到的步骤进行操作。 这是我的配置: 1) extractors.xml 标题" />
2) nutch-site.xml
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(text|html|metatags|msexcel|msword|mspowerpoint|pdf)|extractor|scoring-opic|index-(basic|anchor|more|metadata)|query-(basic|site|url|lang)|urlnormalizer-(pass|regex|basic)</value>
</property>
3) added field in schema.xml of solr and nutch <field name="aakashtitle" type="string" stored="true" indexed="true" multiValued="true"/>
4)I added plugin in parse-plugins.xml
I am not getting any error but my data is not indexing in solr??
please help . and thanks!
我快速查看了 GH 存储库,因为代码实际上像正常工作一样 ParseFilter
您应该能够使用 parsechecker
命令检查数据是否正确提取:
$ bin/nutch parsechecker <URL>
这应该输出 Nutch 提取的常用数据(内容类型、签名、url)和 ParseData
(状态、标题、外链等)以及从插入。
您也可以使用 indexchecker
命令:
$ bin/nutch indexchecker <URL>
这将输出将由活动索引插件 (Solr/ES) 索引的实际字段。