是否有任何 Nutch 插件可以解析 html 正文？

Question

我正在使用 nutch 2.2.1 和 hbase 0.9 来存储数据，并使用 Apache Solr 来搜索它。这些是我的基本索引字段

<float name="boost">0.10625245</float>
<str name="digest">5ef9408b2c4692d2c8c7ed24c1b38863</str>
<str name="id">org.wikipedia.it:https/wiki/1767</str>    
<str name="title">1767 - Wikipedia</str>
<date name="tstamp">2017-12-21T17:00:30.293Z</date>
<str name="url">https://it.wikipedia.org/wiki/1767</str>

我想解析并存储 html- 已抓取网页的正文内容。我需要编写一个 Nutch 插件来实现它，还是有一些配置可以启用它？我在 Nutch 网站上找不到任何解决方案。

Answer 1

我会说您缺少内容字段。如果您查看 https://github.com/apache/nutch/blob/2.x/conf/solrindex-mapping.xml#L34，您会发现默认字段之一是 content。

使用 bin/nutch parsechecker 工具检查是否正在为您的 URL 提取内容。然后使用 bin/nutch indexchecker 测试索引器是否也在提取内容字段。最后，检查您的映射。

请记住，content 将是解析器提取的文本内容，而不是 raw HTML 内容。

是否有任何 Nutch 插件可以解析 html 正文？

Are there any Nutch plugins to parse html body?

solr

hbase

nutch

html-parsing

html-parser