是否有任何 Nutch 插件可以解析 html 正文?
Are there any Nutch plugins to parse html body?
我正在使用 nutch 2.2.1 和 hbase 0.9 来存储数据,并使用 Apache Solr 来搜索它。
这些是我的基本索引字段
<float name="boost">0.10625245</float>
<str name="digest">5ef9408b2c4692d2c8c7ed24c1b38863</str>
<str name="id">org.wikipedia.it:https/wiki/1767</str>
<str name="title">1767 - Wikipedia</str>
<date name="tstamp">2017-12-21T17:00:30.293Z</date>
<str name="url">https://it.wikipedia.org/wiki/1767</str>
我想解析并存储 html- 已抓取网页的正文内容。
我需要编写一个 Nutch 插件来实现它,还是有一些配置可以启用它?我在 Nutch 网站上找不到任何解决方案。
我会说您缺少内容字段。如果您查看 https://github.com/apache/nutch/blob/2.x/conf/solrindex-mapping.xml#L34,您会发现默认字段之一是 content
。
使用 bin/nutch parsechecker
工具检查是否正在为您的 URL 提取内容。然后使用 bin/nutch indexchecker
测试索引器是否也在提取内容字段。最后,检查您的映射。
请记住,content
将是解析器提取的文本内容,而不是 raw HTML 内容。
我正在使用 nutch 2.2.1 和 hbase 0.9 来存储数据,并使用 Apache Solr 来搜索它。 这些是我的基本索引字段
<float name="boost">0.10625245</float>
<str name="digest">5ef9408b2c4692d2c8c7ed24c1b38863</str>
<str name="id">org.wikipedia.it:https/wiki/1767</str>
<str name="title">1767 - Wikipedia</str>
<date name="tstamp">2017-12-21T17:00:30.293Z</date>
<str name="url">https://it.wikipedia.org/wiki/1767</str>
我想解析并存储 html- 已抓取网页的正文内容。 我需要编写一个 Nutch 插件来实现它,还是有一些配置可以启用它?我在 Nutch 网站上找不到任何解决方案。
我会说您缺少内容字段。如果您查看 https://github.com/apache/nutch/blob/2.x/conf/solrindex-mapping.xml#L34,您会发现默认字段之一是 content
。
使用 bin/nutch parsechecker
工具检查是否正在为您的 URL 提取内容。然后使用 bin/nutch indexchecker
测试索引器是否也在提取内容字段。最后,检查您的映射。
请记住,content
将是解析器提取的文本内容,而不是 raw HTML 内容。