特定语言网站的 Apache Nutch 标题解析问题
Apache Nutch title parsing issue for Language specific websites
我已经使用 Hadoop 2.7.5 和 Hbase 0.98 配置了 apache Nutch 2.3.1。我必须抓取一些乌尔都语网站。我正在使用它的默认解析器,即 html,tika。一些文档在乌尔都语中有标题是可以的,但有些文档在乌尔都语中有标题并且它们的标题 1 即 h1 具有原始标题,例如bbc-page。同样,在某些情况下,元标记具有相关标题。是否有任何内置选项(解析器)可以处理此选项,以便它应该 select h1 作为标题(如果可用)。
或者如果我必须这样做,有什么可能的方法可以达到这个目的。
Nutch 将使用 title
标记(如果在 DOM 树 (https://github.com/apache/nutch/blob/bb2a7adddbc5c780151bb9957d68af52be7339ca/src/plugin/parse-tika/src/java/org/apache/nutch/parse/tika/DOMContentUtils.java#L251) 中找到)为此,您需要在解析器插件中编写自定义逻辑。但真正的问题是如何识别 "bad" title
标签?会是一些具体的内容(比如URL)。
在任何情况下,您都需要在解析器或索引插件中编写自己的插件(例如在某些情况下获取一个字段并将其复制到标题字段)。
我已经使用 Hadoop 2.7.5 和 Hbase 0.98 配置了 apache Nutch 2.3.1。我必须抓取一些乌尔都语网站。我正在使用它的默认解析器,即 html,tika。一些文档在乌尔都语中有标题是可以的,但有些文档在乌尔都语中有标题并且它们的标题 1 即 h1 具有原始标题,例如bbc-page。同样,在某些情况下,元标记具有相关标题。是否有任何内置选项(解析器)可以处理此选项,以便它应该 select h1 作为标题(如果可用)。
或者如果我必须这样做,有什么可能的方法可以达到这个目的。
Nutch 将使用 title
标记(如果在 DOM 树 (https://github.com/apache/nutch/blob/bb2a7adddbc5c780151bb9957d68af52be7339ca/src/plugin/parse-tika/src/java/org/apache/nutch/parse/tika/DOMContentUtils.java#L251) 中找到)为此,您需要在解析器插件中编写自定义逻辑。但真正的问题是如何识别 "bad" title
标签?会是一些具体的内容(比如URL)。
在任何情况下,您都需要在解析器或索引插件中编写自己的插件(例如在某些情况下获取一个字段并将其复制到标题字段)。