特定语言网站的 Apache Nutch 标题解析问题

Apache Nutch title parsing issue for Language specific websites

我已经使用 Hadoop 2.7.5 和 Hbase 0.98 配置了 apache Nutch 2.3.1。我必须抓取一些乌尔都语网站。我正在使用它的默认解析器，即 html，tika。一些文档在乌尔都语中有标题是可以的，但有些文档在乌尔都语中有标题并且它们的标题 1 即 h1 具有原始标题，例如bbc-page。同样，在某些情况下，元标记具有相关标题。是否有任何内置选项（解析器）可以处理此选项，以便它应该 select h1 作为标题（如果可用）。

或者如果我必须这样做，有什么可能的方法可以达到这个目的。

Nutch 将使用 title 标记（如果在 DOM 树 (https://github.com/apache/nutch/blob/bb2a7adddbc5c780151bb9957d68af52be7339ca/src/plugin/parse-tika/src/java/org/apache/nutch/parse/tika/DOMContentUtils.java#L251) 中找到）为此，您需要在解析器插件中编写自定义逻辑。但真正的问题是如何识别 "bad" title 标签？会是一些具体的内容（比如URL）。

在任何情况下，您都需要在解析器或索引插件中编写自己的插件（例如在某些情况下获取一个字段并将其复制到标题字段）。

特定语言网站的 Apache Nutch 标题解析问题

Apache Nutch title parsing issue for Language specific websites

parsing

nutch

apache-tika

nutch2