Scraper：区分有意义的文本和无意义的项目，hadoop

Question

我正在尝试在 Apache Nutch 中构建爬虫和抓取工具，以查找包含讨论特定单词主题的部分的所有页面（例如 "election"、"elections"、"vote", 等等).

我抓取后，Nutch 会清除 HTML 中的停用词和标签，但不会删除菜单语音（在网站的每个页面中都有）。所以当你寻找所有关于选举的页面时，你可能会检索到整个网站，因为它的菜单中有单词 "elections"，因此在每个页面中都有。

我想知道是否存在分析网站的多个页面以了解页面的主要模板是什么的技术。有用的论文 and/or implementations/libraries.

我正在考虑创建某种 hadoop 作业来分析多个页面之间的相似性以提取模板。但是同一个网站可以有多个模板，所以很难想出有效的方法。

例如

网页第 1 页：

MENU HOME VOTE ELECTION NEWS

meaningful text... elections ....

网页 2：

MENU HOME VOTE ELECTION NEWS

meaningful text... talking about swimming pools ....

Answer 1

您没有提到您使用的是 Nutch (1.x/2.x) 的哪个分支，但目前我可以想到几个方法：

看看 NUTCH-585 如果您没有抓取许多不同的网站并且您可以指定要从索引内容中排除的 HTML 内容节点，这将很有帮助。

如果您使用不同的站点并且之前的方法不可行，请查看 NUTCH-961，它使用 Apache Tika 中的样板功能来猜测您的 HTML 内容中哪些文本很重要.这个库使用了一些算法并提供了几个提取器，你可以尝试一下，看看什么对你有用。根据我的经验，我在新闻网站上遇到过一些问题，这些网站有很多评论，一些评论最终被单独与主要文章内容编入索引，但这毕竟是一个小问题。无论如何，这种方法在很多情况下都能很好地工作。

您还可以查看 NUTCH-1870，它允许您指定 XPath 表达式以将网页的某些特定部分提取为单独的字段，在 Solr 中将其与正确的提升参数一起使用可以提高您的精度。

Scraper：区分有意义的文本和无意义的项目，hadoop

Scraper: distinguishing meaningful text from meaningless items, hadoop

html

hadoop

mapreduce

nutch

web-scraping