使用 nutch 只解析需要的数据

parse only required data using nutch

我已经构建了 nutch 爬虫来抓取新闻网站,但问题是我正在从我不想要的特定网站获取所有数据,我的问题是如何配置 nutch 以仅解析我想要的数据

虽然这不是一个很好的问题,但让我们试着介绍一下背景。首先,你需要定义什么是你想要的数据,这通常意味着:

  • 抓取特定 URL。
  • 提取页面 HTML 中的特定数据(例如特定段落、标题等)

对于特定的 URL 情况,您有 URLFilters 应该允许您排除任何您想要的 URL。在这种情况下,因为您只提到了 1 个网站,所以这应该可行。

对于第二种情况,可以看看这3个方案: