Nutch 2.x:将信息从一个网页传递到另一个网页以使用 elasticsearch 进行索引

Nutch 2.x: Passing information from one WebPage to another for indexing with elasticsearch

我正在使用 Nutch 2.x 抓取一个域,其中每个 html 页面都有一个 link 到 pdf 文档。

  1. 对于每个 html 页面,我使用一个插件来提取信息并将其添加到元数据中。
  2. 对于每个 pdf 文档,tika 解析器都会提取文本。

我想做的是将从html页面中提取的数据和相应pdf文档的文本结合起来,并用elasticsearch对所有这些内容进行索引。

我想在通过访问相应 html 页面的网页来解析或索引 pdf 时执行此操作,但我找不到执行此操作的方法。

这可行吗?如果没有,我将不胜感激任何建议。

谢谢!

我在使用 Nutch 1.x(但使用图像)时遇到过类似的问题,我的方法基本上是编写一个自定义 ScoringFilter,从 HTMl 中获取信息,并且将其分发到外链的 CrawlDatum(在我的例子中,仅适用于指向图像的外链)。

在 Nutch 2.x 中有些不同,但我认为可以在 ScoringFilterdistributeScoreToOutlinks 方法中完成类似的事情。在这种情况下,您无权访问外链的 WebPage 对象,但您可以访问 ScoreDatum 对象。