Nutch 2.x：将信息从一个网页传递到另一个网页以使用 elasticsearch 进行索引

Nutch 2.x: Passing information from one WebPage to another for indexing with elasticsearch

我正在使用 Nutch 2.x 抓取一个域，其中每个 html 页面都有一个 link 到 pdf 文档。

我想做的是将从html页面中提取的数据和相应pdf文档的文本结合起来，并用elasticsearch对所有这些内容进行索引。

我想在通过访问相应 html 页面的网页来解析或索引 pdf 时执行此操作，但我找不到执行此操作的方法。

这可行吗？如果没有，我将不胜感激任何建议。

谢谢！

我在使用 Nutch 1.x（但使用图像）时遇到过类似的问题，我的方法基本上是编写一个自定义 ScoringFilter，从 HTMl 中获取信息，并且将其分发到外链的 CrawlDatum（在我的例子中，仅适用于指向图像的外链）。

在 Nutch 2.x 中有些不同，但我认为可以在 ScoringFilter 的 distributeScoreToOutlinks 方法中完成类似的事情。在这种情况下，您无权访问外链的 WebPage 对象，但您可以访问 ScoreDatum 对象。