Nutch 2.x:将信息从一个网页传递到另一个网页以使用 elasticsearch 进行索引
Nutch 2.x: Passing information from one WebPage to another for indexing with elasticsearch
我正在使用 Nutch 2.x 抓取一个域,其中每个 html 页面都有一个 link 到 pdf 文档。
- 对于每个 html 页面,我使用一个插件来提取信息并将其添加到元数据中。
- 对于每个 pdf 文档,tika 解析器都会提取文本。
我想做的是将从html页面中提取的数据和相应pdf文档的文本结合起来,并用elasticsearch对所有这些内容进行索引。
我想在通过访问相应 html 页面的网页来解析或索引 pdf 时执行此操作,但我找不到执行此操作的方法。
这可行吗?如果没有,我将不胜感激任何建议。
谢谢!
我在使用 Nutch 1.x(但使用图像)时遇到过类似的问题,我的方法基本上是编写一个自定义 ScoringFilter
,从 HTMl 中获取信息,并且将其分发到外链的 CrawlDatum
(在我的例子中,仅适用于指向图像的外链)。
在 Nutch 2.x 中有些不同,但我认为可以在 ScoringFilter
的 distributeScoreToOutlinks
方法中完成类似的事情。在这种情况下,您无权访问外链的 WebPage
对象,但您可以访问 ScoreDatum
对象。
我正在使用 Nutch 2.x 抓取一个域,其中每个 html 页面都有一个 link 到 pdf 文档。
- 对于每个 html 页面,我使用一个插件来提取信息并将其添加到元数据中。
- 对于每个 pdf 文档,tika 解析器都会提取文本。
我想做的是将从html页面中提取的数据和相应pdf文档的文本结合起来,并用elasticsearch对所有这些内容进行索引。
我想在通过访问相应 html 页面的网页来解析或索引 pdf 时执行此操作,但我找不到执行此操作的方法。
这可行吗?如果没有,我将不胜感激任何建议。
谢谢!
我在使用 Nutch 1.x(但使用图像)时遇到过类似的问题,我的方法基本上是编写一个自定义 ScoringFilter
,从 HTMl 中获取信息,并且将其分发到外链的 CrawlDatum
(在我的例子中,仅适用于指向图像的外链)。
在 Nutch 2.x 中有些不同,但我认为可以在 ScoringFilter
的 distributeScoreToOutlinks
方法中完成类似的事情。在这种情况下,您无权访问外链的 WebPage
对象,但您可以访问 ScoreDatum
对象。