更新一个旧的 Nutch 插件,以便能够在 Nutch 2.3.1 中使用 Xpath 解析

Update an old Nutch plugin to be able to use Xpath parsing in Nutch 2.3.1

我正在使用 apache Nutch 2.3.1 开发一个项目,我需要能够从下载的 html 页面中提取特定数据。我找到了一个插件 (parse-xml NUTCH-185) 可以帮助我实现这个目的,但它使用的一些库不再存在或已弃用,我打算做的是进行必要的更改以使其兼容使用 Nutch 2.3.1 在 Nutch 编译中给我一个错误的库是这些,你能帮我找到 Nutch 2.3.1 的等价物吗?

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.nutch.crawl.CrawlDatum;
import org.apache.nutch.crawl.Inlinks;
import org.apache.nutch.parse.ParseData;

Nutch 2.3.1 不是 Nutch 1.x 的下一个版本。 Nutch 在任何给定时间都有 2 个主要 "branches":Nutch 1.x/master/trunk 和 Nutch 2.x。 Nutch 2.x 与其兄弟非常不同。他们共享许多设计理念,但实现方式不同。简而言之,您找不到那些 类,因为它们在 Nutch 2.x 中不存在。

The org.apache.lucene.* are not implemented in Nutch, but used directly from the Apache Lucene library.

Nutch 2.x 与 Nutch 1.x 相比具有非常不同的体系结构。这意味着该插件的更新不仅仅是替换那些导入。您需要调整代码以适应新的体系结构。虽然插件的主要逻辑应该大致相同