如何将 Nutch 2.3 数据转储到 WARC 文件中?
How to dump Nutch 2.3 data into WARC file?
我需要将 Nutch 2.3 中的数据转储到 WARC 文件中。但是,我找不到必要的模块。 Nutch 1.x 有这个能力。我想知道正确的做法。
正如您所说,目前 WARC 导出器模块尚未移植到 Nutch 的 2.x 分支,但是移植 https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/tools/warc/WARCExporter.java 模块应该不会那么难。作为一般规则,Nutch 的 1.x 分支仍然比 2.x 分支使用得更多,装备也更好(至少目前如此)。
我需要将 Nutch 2.3 中的数据转储到 WARC 文件中。但是,我找不到必要的模块。 Nutch 1.x 有这个能力。我想知道正确的做法。
正如您所说,目前 WARC 导出器模块尚未移植到 Nutch 的 2.x 分支,但是移植 https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/tools/warc/WARCExporter.java 模块应该不会那么难。作为一般规则,Nutch 的 1.x 分支仍然比 2.x 分支使用得更多,装备也更好(至少目前如此)。