将 Nutch 爬网中的数据转储到多个 warc 文件中

Question

我已经使用 Nutch 1.12 抓取了一个网站列表。我可以使用以下方法将抓取数据转储到单独的 HTML 文件中：

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir

并使用以下方法将其放入单个 WARC 文件中：

./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment

但是如何将收集到的数据转储到多个 WARC 文件中，每个文件对应一个被抓取的网页？

Answer 1

每个文档有一个 WARC 听起来有点浪费，但现在开始吧：您可以为 'warc.output.segment.size' 指定一个较低的值，以便每次写入新文档时文件都会旋转。 WarcExporter 在引擎盖下使用 [https://github.com/ept/warc-hadoop]，配置在那里使用。

Answer 2

经过多次尝试，我设法发现

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc

完全符合我的需要：将片段完整转储到单独的 WARC 文件中！

将 Nutch 爬网中的数据转储到多个 warc 文件中

Dump data from a Nutch crawl into multiple warc files

web-crawler

nutch

warc