将 Nutch 爬网中的数据转储到多个 warc 文件中
Dump data from a Nutch crawl into multiple warc files
我已经使用 Nutch 1.12 抓取了一个网站列表。我可以使用以下方法将抓取数据转储到单独的 HTML 文件中:
./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir
并使用以下方法将其放入单个 WARC 文件中:
./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment
但是如何将收集到的数据转储到多个 WARC 文件中,每个文件对应一个被抓取的网页?
每个文档有一个 WARC 听起来有点浪费,但现在开始吧:
您可以为 'warc.output.segment.size' 指定一个较低的值,以便每次写入新文档时文件都会旋转。 WarcExporter 在引擎盖下使用 [https://github.com/ept/warc-hadoop],配置在那里使用。
经过多次尝试,我设法发现
./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc
完全符合我的需要:将片段完整转储到单独的 WARC 文件中!
我已经使用 Nutch 1.12 抓取了一个网站列表。我可以使用以下方法将抓取数据转储到单独的 HTML 文件中:
./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir
并使用以下方法将其放入单个 WARC 文件中:
./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment
但是如何将收集到的数据转储到多个 WARC 文件中,每个文件对应一个被抓取的网页?
每个文档有一个 WARC 听起来有点浪费,但现在开始吧: 您可以为 'warc.output.segment.size' 指定一个较低的值,以便每次写入新文档时文件都会旋转。 WarcExporter 在引擎盖下使用 [https://github.com/ept/warc-hadoop],配置在那里使用。
经过多次尝试,我设法发现
./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc
完全符合我的需要:将片段完整转储到单独的 WARC 文件中!