Apache Nutch 在限制后刷新 gora 记录

Apache Nutch flushes gora record after limit

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有更改 gora.buffer.read.limitgora.buffer.read.limit,即在这两种情况下都使用它们的默认值 10000。在生成阶段,我将 topN 设置为 100,000。在生成作业期间,我得到以下信息

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

工作完成后,我发现有 100,000 个 url 被标记为已提取,我想成为。但我很困惑上面的警告显示了什么? gora.buffer.read.limit 对我的抓取有何影响? 有人可以指导吗?

那个日志写的是here。默认情况下,缓冲区在写入 10000 条记录后刷新,因此您必须在某处配置 gora.buffer.write.limit60000(在 core-site.xmlmapred-site.xml 或代码?)。

这并不重要,因为它处于 INFO 级别。它只通知写入缓冲区将要写入存储。 每次调用 store.flush()gora.buffer.write.limit 大小的批次时都会发生写入过程。