Apache Nutch 在限制后刷新 gora 记录

Question

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有更改 gora.buffer.read.limit 和 gora.buffer.read.limit，即在这两种情况下都使用它们的默认值 10000。在生成阶段，我将 topN 设置为 100,000。在生成作业期间，我得到以下信息

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

工作完成后，我发现有 100,000 个 url 被标记为已提取，我想成为。但我很困惑上面的警告显示了什么？ gora.buffer.read.limit 对我的抓取有何影响？有人可以指导吗？

Answer 1

那个日志写的是here。默认情况下，缓冲区在写入 10000 条记录后刷新，因此您必须在某处配置 gora.buffer.write.limit 到 60000（在 core-site.xml 或 mapred-site.xml 或代码？）。

这并不重要，因为它处于 INFO 级别。它只通知写入缓冲区将要写入存储。每次调用 store.flush() 或 gora.buffer.write.limit 大小的批次时都会发生写入过程。

Apache Nutch 在限制后刷新 gora 记录

Apache Nutch flushes gora record after limit

hadoop

hbase

nutch

gora

nutch2