Apache Nutch 在限制后刷新 gora 记录
Apache Nutch flushes gora record after limit
我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有更改 gora.buffer.read.limit
和 gora.buffer.read.limit
,即在这两种情况下都使用它们的默认值 10000。在生成阶段,我将 topN 设置为 100,000。在生成作业期间,我得到以下信息
org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records
工作完成后,我发现有 100,000 个 url 被标记为已提取,我想成为。但我很困惑上面的警告显示了什么? gora.buffer.read.limit 对我的抓取有何影响?
有人可以指导吗?
那个日志写的是here。默认情况下,缓冲区在写入 10000 条记录后刷新,因此您必须在某处配置 gora.buffer.write.limit
到 60000
(在 core-site.xml
或 mapred-site.xml
或代码?)。
这并不重要,因为它处于 INFO 级别。它只通知写入缓冲区将要写入存储。
每次调用 store.flush()
或 gora.buffer.write.limit
大小的批次时都会发生写入过程。
我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有更改 gora.buffer.read.limit
和 gora.buffer.read.limit
,即在这两种情况下都使用它们的默认值 10000。在生成阶段,我将 topN 设置为 100,000。在生成作业期间,我得到以下信息
org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records
工作完成后,我发现有 100,000 个 url 被标记为已提取,我想成为。但我很困惑上面的警告显示了什么? gora.buffer.read.limit 对我的抓取有何影响? 有人可以指导吗?
那个日志写的是here。默认情况下,缓冲区在写入 10000 条记录后刷新,因此您必须在某处配置 gora.buffer.write.limit
到 60000
(在 core-site.xml
或 mapred-site.xml
或代码?)。
这并不重要,因为它处于 INFO 级别。它只通知写入缓冲区将要写入存储。
每次调用 store.flush()
或 gora.buffer.write.limit
大小的批次时都会发生写入过程。