Nutch hadoop map reduce java heap space outOfMemory

Nutch hadoop map reduce java heap space outOfMemory

我正在 运行设置 Nutch 1.16、Hadoop 2.83、Solr 8.5.1 爬虫设置,运行设置好几百万个索引页面。然后我在 MapReduce 作业期间 运行 陷入 Java 堆 Space 问题,我似乎无法找到正确的堆 space 方法。我试过:

  1. 开始nutch crawl 时通过-D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m
  2. 将 NUTCH_HOME/bin/crawl commonOptions mapred.child.java.opts 编辑为 -Xmx16000m
  3. 正在将 HADOOP_HOME/etc/hadoop/mapred-site.xml mapred.child.java.opts 设置为 -Xmx160000m -XX:+UseConcMarkSweepGC
  4. 正在将所述 mapred-site.xml 复制到我的 nutch/conf 文件夹中

None 这似乎改变了一切。我 运行 into the same Heap Space 在爬取过程中的同一点错误。我已经尝试将提取器线程从 25 个减少到 12 个,并在提取时关闭解析。什么都没有改变,我没有想法。我有 64GB RAM,所以这真的不是问题。请帮助 ;)

编辑:将文件名固定为 mapred-site.xml

  1. Passing -D ...

使用 "mapreduce.reduce.memory.mb" 和 "mapreduce.reduce.java.opts" 的 reduce 任务也需要设置堆 space。请注意,脚本 bin/crawl 最近在这方面得到了改进,请参阅 NUTCH-2501 and the recent bin/crawl script

3./4. Setting/copying hadoop-site.xml

这个不应该设置在"mapred-site.xml"吗?