Nutch hadoop map reduce java heap space outOfMemory

我正在运行设置 Nutch 1.16、Hadoop 2.83、Solr 8.5.1 爬虫设置，运行设置好几百万个索引页面。然后我在 MapReduce 作业期间运行陷入 Java 堆 Space 问题，我似乎无法找到正确的堆 space 方法。我试过：

开始nutch crawl 时通过-D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m。
将 NUTCH_HOME/bin/crawl commonOptions mapred.child.java.opts 编辑为 -Xmx16000m
正在将 HADOOP_HOME/etc/hadoop/mapred-site.xml mapred.child.java.opts 设置为 -Xmx160000m -XX:+UseConcMarkSweepGC
正在将所述 mapred-site.xml 复制到我的 nutch/conf 文件夹中

None 这似乎改变了一切。我运行 into the same Heap Space 在爬取过程中的同一点错误。我已经尝试将提取器线程从 25 个减少到 12 个，并在提取时关闭解析。什么都没有改变，我没有想法。我有 64GB RAM，所以这真的不是问题。请帮助 ;)

编辑：将文件名固定为 mapred-site.xml

Passing -D ...

使用 "mapreduce.reduce.memory.mb" 和 "mapreduce.reduce.java.opts" 的 reduce 任务也需要设置堆 space。请注意，脚本 bin/crawl 最近在这方面得到了改进，请参阅 NUTCH-2501 and the recent bin/crawl script。

3./4. Setting/copying hadoop-site.xml

这个不应该设置在"mapred-site.xml"吗？

Nutch hadoop map reduce java heap space outOfMemory

Nutch hadoop map reduce java heap space outOfMemory

java

hadoop

mapreduce

nutch