Nutch hadoop map reduce java heap space outOfMemory
Nutch hadoop map reduce java heap space outOfMemory
我正在 运行设置 Nutch 1.16、Hadoop 2.83、Solr 8.5.1 爬虫设置,运行设置好几百万个索引页面。然后我在 MapReduce 作业期间 运行 陷入 Java 堆 Space 问题,我似乎无法找到正确的堆 space 方法。我试过:
- 开始nutch crawl 时通过
-D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m
。
- 将 NUTCH_HOME/bin/crawl commonOptions mapred.child.java.opts 编辑为
-Xmx16000m
- 正在将 HADOOP_HOME/etc/hadoop/mapred-site.xml mapred.child.java.opts 设置为
-Xmx160000m -XX:+UseConcMarkSweepGC
- 正在将所述 mapred-site.xml 复制到我的 nutch/conf 文件夹中
None 这似乎改变了一切。我 运行 into the same Heap Space 在爬取过程中的同一点错误。我已经尝试将提取器线程从 25 个减少到 12 个,并在提取时关闭解析。什么都没有改变,我没有想法。我有 64GB RAM,所以这真的不是问题。请帮助 ;)
编辑:将文件名固定为 mapred-site.xml
- Passing
-D ...
使用 "mapreduce.reduce.memory.mb" 和 "mapreduce.reduce.java.opts" 的 reduce 任务也需要设置堆 space。请注意,脚本 bin/crawl 最近在这方面得到了改进,请参阅 NUTCH-2501 and the recent bin/crawl script。
3./4. Setting/copying hadoop-site.xml
这个不应该设置在"mapred-site.xml"吗?
我正在 运行设置 Nutch 1.16、Hadoop 2.83、Solr 8.5.1 爬虫设置,运行设置好几百万个索引页面。然后我在 MapReduce 作业期间 运行 陷入 Java 堆 Space 问题,我似乎无法找到正确的堆 space 方法。我试过:
- 开始nutch crawl 时通过
-D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m
。 - 将 NUTCH_HOME/bin/crawl commonOptions mapred.child.java.opts 编辑为
-Xmx16000m
- 正在将 HADOOP_HOME/etc/hadoop/mapred-site.xml mapred.child.java.opts 设置为
-Xmx160000m -XX:+UseConcMarkSweepGC
- 正在将所述 mapred-site.xml 复制到我的 nutch/conf 文件夹中
None 这似乎改变了一切。我 运行 into the same Heap Space 在爬取过程中的同一点错误。我已经尝试将提取器线程从 25 个减少到 12 个,并在提取时关闭解析。什么都没有改变,我没有想法。我有 64GB RAM,所以这真的不是问题。请帮助 ;)
编辑:将文件名固定为 mapred-site.xml
- Passing
-D ...
使用 "mapreduce.reduce.memory.mb" 和 "mapreduce.reduce.java.opts" 的 reduce 任务也需要设置堆 space。请注意,脚本 bin/crawl 最近在这方面得到了改进,请参阅 NUTCH-2501 and the recent bin/crawl script。
3./4. Setting/copying hadoop-site.xml
这个不应该设置在"mapred-site.xml"吗?