纱线 - 为什么任务没有超出堆 space 但容器被杀死？

Question

如果 YARN 容器超出其堆大小设置，map 或 reduce 任务将失败，并出现类似于以下的错误：

2015-02-06 11:58:15,461 WARN org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Container [pid=10305,containerID=container_1423215865404_0002_01_000007] is running beyond physical memory limits. 
Current usage: 42.1 GB of 42 GB physical memory used; 42.9 GB of 168 GB virtual memory used. Killing container.
Dump of the process-tree for container_1423215865404_0002_01_000007 :
        |- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS) SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES) FULL_CMD_LINE
        |- 10310 10305 10305 10305 (java) 1265097 48324 46100516864 11028122 /usr/java/default/bin/java -server -XX:OnOutOfMemoryError=kill %p -Xms40960m -Xmx40960m -XX:MaxPermSize=128m -Dspark.sql.shuffle.partitions=20 -Djava.io.tmpdir=/data/yarn/datanode/nm-local-dir/usercache/admin/appcache/application_1423215865404_0002/container_1423215865404_0002_01_000007/tmp org.apache.spark.executor.CoarseGrainedExecutorBackend akka.tcp://sparkDriver@marx-61:56138/user/CoarseGrainedScheduler 6 marx-62 5
        |- 10305 28687 10305 10305 (bash) 0 0 9428992 318 /bin/bash -c /usr/java/default/bin/java -server -XX:OnOutOfMemoryError='kill %p' -Xms40960m -Xmx40960m  -XX:MaxPermSize=128m -Dspark.sql.shuffle.partitions=20 -Djava.io.tmpdir=/data/yarn/datanode/nm-local-dir/usercache/admin/appcache/application_1423215865404_0002/container_1423215865404_0002_01_000007/tmp org.apache.spark.executor.CoarseGrainedExecutorBackend akka.tcp://sparkDriver@marx-61:56138/user/CoarseGrainedScheduler 6 marx-62 5 1> /opt/hadoop/logs/userlogs/application_1423215865404_0002/container_1423215865404_0002_01_000007/stdout 2> /opt/hadoop/logs/userlogs/application_1423215865404_0002/container_1423215865404_0002_01_000007/stderr

有趣的是，所有阶段都完成了，只是在调用另存为序列文件时失败了。执行程序没有用完堆 space，想知道还有什么东西在用完它吗？

Answer 1

Spark 执行器一直被杀死，Spark 不断重试失败的阶段。对于 YARN 上的 Spark，如果 nodemanager 使用的内存超过 "spark.executor.memory" + "spark.yarn.executor.memoryOverhead" 的配置大小，它会终止 Spark executor。增加 "spark.yarn.executor.memoryOverhead" 以确保它涵盖执行程序堆外内存使用。

一些问题：

Answer 2

在这种情况下，您实际上是运行物理内存不足的容器：

当前使用情况：已使用 42.1 GB 的 42 GB 物理内存

虚拟内存不是限制因素。您必须增加容器的堆大小或增加 spark.yarn.executor.memoryOverhead 以在不必增加执行程序堆大小的情况下为 YARN 容器提供更多 space。

Answer 3

我遇到了与 OP 完全相同的问题，所有阶段都成功了，只有在保存和写入结果时，容器才会被杀死。

如果 java 堆内存超出，您会看到 OutOfMemory 异常，但是被杀死的容器与除 java 堆内存之外的所有内容相关，这可以与 memoryOverhead 或应用程序主内存相关。

在我的例子中，增加 spark.yarn.executor.memoryOverhead 或 spark.yarn.driver.memoryOverhead 没有帮助，因为可能是我的应用程序主机 (AM) 内存不足。在yarn-client模式下，增加AM内存的配置是spark.yarn.am.memory。对于 yarn-cluster 模式，它是驱动程序内存。这就是它对我有用的方式。

这是对我遇到的错误的引用：

Application application_1471843888557_0604 failed 2 times due to AM Container for appattempt_1471843888557_0604_000002 exited with exitCode: -104
For more detailed output, check application tracking page:http://master01.prod2.everstring.com:8088/cluster/app/application_1471843888557_0604Then, click on links to logs of each attempt.
Diagnostics: Container [pid=89920,containerID=container_e59_1471843888557_0604_02_000001] is running beyond physical memory limits. 
Current usage: 14.0 GB of 14 GB physical memory used; 16.0 GB of 29.4 GB virtual memory used. Killing container.

纱线 - 为什么任务没有超出堆 space 但容器被杀死？

Yarn - why doesn't task go out of heap space but container gets killed?

hadoop

hadoop-yarn

hadoop2