为什么在并行使用 spark-sql 执行多个 Hive 脚本时 Spark 作业会失败?
Why does Spark job fail while executing multiple Hive scripts using spark-sql in parallel?
我有 25 个配置单元脚本,每个脚本有 200 个配置单元查询。我在我的 aws emr 集群中使用 spark-sql 命令 运行ning 每个 hql。我正在 运行 使用 & 运算符并行执行所有 spark-sql 命令。我能够在 tez 上使用 hive 成功 运行 相同的 hqls。我正在尝试使用 spark-sql 来提高性能。但是,使用 spark-sql 只有 2-3 个脚本可以正常执行;剩余的 hqls 因 connection set by peer 错误而失败。我相信这是因为 yarn 集群中缺少用于 spark 的资源。
当我观察 YARN 控制台时,我可以看到它正在使用集群的全部内存,即使我在命令中指定了执行程序和驱动程序内存。
谁能帮我找出这个问题的确切原因?
下面是我的 EMR 集群配置:
Data Nodes : 6
RAM per Node : 56 GB
Cores per Node: 32
Instance Type: M4*4xLarge
unix 中使用的命令:
spark-sql --master yarn --num-executors 12 --executor-memory 20G --executor-cores 15 --driver-memory 10G -f hql1.hql & spark-sql --master yarn --num-executors 12 --executor-memory 20G --executor-cores 15 --driver-memory 10G -f hql2.hql & spark-sql --master yarn --num-executors 12 --executor-memory 20G --executor-cores 15 --driver-memory 10G -f hql3.hql ..... spark-sql --master yarn --num-executors 12 --executor-memory 20G --executor-cores 15 --driver-memory 10G -f hql25.hql
当我运行并行执行上述所有命令时,只有 2 到 3 个作业正确执行,其余作业失败并出现以下错误。
05:> (0 + 0) / 30800]^M[Stage 904:=> (6818 + 31) / 30800][Stage 905:> (0 + 0) / 30800]^M[Stage 904:==> (7743 + 31) / 30800][Stage 905:> (0 + 0) / 30800]^M[Stage 904:==> (8271 + 32) / 30800][Stage 905:> (0 + 0) / 30800]17/04/13 11:35:10 WARN TransportChannelHandler: Exception in connection from /10.134.22.114:47550
java.io.IOException: Connection reset by peer
at sun.nio.ch.FileDispatcherImpl.read0(Native Method)
at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
at sun.nio.ch.IOUtil.read(IOUtil.java:192)
at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380)
at io.netty.buffer.PooledUnsafeDirectByteBuf.setBytes(PooledUnsafeDirectByteBuf.java:221)
at io.netty.buffer.AbstractByteBuf.writeBytes(AbstractByteBuf.java:899)
at io.netty.channel.socket.nio.NioSocketChannel.doReadBytes(NioSocketChannel.java:275)
at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:119)
at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:652)
at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:575)
at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:489)
at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:451)
at io.netty.util.concurrent.SingleThreadEventExecutor.run(SingleThreadEventExecutor.java:140)
at io.netty.util.concurrent.DefaultThreadFactory$DefaultRunnableDecorator.run(DefaultThreadFactory.java:144)
at java.lang.Thread.run(Thread.java:745)
17/04/13 11:35:10 ERROR TransportResponseHandler: Still have 1 requests outstanding when connection from /10.134.22.114:47550 is closed
17/04/13 11:35:10 ERROR YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(53329,61600,Map(ip-10-134-22-6.eu-central-1.compute.internal -> 12262, ip-10-134-22-67.eu-central-1.compute.internal -> 16940, ip-10-134-22-106.eu-central-1.compute.internal -> 17876, ip-10-134-22-46.eu-central-1.compute.internal -> 16400, ip-10-134-22-114.eu-central-1.compute.internal -> 14902, ip-10-134-22-105.eu-central-1.compute.internal -> 44820)) to AM was unsuccessful
java.io.IOException: Connection reset by peer
at sun.nio.ch.FileDispatcherImpl.read0(Native Method)
at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
at sun.nio.ch.IOUtil.read(IOUtil.java:192)
at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380)
at io.netty.buffer.PooledUnsafeDirectByteBuf.setBytes(PooledUnsafeDirectByteBuf.java:221)
at io.netty.buffer.AbstractByteBuf.writeBytes(AbstractByteBuf.java:899)
at io.netty.channel.socket.nio.NioSocketChannel.doReadBytes(NioSocketChannel.java:275)
I believe it is because of lack of resources in yarn cluster for spark.
我也这么认为,强烈建议使用 YARN UI 来查看资源的使用情况。
无论您在 YARN UI 中看到什么,我都做了一些计算,结果 显示 您的资源太少,无法拥有所有 25 个脚本 运行 同时.
鉴于...
Data Nodes : 6
RAM per Node : 56 GB
Cores per Node: 32
Instance Type: M4*4xLarge
看来您有 6 x 56 GB = 336 GB 和 6 x 32 核 = 192 核。
执行以下命令后:
spark-sql --master yarn --num-executors 12 --executor-memory 20G
--executor-cores 15 --driver-memory 10G -f hql1.hql
您已预留 240 GB 和 180 个内核,这是可用资源的一半以上,并且仅用于第一个 spark-sql
。
我 认为 问题出在将 spark-sql
置于背景中的单曲 &
并且假设你有 25 spark-sql
你查看缺少资源的问题。我并不惊讶。
将 spark 动态内存分配更改为 false 应该可以解决问题。
即使我们在命令中设置了执行程序内存,如果集群中的资源可用,spark 也会动态分配内存。要将内存使用限制为仅执行程序内存,spark 动态内存分配参数应设置为 false。
您可以直接在 spark 配置文件中更改它或将其作为配置参数传递给命令。
spark-sql --master yarn --num-executors 1 --executor-memory 20G --executor-cores 20 --driver-memory 4G --conf spark.dynamicAllocation.enabled=false -f hive1.hql
我有 25 个配置单元脚本,每个脚本有 200 个配置单元查询。我在我的 aws emr 集群中使用 spark-sql 命令 运行ning 每个 hql。我正在 运行 使用 & 运算符并行执行所有 spark-sql 命令。我能够在 tez 上使用 hive 成功 运行 相同的 hqls。我正在尝试使用 spark-sql 来提高性能。但是,使用 spark-sql 只有 2-3 个脚本可以正常执行;剩余的 hqls 因 connection set by peer 错误而失败。我相信这是因为 yarn 集群中缺少用于 spark 的资源。
当我观察 YARN 控制台时,我可以看到它正在使用集群的全部内存,即使我在命令中指定了执行程序和驱动程序内存。
谁能帮我找出这个问题的确切原因?
下面是我的 EMR 集群配置:
Data Nodes : 6
RAM per Node : 56 GB
Cores per Node: 32
Instance Type: M4*4xLarge
unix 中使用的命令:
spark-sql --master yarn --num-executors 12 --executor-memory 20G --executor-cores 15 --driver-memory 10G -f hql1.hql & spark-sql --master yarn --num-executors 12 --executor-memory 20G --executor-cores 15 --driver-memory 10G -f hql2.hql & spark-sql --master yarn --num-executors 12 --executor-memory 20G --executor-cores 15 --driver-memory 10G -f hql3.hql ..... spark-sql --master yarn --num-executors 12 --executor-memory 20G --executor-cores 15 --driver-memory 10G -f hql25.hql
当我运行并行执行上述所有命令时,只有 2 到 3 个作业正确执行,其余作业失败并出现以下错误。
05:> (0 + 0) / 30800]^M[Stage 904:=> (6818 + 31) / 30800][Stage 905:> (0 + 0) / 30800]^M[Stage 904:==> (7743 + 31) / 30800][Stage 905:> (0 + 0) / 30800]^M[Stage 904:==> (8271 + 32) / 30800][Stage 905:> (0 + 0) / 30800]17/04/13 11:35:10 WARN TransportChannelHandler: Exception in connection from /10.134.22.114:47550
java.io.IOException: Connection reset by peer
at sun.nio.ch.FileDispatcherImpl.read0(Native Method)
at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
at sun.nio.ch.IOUtil.read(IOUtil.java:192)
at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380)
at io.netty.buffer.PooledUnsafeDirectByteBuf.setBytes(PooledUnsafeDirectByteBuf.java:221)
at io.netty.buffer.AbstractByteBuf.writeBytes(AbstractByteBuf.java:899)
at io.netty.channel.socket.nio.NioSocketChannel.doReadBytes(NioSocketChannel.java:275)
at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:119)
at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:652)
at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:575)
at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:489)
at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:451)
at io.netty.util.concurrent.SingleThreadEventExecutor.run(SingleThreadEventExecutor.java:140)
at io.netty.util.concurrent.DefaultThreadFactory$DefaultRunnableDecorator.run(DefaultThreadFactory.java:144)
at java.lang.Thread.run(Thread.java:745)
17/04/13 11:35:10 ERROR TransportResponseHandler: Still have 1 requests outstanding when connection from /10.134.22.114:47550 is closed
17/04/13 11:35:10 ERROR YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(53329,61600,Map(ip-10-134-22-6.eu-central-1.compute.internal -> 12262, ip-10-134-22-67.eu-central-1.compute.internal -> 16940, ip-10-134-22-106.eu-central-1.compute.internal -> 17876, ip-10-134-22-46.eu-central-1.compute.internal -> 16400, ip-10-134-22-114.eu-central-1.compute.internal -> 14902, ip-10-134-22-105.eu-central-1.compute.internal -> 44820)) to AM was unsuccessful
java.io.IOException: Connection reset by peer
at sun.nio.ch.FileDispatcherImpl.read0(Native Method)
at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
at sun.nio.ch.IOUtil.read(IOUtil.java:192)
at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380)
at io.netty.buffer.PooledUnsafeDirectByteBuf.setBytes(PooledUnsafeDirectByteBuf.java:221)
at io.netty.buffer.AbstractByteBuf.writeBytes(AbstractByteBuf.java:899)
at io.netty.channel.socket.nio.NioSocketChannel.doReadBytes(NioSocketChannel.java:275)
I believe it is because of lack of resources in yarn cluster for spark.
我也这么认为,强烈建议使用 YARN UI 来查看资源的使用情况。
无论您在 YARN UI 中看到什么,我都做了一些计算,结果 显示 您的资源太少,无法拥有所有 25 个脚本 运行 同时.
鉴于...
Data Nodes : 6
RAM per Node : 56 GB
Cores per Node: 32
Instance Type: M4*4xLarge
看来您有 6 x 56 GB = 336 GB 和 6 x 32 核 = 192 核。
执行以下命令后:
spark-sql --master yarn --num-executors 12 --executor-memory 20G --executor-cores 15 --driver-memory 10G -f hql1.hql
您已预留 240 GB 和 180 个内核,这是可用资源的一半以上,并且仅用于第一个 spark-sql
。
我 认为 问题出在将 spark-sql
置于背景中的单曲 &
并且假设你有 25 spark-sql
你查看缺少资源的问题。我并不惊讶。
将 spark 动态内存分配更改为 false 应该可以解决问题。
即使我们在命令中设置了执行程序内存,如果集群中的资源可用,spark 也会动态分配内存。要将内存使用限制为仅执行程序内存,spark 动态内存分配参数应设置为 false。
您可以直接在 spark 配置文件中更改它或将其作为配置参数传递给命令。
spark-sql --master yarn --num-executors 1 --executor-memory 20G --executor-cores 20 --driver-memory 4G --conf spark.dynamicAllocation.enabled=false -f hive1.hql