"GC overhead limit exceeded" 当运行一个 Spark 作业中有两个动作时；运行分开时没问题

Question

我有以下 Spark SQL 代码，用于检查大型 tables（数十亿行）中是否缺少某些日期：

spark = SparkSession.builder \
    .master("yarn") \
    .appName("minimal_example") \
    .config('spark.submit.deployMode', 'client') \
    .getOrCreate()

SQL = '''
select distinct
  substr(entrydate, 1, 10) as datum,
  1 as in_table
from {table}
where entrydate >= '{datum}'
'''

print("RUN1")
df1 = spark.sql(SQL.format(datum='2017-01-01', table='table1'))
c1 = df1.count()
print("count1: ", c1)

print("RUN2")
df2 = spark.sql(SQL.format(datum='2017-01-01', table='table2'))
c2 = df2.count()
print("count2: ", c2)

本质上，该函数只是从 table 列中获取不同的日期。

现在是我无法理解的部分：

每次调用 count() 都可以运行没问题
当我运行每个调用作为一个单独的 spark-submit 作业时，它工作正常
但是如果像上面那样连续运行它们，第二个运行会产生以下错误：

py4j.protocol.Py4JJavaError: An error occurred while calling o150.sql.
: java.util.concurrent.ExecutionException: java.io.IOException: com.google.protobuf.ServiceException: java.lang.OutOfMemoryError: GC overhead limit exceeded

我的解释是第一个运行的垃圾收集在第二个运行期间开始。

我尝试过的：

在每次迭代开始时调用 spark.clearCache()
在每次迭代开始时调用spark._jvm.SparkSession.clearDefaultSession()、spark._jvm.SparkSession.clearActiveSession()
查看 Spark web UI 并尝试了解 DAG 和存储选项卡（后者不显示任何内容）但无济于事
更改两个 count 的顺序。这会导致不同的错误：java.io.IOException: Connection reset by peer（有关类似错误，请参阅）

最后一个观察：第一次调用启动了 >100 Spark/YARN 个执行程序，也许 Spark 的动态分配机制不喜欢第二次调用实际上是一个对执行程序有不同要求的新作业？

非常感谢任何帮助！

环境：Cloudera CDH 6.1 集群上的 Spark 2.3。

编辑：更多细节

tables 作为 Parquet 文件保存在 HDFS 中，统计数据：

   +--------+------------+-------+--------+--------------+
   | table  |   # rows   |# cols |# files |   raw size   |
   +--------+------------+-------+--------+--------------+
   | table1 | 5660970439 |    46 |  49167 | 228876171398 |
   | table2 | 5656000217 |    52 |  80000 | 518996700170 |
   +--------+------------+-------+--------+--------------+

内存设置：动态分配的 YARN 上的 Spark，最小执行程序内存为 1GB，最大为 72GB，总集群内存为 ~300GB。
第一个count()启动了大约150个执行器，充分利用了当前可用的内存资源

Answer 1

让问题沉没几天后，我尝试增加 驱动程序 内存：

spark2-submit --master yarn --deploy-mode client --driver-memory 4G minimal_example.py

也许决定因素是我的应用程序以 client 模式启动。显然，管理大量执行程序（以及删除它们）会消耗大量内存，即使驱动程序本身只接收简单的 df.count().

的结果。

"GC overhead limit exceeded" 当运行一个 Spark 作业中有两个动作时；运行分开时没问题

"GC overhead limit exceeded" when running two actions in one Spark job; no problem when running separately

python

apache-spark

cloudera-cdh

apache-spark-sql

pyspark

编辑：更多细节

"GC overhead limit exceeded" 当 运行 一个 Spark 作业中有两个动作时； 运行分开时没问题

"GC overhead limit exceeded" when running two actions in one Spark job; no problem when running separately

python

apache-spark

cloudera-cdh

apache-spark-sql

pyspark

编辑：更多细节

"GC overhead limit exceeded" 当运行一个 Spark 作业中有两个动作时；运行分开时没问题