java.lang.OutofMemoryError: Java heap space collecting a lot of elements from an rdd in pyspark

java.lang.OutofMemoryError: Java heap space collecting a lot of elements from an rdd in pyspark

我正在尝试从 pyspark.I 中的一个 rdd 中收集大量项目得到这个错误 java.lang.OutofMemoryError:Java 堆 space。我认为增加 Java 堆 space 会有所帮助。

我尝试了以下命令 java -Xmx2g 来增加 java 堆 space 但它没有用。

还有人有其他想法吗?谢谢!

您可以通过设置 spark.driver.memoryspark.executor.memory 来控制 Spark 驱动程序和执行程序进程可以使用的内存量。

例如,您可以像这样 运行 Spark:

/bin/spark-submit --name "My app" --master local[4] \
    --conf spark.driver.memory=2g \
    --conf spark.executor.memory=2g myApp.jar

您可以通过几种不同的方式配置这些属性,请参阅 documentation on Spark configuration