某些 spark 或 spark.sql 操作会在中间处理中收集吗?
Do some spark or spark.sql operations do collect in intermediate processing?
我在 spark 中遇到了一些内存不足的问题,大多数解决方案告诉我减少 collect() 操作或检查广播表。
所以我有一个简单的问题,为什么在我的代码中没有使用收集或广播表时会发生这种情况?
spark在某些操作的中间处理中执行collect了吗?
是的,我没有详尽的列表,但是如果您在 Spark DF 上调用 .toPandas()
,它会收集驱动程序上的数据。
即使您没有直接调用 collect
。
我在 spark 中遇到了一些内存不足的问题,大多数解决方案告诉我减少 collect() 操作或检查广播表。
所以我有一个简单的问题,为什么在我的代码中没有使用收集或广播表时会发生这种情况?
spark在某些操作的中间处理中执行collect了吗?
是的,我没有详尽的列表,但是如果您在 Spark DF 上调用 .toPandas()
,它会收集驱动程序上的数据。
即使您没有直接调用 collect
。