某些 spark 或 spark.sql 操作会在中间处理中收集吗?

Do some spark or spark.sql operations do collect in intermediate processing?

我在 spark 中遇到了一些内存不足的问题,大多数解决方案告诉我减少 collect() 操作或检查广播表。

所以我有一个简单的问题,为什么在我的代码中没有使用收集或广播表时会发生这种情况?

spark在某些操作的中间处理中执行collect了吗?

是的,我没有详尽的列表,但是如果您在 Spark DF 上调用 .toPandas(),它会收集驱动程序上的数据。

即使您没有直接调用 collect