某些 spark 或 spark.sql 操作会在中间处理中收集吗？

Do some spark or spark.sql operations do collect in intermediate processing?

我在 spark 中遇到了一些内存不足的问题，大多数解决方案告诉我减少 collect() 操作或检查广播表。

所以我有一个简单的问题，为什么在我的代码中没有使用收集或广播表时会发生这种情况？

spark在某些操作的中间处理中执行collect了吗？

是的，我没有详尽的列表，但是如果您在 Spark DF 上调用 .toPandas()，它会收集驱动程序上的数据。

即使您没有直接调用 collect。