是否有等效于 "optimize" 的允许从 Spark Databricks 中的非托管 table 中删除重复项

Is there an equivalent to "optimize" that allows duplicates to be removed from an unmanaged table in Spark Databricks

我想从 spark 中的非托管 table 中删除重复的行。 我知道有像 df.dropduplicates() 这样的命令可以在数据帧上工作但是有没有一个命令可以对底层数据做同样的事情？

因此，例如优化工作如下： spark.sql("OPTIMIZE <TABLE>")

是否有类似的东西： spark.sql("DELETE DUPLICATES <TABLE>")

没有，有没有。

增量 table 需要适当的 SQL 子句进行删除。

真正的物理删除需要定期清理。

您当然可以在加载时使用 MERGE 以避免后续删除。

问题与pyspark或非托管/托管table无关。