在 PySpark 中写入 delta table 时如何使用 Zorder 聚类?
How to use Zorder clustering when writing delta table within PySpark?
我正在尝试编写一个非常大的 PySpark 数据框,遵循我在 https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html
中看到的建议
但是,此页面显示了 Scala 中的建议,我不知道如何将其转换为 PySpark
我看到这样的 Scala 代码:
spark.read.table(connRandom)
.write.format("delta").saveAsTable(connZorder)
sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")
但是我怎样才能做第二行的等效操作,比如在 PySpark 的特定列 "my_col" 上进行 zorder 集群?
第二行是 Scala 给出的 SQL 命令。您可以在 python 中使用 spark.sql("OPTIMIZE tableName ZORDER BY (my_col)")
.
执行相同的操作
另请查看 documentation,它有 PySpark 的完整笔记本示例。
我正在尝试编写一个非常大的 PySpark 数据框,遵循我在 https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html
中看到的建议但是,此页面显示了 Scala 中的建议,我不知道如何将其转换为 PySpark
我看到这样的 Scala 代码:
spark.read.table(connRandom)
.write.format("delta").saveAsTable(connZorder)
sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")
但是我怎样才能做第二行的等效操作,比如在 PySpark 的特定列 "my_col" 上进行 zorder 集群?
第二行是 Scala 给出的 SQL 命令。您可以在 python 中使用 spark.sql("OPTIMIZE tableName ZORDER BY (my_col)")
.
另请查看 documentation,它有 PySpark 的完整笔记本示例。