如何删除 Spark 上的 Parquet 文件?

How to delete a Parquet file on Spark?

我已经使用 DataFrame.saveAsParquet() 命令在 Spark 上保存了一个 parquet 文件。

如何通过 python 代码 delete/remove 这个文件?

这个 parquet "file" 实际上是一个目录。 This answer 显示如何删除包含文件的目录

import shutil
shutil.rmtree('/folder_name')

由于@bsplosion 提到了 HDFS,以下是您可以在 pySpark 脚本中执行此操作的方法:

import subprocess

print("Deletion code:", subprocess.call(["hadoop", "fs", "-rm", "-r", "-skipTrash", "hdfs:/your/data/path"]))

# hadoop     - calls hadoop
# fs         - calls hadoops file system implementation
# -rm        - calls the remove command
# -r         - recursive removal in order to remove the entire directory
# -skipTrash - As it states: Skip the trash and directly remove everything

此returns删除代码:0如果执行成功,否则删除代码:-1。 您可以在文档中阅读有关 hadoops -rm here 的更多信息。