如何删除 Spark 上的 Parquet 文件？

Question

我已经使用 DataFrame.saveAsParquet() 命令在 Spark 上保存了一个 parquet 文件。

如何通过 python 代码 delete/remove 这个文件？

Answer 1

这个 parquet "file" 实际上是一个目录。 This answer 显示如何删除包含文件的目录

import shutil
shutil.rmtree('/folder_name')

Answer 2

由于@bsplosion 提到了 HDFS，以下是您可以在 pySpark 脚本中执行此操作的方法：

import subprocess

print("Deletion code:", subprocess.call(["hadoop", "fs", "-rm", "-r", "-skipTrash", "hdfs:/your/data/path"]))

# hadoop     - calls hadoop
# fs         - calls hadoops file system implementation
# -rm        - calls the remove command
# -r         - recursive removal in order to remove the entire directory
# -skipTrash - As it states: Skip the trash and directly remove everything

此returns删除代码：0如果执行成功，否则删除代码：-1。您可以在文档中阅读有关 hadoops -rm here 的更多信息。

如何删除 Spark 上的 Parquet 文件？

How to delete a Parquet file on Spark?

python

apache-spark

parquet