如何删除 Spark 上的 Parquet 文件?
How to delete a Parquet file on Spark?
我已经使用 DataFrame.saveAsParquet()
命令在 Spark 上保存了一个 parquet 文件。
如何通过 python 代码 delete/remove 这个文件?
这个 parquet "file" 实际上是一个目录。 This answer 显示如何删除包含文件的目录
import shutil
shutil.rmtree('/folder_name')
由于@bsplosion 提到了 HDFS,以下是您可以在 pySpark 脚本中执行此操作的方法:
import subprocess
print("Deletion code:", subprocess.call(["hadoop", "fs", "-rm", "-r", "-skipTrash", "hdfs:/your/data/path"]))
# hadoop - calls hadoop
# fs - calls hadoops file system implementation
# -rm - calls the remove command
# -r - recursive removal in order to remove the entire directory
# -skipTrash - As it states: Skip the trash and directly remove everything
此returns删除代码:0如果执行成功,否则删除代码:-1。
您可以在文档中阅读有关 hadoops -rm
here 的更多信息。
我已经使用 DataFrame.saveAsParquet()
命令在 Spark 上保存了一个 parquet 文件。
如何通过 python 代码 delete/remove 这个文件?
这个 parquet "file" 实际上是一个目录。 This answer 显示如何删除包含文件的目录
import shutil
shutil.rmtree('/folder_name')
由于@bsplosion 提到了 HDFS,以下是您可以在 pySpark 脚本中执行此操作的方法:
import subprocess
print("Deletion code:", subprocess.call(["hadoop", "fs", "-rm", "-r", "-skipTrash", "hdfs:/your/data/path"]))
# hadoop - calls hadoop
# fs - calls hadoops file system implementation
# -rm - calls the remove command
# -r - recursive removal in order to remove the entire directory
# -skipTrash - As it states: Skip the trash and directly remove everything
此returns删除代码:0如果执行成功,否则删除代码:-1。
您可以在文档中阅读有关 hadoops -rm
here 的更多信息。