清理 BigQueryInputFormat 临时文件

Cleaning up BigQueryInputFormat temp files

我在 spark 作业中使用 BigQueryInputFormat,将数据直接从 Bigquery 加载到 RDD 中。此文档指出您应该使用以下命令清理临时文件:

BigQueryInputFormat.cleanupJob(工作)

但是,如果 "job" 是 hadoop 作业,我该如何从 Spark 作业中做到这一点?

谢谢, 卢克

想通了,您可以设置您的 Spark 作业独有的自定义临时路径,并在作业结束时删除该路径:

hadoopConf.set(BigQueryConfiguration.TEMP_GCS_PATH_KEY, "gs://mybucket/hadoop/tmp/1234")

...

FileSystem.get(new Configuration()).delete(new Path(hadoopConf.get(BigQueryConfiguration.TEMP_GCS_PATH_KEY)), true)