清理 BigQueryInputFormat 临时文件
Cleaning up BigQueryInputFormat temp files
我在 spark 作业中使用 BigQueryInputFormat,将数据直接从 Bigquery 加载到 RDD 中。此文档指出您应该使用以下命令清理临时文件:
BigQueryInputFormat.cleanupJob(工作)
但是,如果 "job" 是 hadoop 作业,我该如何从 Spark 作业中做到这一点?
谢谢,
卢克
想通了,您可以设置您的 Spark 作业独有的自定义临时路径,并在作业结束时删除该路径:
hadoopConf.set(BigQueryConfiguration.TEMP_GCS_PATH_KEY, "gs://mybucket/hadoop/tmp/1234")
...
FileSystem.get(new Configuration()).delete(new Path(hadoopConf.get(BigQueryConfiguration.TEMP_GCS_PATH_KEY)), true)
我在 spark 作业中使用 BigQueryInputFormat,将数据直接从 Bigquery 加载到 RDD 中。此文档指出您应该使用以下命令清理临时文件:
BigQueryInputFormat.cleanupJob(工作)
但是,如果 "job" 是 hadoop 作业,我该如何从 Spark 作业中做到这一点?
谢谢, 卢克
想通了,您可以设置您的 Spark 作业独有的自定义临时路径,并在作业结束时删除该路径:
hadoopConf.set(BigQueryConfiguration.TEMP_GCS_PATH_KEY, "gs://mybucket/hadoop/tmp/1234")
...
FileSystem.get(new Configuration()).delete(new Path(hadoopConf.get(BigQueryConfiguration.TEMP_GCS_PATH_KEY)), true)