如何按特定顺序使用 Databricks dbutilis 复制文件
How to Copy Files with Databricks dbutilis in particular order
这个小组的一个成员帮助我根据日期将文件复制到关注
我想调整代码以根据文件名中的某些字符复制文件——在后面的示例中,字符是 1111、1112、1113 和 1114
所以,如果我们有如下四个文件:
File_Account_1111_exam1.csv
File_Account_1112_testxx.csv
File_Account_1113_pringle.csv
File_Account_1114_sam34.csv
仅当 File_Account_1113_pringle.csv 已被复制到文件夹时,我才想将 File_Account_1114_sam34.csv 复制到文件夹。
同样,如果 File_Account_1112_testxx.csv 已经被复制到文件夹等,我只想复制 File_Account_1113_pringle.csv。
因此,如果所有文件都已复制到一个文件夹中,它将如下所示:
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1111_exam1.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1112_testxx.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1113_pringle.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1114_sam34.csv", data, True)
在将文件上传到 DBFS 时不应用任何业务逻辑,我建议上传所有可用文件,然后使用 test = sc.wholeTextFiles("pathtofile")
读取它们,这将 return 文件的 key/value RDD名称和文件内容,这里对应的是thread。完成后,可以在 Spark 作业中实施和测试基于文件名的任何排序或过滤业务逻辑。
希望对您有所帮助。
这个小组的一个成员帮助我根据日期将文件复制到关注
我想调整代码以根据文件名中的某些字符复制文件——在后面的示例中,字符是 1111、1112、1113 和 1114 所以,如果我们有如下四个文件:
File_Account_1111_exam1.csv File_Account_1112_testxx.csv File_Account_1113_pringle.csv File_Account_1114_sam34.csv
仅当 File_Account_1113_pringle.csv 已被复制到文件夹时,我才想将 File_Account_1114_sam34.csv 复制到文件夹。 同样,如果 File_Account_1112_testxx.csv 已经被复制到文件夹等,我只想复制 File_Account_1113_pringle.csv。
因此,如果所有文件都已复制到一个文件夹中,它将如下所示:
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1111_exam1.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1112_testxx.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1113_pringle.csv", data, True)
dbutils.fs.put("/mnt/adls2/demo/files/file_Account_1114_sam34.csv", data, True)
在将文件上传到 DBFS 时不应用任何业务逻辑,我建议上传所有可用文件,然后使用 test = sc.wholeTextFiles("pathtofile")
读取它们,这将 return 文件的 key/value RDD名称和文件内容,这里对应的是thread。完成后,可以在 Spark 作业中实施和测试基于文件名的任何排序或过滤业务逻辑。
希望对您有所帮助。