没有 "ColumnName=" 的数据湖存储的输出路径文件夹
Output path folders to Data Lake Store without "ColumnName="
是否可以在不返回路径的情况下使用函数 partitionBy 或其他函数 "ColumnName=Value"?
我在 azure databricks 中使用 python notebook 将 csv 文件发送到 Azure Data Lake Store。使用的命令如下:
%scala
val filepath= "dbfs:/mnt/Test"
Sample
.coalesce(1)
.write
.mode("overwrite")
.partitionBy("Year","Month","Day")
.option("header", "true")
.option("delimiter",";")
.csv(filepath)
期望有这个路径:
/Test/2018/12/11
而不是:
/Test/Year=2018/月=12/日=11
这是预期的行为。
Spark 将目录路径用于包含列名的分区。
如果您需要特定目录,您应该使用下游进程重命名目录,或者您可以过滤您的 df 并在特定目录中一一保存。
是否可以在不返回路径的情况下使用函数 partitionBy 或其他函数 "ColumnName=Value"?
我在 azure databricks 中使用 python notebook 将 csv 文件发送到 Azure Data Lake Store。使用的命令如下:
%scala
val filepath= "dbfs:/mnt/Test"
Sample
.coalesce(1)
.write
.mode("overwrite")
.partitionBy("Year","Month","Day")
.option("header", "true")
.option("delimiter",";")
.csv(filepath)
期望有这个路径: /Test/2018/12/11
而不是: /Test/Year=2018/月=12/日=11
这是预期的行为。 Spark 将目录路径用于包含列名的分区。
如果您需要特定目录,您应该使用下游进程重命名目录,或者您可以过滤您的 df 并在特定目录中一一保存。