没有 "ColumnName=" 的数据湖存储的输出路径文件夹

Output path folders to Data Lake Store without "ColumnName="

是否可以在不返回路径的情况下使用函数 partitionBy 或其他函数 "ColumnName=Value"?

我在 azure databricks 中使用 python notebook 将 csv 文件发送到 Azure Data Lake Store。使用的命令如下:

%scala
val filepath= "dbfs:/mnt/Test"

Sample
  .coalesce(1)       
  .write             
  .mode("overwrite")
  .partitionBy("Year","Month","Day")
  .option("header", "true")
  .option("delimiter",";")
  .csv(filepath)

期望有这个路径: /Test/2018/12/11

而不是: /Test/Year=2018/月=12/日=11

这是预期的行为。 Spark 将目录路径用于包含列名的分区。

如果您需要特定目录,您应该使用下游进程重命名目录,或者您可以过滤您的 df 并在特定目录中一一保存。