没有 "ColumnName=" 的数据湖存储的输出路径文件夹

Question

是否可以在不返回路径的情况下使用函数 partitionBy 或其他函数 "ColumnName=Value"?

我在 azure databricks 中使用 python notebook 将 csv 文件发送到 Azure Data Lake Store。使用的命令如下：

%scala
val filepath= "dbfs:/mnt/Test"

Sample
  .coalesce(1)       
  .write             
  .mode("overwrite")
  .partitionBy("Year","Month","Day")
  .option("header", "true")
  .option("delimiter",";")
  .csv(filepath)

期望有这个路径： /Test/2018/12/11

而不是： /Test/Year=2018/月=12/日=11

Answer 1

这是预期的行为。 Spark 将目录路径用于包含列名的分区。

如果您需要特定目录，您应该使用下游进程重命名目录，或者您可以过滤您的 df 并在特定目录中一一保存。

没有 "ColumnName=" 的数据湖存储的输出路径文件夹

Output path folders to Data Lake Store without "ColumnName="

azure-data-lake

azure-databricks