使用 spark 写入镶木地板文件时如何添加额外的元数据

How to add extra metadata when writing to parquet files using spark

看起来像 spark 默认写入 "org.apache.spark.sql.parquet.row.metadata" 到 parquet 文件页脚。但是,如果我想将一些随机元数据(例如 version=123)写入 spark 生成的 parquet 文件怎么办?

这不起作用:

df.write().option("version","123").parquet("somefile.parquet");

我使用的是 1.6.2 版本的 spark

列级元数据,是的,请参阅我的评论。

Table 级别 comments/user 元数据:参见 https://issues.apache.org/jira/browse/SPARK-10803

遗憾的是,还没有