使用 spark 写入镶木地板文件时如何添加额外的元数据
How to add extra metadata when writing to parquet files using spark
看起来像 spark 默认写入 "org.apache.spark.sql.parquet.row.metadata" 到 parquet 文件页脚。但是,如果我想将一些随机元数据(例如 version=123)写入 spark 生成的 parquet 文件怎么办?
这不起作用:
df.write().option("version","123").parquet("somefile.parquet");
我使用的是 1.6.2 版本的 spark
列级元数据,是的,请参阅我的评论。
Table 级别 comments/user 元数据:参见 https://issues.apache.org/jira/browse/SPARK-10803
遗憾的是,还没有
看起来像 spark 默认写入 "org.apache.spark.sql.parquet.row.metadata" 到 parquet 文件页脚。但是,如果我想将一些随机元数据(例如 version=123)写入 spark 生成的 parquet 文件怎么办?
这不起作用:
df.write().option("version","123").parquet("somefile.parquet");
我使用的是 1.6.2 版本的 spark
列级元数据,是的,请参阅我的评论。
Table 级别 comments/user 元数据:参见 https://issues.apache.org/jira/browse/SPARK-10803
遗憾的是,还没有