Parquet 元数据文件对 HDFS 有用吗?
Parquet metadata files useful on HDFS?
我们使用 Spark 在 HDFS 上生成 parquet 文件。
Spark 生成 4 个文件,带数据的镶木地板和 3 个元数据文件。问题是,这 3 个元数据文件占用 1 个块,这里是 128M,因为我们 运行 很多这样的任务,这可能会占用很多 space 的空间。
需要文件吗?或者有什么好的应对方法?
parquet 输出文件夹中的元数据文件是可选的,spark 不需要它来读取 parquet 文件,因为每个 parquet 文件都嵌入了元数据。
另一方面,thrift
需要它来读取这些文件。
在Spark 2.0中,默认写入Parquet摘要文件。 [参考。 SPARK-15719.]
我们使用 Spark 在 HDFS 上生成 parquet 文件。
Spark 生成 4 个文件,带数据的镶木地板和 3 个元数据文件。问题是,这 3 个元数据文件占用 1 个块,这里是 128M,因为我们 运行 很多这样的任务,这可能会占用很多 space 的空间。
需要文件吗?或者有什么好的应对方法?
parquet 输出文件夹中的元数据文件是可选的,spark 不需要它来读取 parquet 文件,因为每个 parquet 文件都嵌入了元数据。
另一方面,thrift
需要它来读取这些文件。
在Spark 2.0中,默认写入Parquet摘要文件。 [参考。 SPARK-15719.]