Parquet 元数据文件对 HDFS 有用吗？

Parquet metadata files useful on HDFS?

我们使用 Spark 在 HDFS 上生成 parquet 文件。

Spark 生成 4 个文件，带数据的镶木地板和 3 个元数据文件。问题是，这 3 个元数据文件占用 1 个块，这里是 128M，因为我们运行很多这样的任务，这可能会占用很多 space 的空间。

需要文件吗？或者有什么好的应对方法？

parquet 输出文件夹中的元数据文件是可选的，spark 不需要它来读取 parquet 文件，因为每个 parquet 文件都嵌入了元数据。

另一方面，thrift 需要它来读取这些文件。

在Spark 2.0中，默认写入Parquet摘要文件。 [参考。 SPARK-15719.]