Impala table 与合并的 parquet 文件的性能问题

Performance issue with Impala table with merged parquet files

这里我使用 python 实用程序使用 Pyarrow 库为单个数据集创建多个镶木地板文件，因为一天的数据集大小很大。这里的 parquet 文件在每个拆分的 parquet 文件中包含 10K 的 parquet 行组，最后我们将拆分文件组合成一个文件以创建一个大的单个 parquet 文件。在这里，我正在创建两个 Impala table，其中包含一个合并文件和多个拆分文件。

当在 Impala table 中加载拆分文件数据并尝试查询它时，结果会在几秒钟内更快，但是当 Impala table 在单个合并的镶木地板文件上创建时.与提到的拆分文件 Impala table 相比，它会产生性能问题。当试图计算 Impala tables.

上的统计数据时，我无法识别这两个 tables 之间的区别

知道为什么多分割镶木地板文件 Impala table 和单个合并分割文件 Impala table.[=12= 之间的性能行为差异]

从历史上看，良好的 Parquet 性能与大型 Parquet 文件相关联。然而，实际上，良好的性能不是大文件的结果，而是大行组的结果（达到 HDFS 块大小）。

将行组一个接一个地放置而不合并它们不会显着改变 Spark 性能，但会使 Impala 慢很多。

主题中的一些 JIRA-s：

除了合并小的 Parquet 文件，你可以做的是将新数据放在一个单独的 table 中，这种格式可能是效率较低的格式（文本文件、Avro 或许多小的 Parquet 文件），然后使用 Hive、Spark 或 Impala 查询 table 的内容并将其批量插入到生产 table 中。这将创建具有有效行组大小的适当大小的 Parquet 文件。

Impala table 与合并的 parquet 文件的性能问题

Performance issue with Impala table with merged parquet files

hadoop

impala

apache-spark

parquet

pyarrow