什么是 PARQUET_READ_PARALLELISM?

What is PARQUET_READ_PARALLELISM?

当我 运行 我的工作时,我看到: parquet.hadoop.ParquetFileReader: Initiating action with parallelism: 5

它默认设置为 5,但它是什么?以及如何使用它来获得更好的性能?

是的,默认为 5。

配置参数的名称是parquet.metadata.read.parallelism。它仅影响读取有关 Parquet 文件的元信息的线程数。

我认为它不会对性能产生太大影响,因为它只与元数据的读取有关,与数据本身无关。