什么是 PARQUET_READ_PARALLELISM?
What is PARQUET_READ_PARALLELISM?
当我 运行 我的工作时,我看到:
parquet.hadoop.ParquetFileReader: Initiating action with parallelism: 5
它默认设置为 5,但它是什么?以及如何使用它来获得更好的性能?
是的,默认为 5。
配置参数的名称是parquet.metadata.read.parallelism
。它仅影响读取有关 Parquet
文件的元信息的线程数。
我认为它不会对性能产生太大影响,因为它只与元数据的读取有关,与数据本身无关。
当我 运行 我的工作时,我看到:
parquet.hadoop.ParquetFileReader: Initiating action with parallelism: 5
它默认设置为 5,但它是什么?以及如何使用它来获得更好的性能?
是的,默认为 5。
配置参数的名称是parquet.metadata.read.parallelism
。它仅影响读取有关 Parquet
文件的元信息的线程数。
我认为它不会对性能产生太大影响,因为它只与元数据的读取有关,与数据本身无关。