为什么 Impala 花费大量时间打开 HDFS 文件 (TotalRawHdfsOpenFileTime)?

Why Impala spend a lot of time Opening HDFS File (TotalRawHdfsOpenFileTime)?

我发现我的Impala swarm性能不稳定,正常情况下一次查询只需要几秒(不到10s),但偶尔会超过40s(而且这种情况会持续几分钟),当发生这种情况时,根据配置文件,TotalRawHdfsOpenFileTime 非常高,这意味着大部分时间都花在打开 HDFS 文件上。

那么可能的原因是什么,我该如何解决?

这是打开文件所花费的时间。如果您正在查询 HDFS,这通常意味着它正在花费时间从名称节点获取数据。

通过启用文件句柄缓存,我们看到许多生产部署 运行 显着改善了这一瓶颈 - https://docs.cloudera.com/documentation/enterprise/5-15-x/topics/impala_scalability.html#scalability_file_handle_cache