Impala 通过 JDBC 流式传输真的很慢

Impala streaming over JDBC is really slow

我有 运行 几个使用 impala-shell 的大型查询,发现性能令人满意。这些查询通常将 100k-1m 行写入磁盘。但是,当我 运行 使用 JDBC 以编程方式进行完全相同的查询时,将结果写入磁盘的时间要长得多。例如,从 impala-shell 需要五分钟的查询在 JDBC.

需要最多三十分钟

我已经尝试过 Hive 和 Cloudera JDBC 驱动程序,但性能同样不佳。我尝试了各种获取大小,但没有任何区别。 Impala 通过 JDBC 进行流式传输从根本上来说很慢,还是我可以采取其他措施来加快流式传输速度?

这是在 CDH 5.9.1 上。

这原来是一个客户端问题。我正在使用 curl 来测试进行 Impala 查询的 Web 应用程序。从 curl 切换到用 Scala 代码编写的客户端消除了延迟。