PyHive 忽略 Hive 配置

PyHive ignoring Hive config

我间歇性地收到错误消息

DAG did not succeed due to VERTEX_FAILURE.

当 运行ning Hive 通过 PyHive 查询时。由于这个原因,Hive 在 EMR 集群上 运行ning,其中 hive.vectorized.execution.enabled 在 hive-site.xml 文件中设置为 false

我可以通过 Hive 连接上的配置设置上面的 属性 并且我的查询在每次执行时都成功 运行,但是我想确认这已经修复了问题,肯定是 hive-site.xml 被忽略了。

任何人都可以确认这是否是预期的行为,或者是否有任何方法可以通过 PyHive 检查 Hive 配置,因为我找不到任何方法来执行此操作?

谢谢!

PyHive 是连接到 HiveServer2 的 瘦客户端,就像 Java 或 C 客户端(通过 JDBC 或 ODBC) .它不使用本地计算机上的任何 Hadoop 配置文件。 HS2 会话从服务器端设置的任何属性开始。
ImPyla 顺便说一句也是如此。

因此,您有责任通过 Python 代码设置自定义会话属性,例如执行这条语句...
SET hive.vectorized.execution.enabled =False
...在 运行 你的 SELECT.

之前