Impala 中的自定义文件格式

Custom file format in Impala

我们有自定义的内部数据格式。我想使用这种格式的 Impala,只是为了阅读。我想为这种格式编写绑定。但是没有理由回馈这个,因为没有其他人使用这种格式。

Impala是否以某种方式支持文件格式插件?

来自 hdfs-scan-node.cc 不幸的是,文件格式列表似乎是硬编码的。如果是这种情况,是否有计划改变这种情况?还是出于某种原因这不是一个常见问题?

没有,如How Impala Works with Hadoop File Formats所述:

Impala can only query the file formats listed in the preceding table. In particular, Impala does not support the ORC file format.

原因可能与 运行 时间代码生成有关,如果 Impala 不限制文件格式,代码生成将更难优化。 但是,Impala 是一个开源项目,您没有理由不通过提交 JIRA 来提出建议。

http://blog.cloudera.com/blog/2013/02/inside-cloudera-impala-runtime-code-generation/ https://issues.apache.org/jira/projects/IMPALA/issues https://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html