带有 Azure Data Lake 的 Presto 查询引擎

Presto query engine with Azure Data Lake

我需要部署一个 presto 服务器,它可以帮助我查询以 Avro 文件格式存储在 ADLS 中的数据。 我已经完成了 this tutorial,似乎 Hive 被用作 catalogue/connector 以从 ADLS 查询。我可以绕过 Hive 并使用任何连接器从 ADLS 中提取数据吗?

Can I bypass Hive and have any connector to extract data from ADLS?

没有。

Hive 在这里扮演两个角色:

  • 元数据存储。它包含如下信息:
    • 架构和table名称
    • 数据格式
    • 数据位置
  • 执行
    • 它能够从 (HDFS) 分布式文件系统(如 HDFS、S3、ADLS)读取数据
    • 它说明了如何分配执行。