Spark-Sql 自定义 Metastore

Spark-Sql Custom Metastore

在HIVE中,我们可以设置不同的RDBMs作为meta store,让HIVE把所有的metadata存储在里面。 除此之外,通过hiveserver2,我们可以让HIVE监听请求并提供服务。

同样,有很多文档说Spark-SQL也可以类似的方式使用。我们可以将 Oracle(示例)设置为 Spark-Sql 的元存储吗?如果是的话,有人可以帮我设置一下吗。

谢谢!

Spark 使用 Hive Metastore 作为外部元存储,您选择自己的数据库,因此 Oracle 数据库很好。否则,Spark 使用 Derby DB,这对于您自己的研究单用户伪集群或小型非生产集群来说是可以的。您需要为外部 Metastore 进行适当的配置。

在 EMR 上的 AWS 中,您可以使用 AWS Glue 作为外部 Spark Metastore。

供应商的一些发行版也在此处强加了一些细节。