在没有 Hadoop/HDFS 的情况下使用配置单元 Metastore 服务

Use hive metastore service WITHOUT Hadoop/HDFS

我知道这个问题有点奇怪。我喜欢 Hadoop 和 HDFS,但最近在使用 Hive Metastore 开发 SparkSQL。

我想使用 SparkSQL 作为垂直 SQL 引擎来 运行 OLAP 查询跨不同数据源,如 RDB、Mongo、Elastic ... 没有 ETL过程。然后我使用相应的 Hive 存储处理程序将不同的模式注册为 Metastore 中的外部表。

此外,HDFS在我的工作中并没有被用作数据源。然后,给定 Map/R 已经被 Spark 引擎取代。在我看来 Hadoop/HDFS 是无用的,但可以作为 Hive 安装的基础。我不想全部都买。

我想如果我只启动Hive metastore服务而不Hadoop/HDFS支持SparkSQL,会发生什么样的问题。我会置身于丛林吗?

你需要的是 "Hive Local Mode"(在页面中搜索"Hive, Map-Reduce and Local-Mode")。

另外 this 可能会有帮助。

仅当您在本地进行试验时才建议使用此配置。但在这种情况下,您只需要 Metastore。

也来自 here;

Spark SQL uses Hive Metastore, even if when we don't configure it to . When not configured it uses a default Derby DB as metastore.

所以这似乎很合法;

  1. 在 Hive 中安排您的 Metastore
  2. 以本地模式启动 Hive
  3. 并让 Spark 使用 Hive metastore
  4. 使用 Spark 作为 Hive 支持的所有数据源的 SQL 引擎。