sparklyr 看不到在 Hive 中创建的数据库,反之亦然

sparklyr can't see databases created in Hive and vice versa

我在本地安装了 Apache Hive,我试图通过 Rstudio/sparklyr 读取表格。

我使用 Hive 创建了一个数据库:

hive> CREATE DATABASE test;

并且我尝试使用以下 R 脚本读取该数据库:

library(sparklyr)
library(dplyr)
library(DBI)

spark_disconnect_all()

Sys.setenv(SPARK_HOME = "/home/alessandro/spark-2.1.0-bin-hadoop2.7")

config <- spark_config()
config$spark.executor.instances <- 4
config$spark.executor.cores <- 4
config$spark.executor.memory <- "4G"
config$spark.sql.hive.metastore <- "/home/alessandro/spark-warehouse"
config$hive.metastore.warehouse.dir <- "/home/alessandro/spark-warehouse"
sc <- spark_connect(master="local", config=config, version="2.1.0")

dbGetQuery(sc, "show databases")

仍然,dbGetQuery(sc, "show databases") 不显示创建的数据库,这很尴尬,因为数据库文件夹 test.db 正确放置在指定的 hive.metastore.warehouse.dir.

同样,如果我使用 dbGetQuery(sc, "CREATE DATABASE test2") 创建数据库,则会在 hive.metastore.warehouse.dir 中创建一个数据库文件夹,但我无法通过 Hive 使用以下命令查看它:

hive> show databases;

基本上,即使所有数据库文件夹都放在正确的路径中,从 Hive 中我只能看到通过 Hive 创建的数据库,而从 RI 中我只能看到通过 R 创建的数据库。

我解决了在文件 hive-site.xml 中添加与 hive 连接的配置的问题:

   <property>
    <name>hive.metastore.uris</name>
    <value>thrift://localhost:9083</value>
  </property>