如何让 Jupyterhub 通过 EMR 中的 spark 访问 hive 表

How to give Jupyterhub access to hive tables through spark in EMR

EMR 中默认安装的 JupytherHub 无法访问 Spark 中的 Hive 上下文。我该如何解决这个问题?

要授予 spark 对 Hive 上下文的访问权限,您需要像这样编辑 livy.conf 文件 (/etc/livy/conf.dist/livy.conf)

livy.repl.enableHiveContext = true

然后按照说明 here 重新启动您的笔记本和 livy 服务,基本上:

sudo stop livy-server
sudo start livy-server

检查它是否正常工作的一种简单方法是检查您的 spark notebook 上的数据库:

spark.sql("show databases").show

你可能想在 EMR 启动时配置这个,通过使用 EMR 的标准配置功能,https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps.html