无法在 gcloud dataproc spark 集群上的 pyspark shell 中导入图框
Unable to import graphframes in pyspark shell on gcloud dataproc spark cluster
使用以下选项通过 gcloud 控制台创建了一个 spark 集群
gcloud dataproc 集群创建集群名称 --region us-east1 --num-masters 1 --num-workers 2 --master-machine-type n1-standard-2 --worker-
机器类型 n1-standard-1 --metadata spark-packages=graphframes:graphframes:0.2.0-spark2.1-s_2.11
在 spark 主节点上 - 启动 pyspark shell 如下:
pyspark --packages graphframes:graphframes:0.2.0-spark2.0-s_2.11
...
在 spark-packages
中找到 graphframes#graphframes;0.2.0-spark2.0-s_2.11
[成功] graphframes#graphframes;0.2.0-spark2.0-s_2.11!graphframes.jar (578ms)
...
graphframes#graphframes;0.2.0-spark2.0-s_2.11 from spark-packages in [default]
org.scala-lang#scala-reflect;2.11.0 from central in [default]
org.slf4j#slf4j-api;1.7.7 from central in [default]
---------------------------------------------------------------------
| | modules || artifacts |
| conf | number| search|dwnlded|evicted|| number|dwnlded|
---------------------------------------------------------------------
| default | 5 | 5 | 5 | 0 || 5 | 5 |
---------------------------------------------------------------------
...
使用 Python 版本 2.7.9(默认,2016 年 6 月 29 日 13:08:31)
SparkSession 可用 'spark'.
>>> from graphframes import *
回溯(最近调用最后):
文件“”,第 1 行,位于
导入错误:没有名为 graphframes
的模块
如何在 gcloud dataproc spark 集群上加载 graphframes?
这似乎是一个已知问题,您在 pyspark
中克服重重障碍使其正常工作:https://github.com/graphframes/graphframes/issues/238, https://github.com/graphframes/graphframes/issues/172
使用以下选项通过 gcloud 控制台创建了一个 spark 集群
gcloud dataproc 集群创建集群名称 --region us-east1 --num-masters 1 --num-workers 2 --master-machine-type n1-standard-2 --worker- 机器类型 n1-standard-1 --metadata spark-packages=graphframes:graphframes:0.2.0-spark2.1-s_2.11
在 spark 主节点上 - 启动 pyspark shell 如下:
pyspark --packages graphframes:graphframes:0.2.0-spark2.0-s_2.11
...
在 spark-packages
中找到 graphframes#graphframes;0.2.0-spark2.0-s_2.11[成功] graphframes#graphframes;0.2.0-spark2.0-s_2.11!graphframes.jar (578ms)
...
graphframes#graphframes;0.2.0-spark2.0-s_2.11 from spark-packages in [default]
org.scala-lang#scala-reflect;2.11.0 from central in [default]
org.slf4j#slf4j-api;1.7.7 from central in [default]
---------------------------------------------------------------------
| | modules || artifacts |
| conf | number| search|dwnlded|evicted|| number|dwnlded|
---------------------------------------------------------------------
| default | 5 | 5 | 5 | 0 || 5 | 5 |
---------------------------------------------------------------------
...
使用 Python 版本 2.7.9(默认,2016 年 6 月 29 日 13:08:31) SparkSession 可用 'spark'.
>>> from graphframes import *
回溯(最近调用最后): 文件“”,第 1 行,位于 导入错误:没有名为 graphframes
的模块如何在 gcloud dataproc spark 集群上加载 graphframes?
这似乎是一个已知问题,您在 pyspark
中克服重重障碍使其正常工作:https://github.com/graphframes/graphframes/issues/238, https://github.com/graphframes/graphframes/issues/172