与 Dataproc + Datalab + 源代码存储库集成

Question

有人可以集成 Dataproc、Datalab 和源代码存储库吗？正如我们许多人所见，当您调用 init 操作来安装 datalab 时，它不会创建源代码存储库。我正在尝试实现一个完整的端到端解决方案，其中用户登录到数据实验室笔记本，通过 Pyspark 与 Dataproc 交互，并将笔记本签入源代码存储库。我无法像我之前指出的那样使用 init 操作来做到这一点。我还尝试安装 dataproc，然后将 datalab 作为单独的安装（这次它创建了源代码库），但是，我无法运行在此 datalab 笔记本上使用任何 spark 代码。有人可以给我一些关于如何实现这一目标的指示吗？不胜感激。

Datalab 中的代码

from pyspark.sql import HiveContext
hc=HiveContext(sc)
hc.sql("""show databases""").show()
hc.sql("""CREATE EXTERNAL TABLE IF NOT EXISTS INVOICES
      (SubmissionDate DATE, TransactionAmount DOUBLE, TransactionType STRING)
      STORED AS PARQUET
      LOCATION 'gs://my-exercise-project-2019016-ds-team/datasets/invoices'""")
hc.sql("""select * from invoices limit 10""").show()

错误

Py4JJavaError: An error occurred while calling o55.sql.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2395)
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:3208)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3240)
    at org.apache.hadoop.fs.FileSystem.access0(FileSystem.java:121)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3291)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3259)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:470)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:356)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$or

Answer 1

遗憾的是，需要做一些准备工作才能通过 init 操作在 Cloud Source Repositories 中创建 datalab-notebooks 存储库。

原因是创建存储库需要 VM 的服务帐户对项目具有 "source.repos.create" IAM 权限，默认情况下并非如此。

您可以将该权限授予服务帐户，然后通过 gcloud source repos create datalab-notebooks 创建存储库，或者在创建集群之前手动创建存储库。

然后，要在启动脚本中克隆存储库，请添加以下行：

mkdir -p ${HOME}/datalab
gcloud source repos clone datalab-notebooks ${HOME}/datalab/notebooks

如果您要修改 Datalab 的固定初始化操作，那么我建议添加这些行 here

与 Dataproc + Datalab + 源代码存储库集成

Integration with Dataproc + Datalab + Source Code repos

google-cloud-source-repos

google-cloud-dataproc

google-cloud-datalab

Datalab 中的代码