Google Cloud 的 Spark 1.4 映像?
Spark 1.4 image for Google Cloud?
使用 bdutil,我能找到的最新版本的 tarball 在 spark 1.3.1 上:
gs://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz
我想使用 Spark 1.4 中的一些新 DataFrame 功能。 Spark 1.4 映像是否可用于 bdutil 或任何解决方法?
更新:
根据Angus Davis的建议,下载并指向spark-1.4.1-bin-hadoop2.6.tgz,部署顺利;然而,运行 在调用 SqlContext.parquetFile() 时出错。我无法解释为什么会出现这种异常,GoogleHadoopFileSystem 应该是 org.apache.hadoop.fs.FileSystem 的子类。将继续对此进行调查。
Caused by: java.lang.ClassCastException: com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem cannot be cast to org.apache.hadoop.fs.FileSystem
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2595)
at org.apache.hadoop.fs.FileSystem.access0(FileSystem.java:91)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2630)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2612)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:370)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:169)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:354)
at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
at org.apache.hadoop.hive.metastore.Warehouse.getFs(Warehouse.java:112)
at org.apache.hadoop.hive.metastore.Warehouse.getDnsPath(Warehouse.java:144)
at org.apache.hadoop.hive.metastore.Warehouse.getWhRoot(Warehouse.java:159)
at org.apache.hadoop.hive.metastore.Warehouse.getDefaultDatabasePath(Warehouse.java:177)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB_core(HiveMetaStore.java:504)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB(HiveMetaStore.java:523)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.init(HiveMetaStore.java:397)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.<init>(HiveMetaStore.java:356)
at org.apache.hadoop.hive.metastore.RetryingHMSHandler.<init>(RetryingHMSHandler.java:54)
at org.apache.hadoop.hive.metastore.RetryingHMSHandler.getProxy(RetryingHMSHandler.java:59)
at org.apache.hadoop.hive.metastore.HiveMetaStore.newHMSHandler(HiveMetaStore.java:4944)
at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.<init>(HiveMetaStoreClient.java:171)
询问了一个关于异常的单独问题
更新:
错误原来是Spark缺陷; resolution/workaround在上述问题中提供。
谢谢!
海英
如果可以接受本地解决方法,您可以将 spark-1.4.1-bin-hadoop2.6.tgz 从 apache 镜像复制到您控制的存储桶中。然后,您可以编辑 extensions/spark/spark-env.sh 并更改 SPARK_HADOOP2_TARBALL_URI=''(确保您的 VM 的服务帐户 运行 有权读取 tarball ).
请注意,我还没有进行 任何 测试以查看 Spark 1.4.1 现在是否开箱即用,但我很想听听您的经验,如果你决定试一试。
使用 bdutil,我能找到的最新版本的 tarball 在 spark 1.3.1 上:
gs://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz
我想使用 Spark 1.4 中的一些新 DataFrame 功能。 Spark 1.4 映像是否可用于 bdutil 或任何解决方法?
更新:
根据Angus Davis的建议,下载并指向spark-1.4.1-bin-hadoop2.6.tgz,部署顺利;然而,运行 在调用 SqlContext.parquetFile() 时出错。我无法解释为什么会出现这种异常,GoogleHadoopFileSystem 应该是 org.apache.hadoop.fs.FileSystem 的子类。将继续对此进行调查。
Caused by: java.lang.ClassCastException: com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem cannot be cast to org.apache.hadoop.fs.FileSystem
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2595)
at org.apache.hadoop.fs.FileSystem.access0(FileSystem.java:91)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2630)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2612)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:370)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:169)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:354)
at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
at org.apache.hadoop.hive.metastore.Warehouse.getFs(Warehouse.java:112)
at org.apache.hadoop.hive.metastore.Warehouse.getDnsPath(Warehouse.java:144)
at org.apache.hadoop.hive.metastore.Warehouse.getWhRoot(Warehouse.java:159)
at org.apache.hadoop.hive.metastore.Warehouse.getDefaultDatabasePath(Warehouse.java:177)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB_core(HiveMetaStore.java:504)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB(HiveMetaStore.java:523)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.init(HiveMetaStore.java:397)
at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.<init>(HiveMetaStore.java:356)
at org.apache.hadoop.hive.metastore.RetryingHMSHandler.<init>(RetryingHMSHandler.java:54)
at org.apache.hadoop.hive.metastore.RetryingHMSHandler.getProxy(RetryingHMSHandler.java:59)
at org.apache.hadoop.hive.metastore.HiveMetaStore.newHMSHandler(HiveMetaStore.java:4944)
at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.<init>(HiveMetaStoreClient.java:171)
询问了一个关于异常的单独问题
更新:
错误原来是Spark缺陷; resolution/workaround在上述问题中提供。
谢谢!
海英
如果可以接受本地解决方法,您可以将 spark-1.4.1-bin-hadoop2.6.tgz 从 apache 镜像复制到您控制的存储桶中。然后,您可以编辑 extensions/spark/spark-env.sh 并更改 SPARK_HADOOP2_TARBALL_URI='
请注意,我还没有进行 任何 测试以查看 Spark 1.4.1 现在是否开箱即用,但我很想听听您的经验,如果你决定试一试。