如何连接到 Pivotal HD(来自 Spark)?

How to connect to Pivotal HD (from Spark)?

我想知道如何将 Spark 应用程序连接到 Pivotal HD,一个 Hadoop 实现。

使用 Spark 连接到它的最佳方式是什么?

val jdbcDataFrame = sqlContext.read.format("jdbc").options(
  Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()

我看到您的问题已被编辑,但我会尽力回答您的所有问题。

Pivotal HD(以前称为 Greenplum HD)是一个 Hadoop 发行版,因此您应该像使用任何 Hadoop/HDFS 发行版一样使用它。具体来说:

text_file = spark.textFile("hdfs://...")

或者对于通过 YARN 的 运行 个作业,请参阅:

http://spark.apache.org/docs/latest/running-on-yarn.html

Greenplum DB(分布式 Postgres)不支持 Pivotal HD。例外情况是,如果您指的是 Pivotal HAWQ,它实际上是 HDFS 之上的 Greenplum DB。

Greenplum 是一家构建 Greenplum DB 和 Greenplum HD 的公司,已被 EMC 收购。随后,EMC 将几家企业归入 'Pivotal Initiative',将 Greenplum DB 更名为 'Pivotal Greenplum Database',将 Greenplum HD 更名为 'Pivotal HD'。