如何连接到 Pivotal HD（来自 Spark）？

Question

我想知道如何将 Spark 应用程序连接到 Pivotal HD，一个 Hadoop 实现。

使用 Spark 连接到它的最佳方式是什么？

val jdbcDataFrame = sqlContext.read.format("jdbc").options(
  Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()

Answer 1

我看到您的问题已被编辑，但我会尽力回答您的所有问题。

Pivotal HD（以前称为 Greenplum HD）是一个 Hadoop 发行版，因此您应该像使用任何 Hadoop/HDFS 发行版一样使用它。具体来说：

text_file = spark.textFile("hdfs://...")

或者对于通过 YARN 的运行个作业，请参阅：

http://spark.apache.org/docs/latest/running-on-yarn.html

Greenplum DB（分布式 Postgres）不支持 Pivotal HD。例外情况是，如果您指的是 Pivotal HAWQ，它实际上是 HDFS 之上的 Greenplum DB。

Greenplum 是一家构建 Greenplum DB 和 Greenplum HD 的公司，已被 EMC 收购。随后，EMC 将几家企业归入 'Pivotal Initiative'，将 Greenplum DB 更名为 'Pivotal Greenplum Database'，将 Greenplum HD 更名为 'Pivotal HD'。

如何连接到 Pivotal HD（来自 Spark）？

How to connect to Pivotal HD (from Spark)?

hadoop

scala

greenplum

apache-spark

hawq