Spark + HAWQ 集成(HDP 2.4.2)

Spark + HAWQ Integration (HDP 2.4.2)

我正在使用 HDP 2.4.2 我想将 Spark 与 HAWQ 连接以进行数据摄取。

如果有任何recommended/correct方法,请告诉我,目前我正在使用postgress jdbc驱动程序将spark与HAWQ连接起来。我面临

这样的问题

-如果 table 不存在,DataFrame 会在 HAWQ 中自动创建 table。

-记录摄取太慢。

-间歇性地显示 "org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists".

等错误

请参阅此示例 Scala 项目以通过 Spark RDD 读取 HAWQ 数据:https://github.com/kdunn926/sparkHawq

如果您希望使用 HAWQ 读取 Spark 生成的数据,最好的选择是从 Spark 写入 HDFS,然后使用 PXF 与 HAWQ 读取它。请参阅此处的文档:http://hdb.docs.pivotal.io/200/hawq/pxf/PivotalExtensionFrameworkPXF.html