Spark + HAWQ 集成(HDP 2.4.2)
Spark + HAWQ Integration (HDP 2.4.2)
我正在使用 HDP 2.4.2 我想将 Spark 与 HAWQ 连接以进行数据摄取。
如果有任何recommended/correct方法,请告诉我,目前我正在使用postgress jdbc驱动程序将spark与HAWQ连接起来。我面临
这样的问题
-如果 table 不存在,DataFrame 会在 HAWQ 中自动创建 table。
-记录摄取太慢。
-间歇性地显示 "org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists"
.
等错误
请参阅此示例 Scala 项目以通过 Spark RDD 读取 HAWQ 数据:https://github.com/kdunn926/sparkHawq
如果您希望使用 HAWQ 读取 Spark 生成的数据,最好的选择是从 Spark 写入 HDFS,然后使用 PXF 与 HAWQ 读取它。请参阅此处的文档:http://hdb.docs.pivotal.io/200/hawq/pxf/PivotalExtensionFrameworkPXF.html
我正在使用 HDP 2.4.2 我想将 Spark 与 HAWQ 连接以进行数据摄取。
如果有任何recommended/correct方法,请告诉我,目前我正在使用postgress jdbc驱动程序将spark与HAWQ连接起来。我面临
这样的问题-如果 table 不存在,DataFrame 会在 HAWQ 中自动创建 table。
-记录摄取太慢。
-间歇性地显示 "org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists"
.
请参阅此示例 Scala 项目以通过 Spark RDD 读取 HAWQ 数据:https://github.com/kdunn926/sparkHawq
如果您希望使用 HAWQ 读取 Spark 生成的数据,最好的选择是从 Spark 写入 HDFS,然后使用 PXF 与 HAWQ 读取它。请参阅此处的文档:http://hdb.docs.pivotal.io/200/hawq/pxf/PivotalExtensionFrameworkPXF.html