在 PySpark 中执行 Postgresql 存储过程

Execute Postgresql Stored Procedure in PySpark

我正在 AWS Glue 中开发 Pyspark 我想在 Postgresql 数据库上执行 Stored Procedure/Function 可能吗? 语法是什么?需要什么特殊套餐吗?

安库尔

  1. 您可以尝试使用像 pg8000 这样的模块来运行这个功能
  2. 您也可以尝试调用 postgres 函数,就像调用 select 来自特定 table 的数据一样,使用格式为 jdbc 的 spark 读取函数。考虑到 glue 在后端使用 pyspark,我想只要给出函数名称而不是 table 名称,就可以解决问题。请记住将 jdbc 驱动程序添加到您的粘合作业中

例如:您可以在 spark

中执行此操作
jdbcDF = spark.read.format("jdbc").option("url","jdbc:postgresql://host:5432/db").option("driver", "org.postgresql.Driver").option("query", "SELECT * from  function()").option("user", "user").option("password", "password").load()