在 PySpark 中执行 Postgresql 存储过程

Execute Postgresql Stored Procedure in PySpark

我正在 AWS Glue 中开发 Pyspark 我想在 Postgresql 数据库上执行 Stored Procedure/Function 可能吗？语法是什么？需要什么特殊套餐吗？

安库尔

您可以尝试使用像 pg8000 这样的模块来运行这个功能
您也可以尝试调用 postgres 函数，就像调用 select 来自特定 table 的数据一样，使用格式为 jdbc 的 spark 读取函数。考虑到 glue 在后端使用 pyspark，我想只要给出函数名称而不是 table 名称，就可以解决问题。请记住将 jdbc 驱动程序添加到您的粘合作业中

例如：您可以在 spark

中执行此操作

jdbcDF = spark.read.format("jdbc").option("url","jdbc:postgresql://host:5432/db").option("driver", "org.postgresql.Driver").option("query", "SELECT * from  function()").option("user", "user").option("password", "password").load()