Amazon Deequ 的 Pyspark 版本

Pyspark version of Amazon Deequ

我正在使用 AWS Glue 并将 pyspark API 用于我的 ETL。 我相信如果我需要使用 Amazon Deequ,我需要切换到 Scala。但是我仍然希望 contine 使用 Pyspark APIs。有出路吗? 如果是,我需要在 AWS Glue 中执行哪些步骤?

谢谢

Deequ 有一个 Python 包装器,叫做 PyDeequ,应该可以用,虽然我自己没用过。

如果您想使用 Python,我建议您查看 Great Expectations library,它实现的功能与 Deequ 非常相似,包括对 PySpark 的支持。