AWS Glue 与其开发端点之间的差异

Discrepancy between AWS Glue and its Dev Endpoint

我的理解是 AWS Glue 中的 Dev Endpoints 可用于迭代开发代码,然后将其部署到 Glue 作业。我发现这在开发 Spark 作业时特别有用,因为每次 运行 一个作业,都需要几分钟才能在后台启动 Hadoop 集群。但是,在 Glue 而不是 Spark 中使用 Python shell 时,我发现存在差异。 Import pg 在我使用 Sagemaker JupyterLab Python notebook 创建的 Dev Endpoint 中不工作,但在我使用 Python shell 创建作业时在 AWS Glue 中工作。 Glue 中的开发端点中不应该存在相同的库吗?如果您不能在两个地方(开发端点和 Glue 作业)重现相同的代码,那么拥有开发端点有什么意义?

首先,Python shell 作业不会在后端启动 Hadooo 集群,因为它不会为您的作业提供 Spark 环境。 其次,由于 PyGreSQL 不是用 Pure Python 编写的,因此它不适用于 Glue 的本地环境(Glue Spark Job、Dev 端点等) 第三,Python Shell 对某些内置包有额外的支持。

因此,我看不出将 DevEndpoint 用于 Python Shell 作业的意义。