带有 Glue 目录的 AWS EMR,明确指定 catalogId

AWS EMR with Glue catalog, specify catalogId explicitly

有没有办法在 EMR 配置中明确指定 Glue catalogId?

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html

这展示了如何指定在 EMR 中为 Hive 元存储使用 Glue,但没有记录任何参数来指定将传递给 Glue API 调用的 catalogId(大概默认为帐户 ID) .

文档后面确实提到“...如果集群在不同的 AWS 账户中”,这似乎暗示有一种方法可以将 EMR 集群指向不同账户中的 Glue 目录。

这似乎是最近添加的。相关的属性是hive.metastore.glue.catalogid,在hive-site

之内

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html

"In addition, with Amazon EMR 5.16.0 and later, you can use the configuration classification to specify a Data Catalog in a different AWS account."

"To specify a Data Catalog in a different AWS account, add the hive.metastore.glue.catalogid property as shown in the following example"