AWS 胶水:在 aws 环境中部署模型

AWS glue: Deploy model in aws environment

根据我们的 AWS 环境,我们有 2 种不同类型的 SAG(服务帐户组)用于数据存储。一个 SAG 用于通用存储,另一个 SAG 用于安全数据,它将仅保存 PII 或受限数据。在我们的环境中,我们计划部署 Glue 。在这种情况下 , 我们会在安全和不安全的情况下拥有一个元存储吗? 如果我们需要两个元存储,这将如何与 Databricks 一起使用? 如果是一个 Metastore,如何处理安全数据? 请在 .

中帮助我们了解更多详情

在 AWS Glue 中,每个 AWS 账户在每个区域都有一个持久性元数据存储(称为 Glue 数据目录)。 它包含数据库定义、table 定义、作业定义和其他用于管理您的 AWS Glue 环境的控制信息。您使用 IAM 管理对该对象的权限(例如,谁可以对该对象进行 GetTable 或 GetDatabase API 调用)。

除了 AWS Glue 权限之外,您还需要配置对数据本身的权限(例如,谁可以对存储在 S3 上的数据进行 GetObject API 调用)。

所以,回答你的问题。是的,您将拥有一个单一的数据目录。 但是,根据您的安全要求,您可以为元数据和内容定义 resource-based 和 role-based 权限。

您可以在此处找到详细的概述 - https://aws.amazon.com/blogs/big-data/restrict-access-to-your-aws-glue-data-catalog-with-resource-level-iam-permissions-and-resource-based-policies

  1. 如果您使用一个区域和一个 AWS 账户,则安全数据和通用数据将只有一个元存储,您将必须使用 fine grained access policies 来处理访问。
  2. 更好的方法是在单个 AWS 账户中使用 2 个不同的区域,或者使用两个不同的 AWS 账户,以便轻松管理两个不同元存储的访问。

要将您的 Metastore 与 (1) 的 Databricks 集成,您将必须创建两个具有资源级访问权限的 Glue Catalog 实例配置文件。一个实例配置文件将有权访问通用数据库和表,而另一个实例配置文件将有权访问安全数据库和表。

要将元存储与 Databricks 集成 (2),您只需创建两个 Glue Catalog 实例配置文件即可访问相应的元存储。

建议使用第二个选项,因为它可以为您节省大量的维护成本和更长的人为错误 运行。有关 Glue Catalog and Databricks integration.

的更多详细信息

编辑: 根据评论中的讨论,如果我们必须在同一个 Databricks Runtime 中访问两个数据集,则选项 2 将不起作用。选项 1 可以与 2 个权限集一起使用。首先仅适用于通用数据,其次适用于通用数据和安全数据。