AWS 胶水:在 aws 环境中部署模型
AWS glue: Deploy model in aws environment
根据我们的 AWS 环境,我们有 2 种不同类型的 SAG(服务帐户组)用于数据存储。一个 SAG 用于通用存储,另一个 SAG 用于安全数据,它将仅保存 PII 或受限数据。在我们的环境中,我们计划部署 Glue 。在这种情况下 ,
我们会在安全和不安全的情况下拥有一个元存储吗?
如果我们需要两个元存储,这将如何与 Databricks 一起使用?
如果是一个 Metastore,如何处理安全数据?
请在 .
中帮助我们了解更多详情
在 AWS Glue 中,每个 AWS 账户在每个区域都有一个持久性元数据存储(称为 Glue 数据目录)。
它包含数据库定义、table 定义、作业定义和其他用于管理您的 AWS Glue 环境的控制信息。您使用 IAM 管理对该对象的权限(例如,谁可以对该对象进行 GetTable 或 GetDatabase API 调用)。
除了 AWS Glue 权限之外,您还需要配置对数据本身的权限(例如,谁可以对存储在 S3 上的数据进行 GetObject API 调用)。
所以,回答你的问题。是的,您将拥有一个单一的数据目录。
但是,根据您的安全要求,您可以为元数据和内容定义 resource-based 和 role-based 权限。
- 如果您使用一个区域和一个 AWS 账户,则安全数据和通用数据将只有一个元存储,您将必须使用 fine grained access policies 来处理访问。
- 更好的方法是在单个 AWS 账户中使用 2 个不同的区域,或者使用两个不同的 AWS 账户,以便轻松管理两个不同元存储的访问。
要将您的 Metastore 与 (1) 的 Databricks 集成,您将必须创建两个具有资源级访问权限的 Glue Catalog 实例配置文件。一个实例配置文件将有权访问通用数据库和表,而另一个实例配置文件将有权访问安全数据库和表。
要将元存储与 Databricks 集成 (2),您只需创建两个 Glue Catalog 实例配置文件即可访问相应的元存储。
建议使用第二个选项,因为它可以为您节省大量的维护成本和更长的人为错误 运行。有关 Glue Catalog and Databricks integration.
的更多详细信息
编辑:
根据评论中的讨论,如果我们必须在同一个 Databricks Runtime 中访问两个数据集,则选项 2 将不起作用。选项 1 可以与 2 个权限集一起使用。首先仅适用于通用数据,其次适用于通用数据和安全数据。
根据我们的 AWS 环境,我们有 2 种不同类型的 SAG(服务帐户组)用于数据存储。一个 SAG 用于通用存储,另一个 SAG 用于安全数据,它将仅保存 PII 或受限数据。在我们的环境中,我们计划部署 Glue 。在这种情况下 , 我们会在安全和不安全的情况下拥有一个元存储吗? 如果我们需要两个元存储,这将如何与 Databricks 一起使用? 如果是一个 Metastore,如何处理安全数据? 请在 .
中帮助我们了解更多详情在 AWS Glue 中,每个 AWS 账户在每个区域都有一个持久性元数据存储(称为 Glue 数据目录)。 它包含数据库定义、table 定义、作业定义和其他用于管理您的 AWS Glue 环境的控制信息。您使用 IAM 管理对该对象的权限(例如,谁可以对该对象进行 GetTable 或 GetDatabase API 调用)。
除了 AWS Glue 权限之外,您还需要配置对数据本身的权限(例如,谁可以对存储在 S3 上的数据进行 GetObject API 调用)。
所以,回答你的问题。是的,您将拥有一个单一的数据目录。 但是,根据您的安全要求,您可以为元数据和内容定义 resource-based 和 role-based 权限。
- 如果您使用一个区域和一个 AWS 账户,则安全数据和通用数据将只有一个元存储,您将必须使用 fine grained access policies 来处理访问。
- 更好的方法是在单个 AWS 账户中使用 2 个不同的区域,或者使用两个不同的 AWS 账户,以便轻松管理两个不同元存储的访问。
要将您的 Metastore 与 (1) 的 Databricks 集成,您将必须创建两个具有资源级访问权限的 Glue Catalog 实例配置文件。一个实例配置文件将有权访问通用数据库和表,而另一个实例配置文件将有权访问安全数据库和表。
要将元存储与 Databricks 集成 (2),您只需创建两个 Glue Catalog 实例配置文件即可访问相应的元存储。
建议使用第二个选项,因为它可以为您节省大量的维护成本和更长的人为错误 运行。有关 Glue Catalog and Databricks integration.
的更多详细信息编辑: 根据评论中的讨论,如果我们必须在同一个 Databricks Runtime 中访问两个数据集,则选项 2 将不起作用。选项 1 可以与 2 个权限集一起使用。首先仅适用于通用数据,其次适用于通用数据和安全数据。