AWS RDS 中数据的数据屏蔽
Data masking for data in AWS RDS
我有一个 AWS RDS (AuroraDB),我想屏蔽数据库上的数据。亚马逊是否提供任何数据屏蔽服务?
我见过 RDS 加密,但我正在寻找数据屏蔽,因为数据库包含敏感数据。所以我想知道他们是否提供任何数据屏蔽服务,或者是否有任何其他工具可用于屏蔽数据并将其手动添加到数据库中?
如果有适用于我的案例的工具列表,我将非常感激。因为我需要屏蔽这些数据以进行测试,因为原始数据库包含敏感信息,如 PII(个人身份信息)。我还必须将这些数据传输给我的同事,所以我认为数据屏蔽是一个重要因素。
谢谢。
这是一个很好的问题,我认为许多人应该注意您保护企业最有价值资产的积极主动的方法,尤其是当您与同事共享数据时.让人们只看到他们需要看到的东西无疑是减少攻击面的好方法。在我看来,标准的网络安全方法已经不够用了,许多 attacks/people 丢失 laptops/usbs 敏感数据就证明了这一点。毕竟我们只是人类。随着 GDPR 将于明年 5 月生效,任何在欧盟拥有客户的公司都必须通过设计和匿名技术(例如屏蔽)来证明隐私。
注意:我对这个答案有既得利益,因为我正在从事您正在谈论的此类服务。
我们发现,根据您的具体用例,数据集的大小和内容将取决于您的屏蔽方法。如果您的数据集的字段最少并且您知道 PII 的位置,则可以 运行 标准查询来替换敏感值。即约翰 -> XXXX。如果您想保持一些人类可读性,可以使用诸如 Python's Faker 之类的库生成基于随机区域设置的 PII,您可以将敏感值替换为。 (PHP Faker、Perl Faker 和 Ruby Faker 也存在)。
免责声明:直接屏蔽并不能保证完全隐私。想一想有人通过与带时间戳的 IMDB 数据或卫报记者交叉引用来从蒙面的 Netflix 数据集中识别个人 identifying a Judges porn preferences from masked ISP data。
随着您的数据集在 fields/tables 中增加,屏蔽确实变得乏味,您可能想为不同的同事设置不同级别的访问权限。即数据科学获得轻度匿名数据,营销获得高度匿名数据。自由文本字段中的 PII 很烦人,通常了解世界上有哪些数据可供攻击者用来交叉引用是一项艰巨的任务。
service i'm working on 旨在通过使用 NLP 技术自动化流程和对匿名数学的深入理解来缓解所有这些问题。我们将其捆绑到一个网络服务中,我们热衷于在 AWS 市场上推出。所以我很想听听更多关于您的用例的信息,如果您想要抢先体验,我们目前处于私人测试阶段,请告诉我。
如果您使用 CSV 或 JSON 文件导出或导入数据(即与您的同事共享),那么您可以使用 FileMasker。它可以 运行 作为 AWS Lamdbda 函数 reading/writing CSV/JSON S3 上的文件。
它仍在开发中,但如果您想现在尝试测试版,请与我联系。
免责声明:我为 FileMasker 的开发者 DataVeil 工作。
我有一个 AWS RDS (AuroraDB),我想屏蔽数据库上的数据。亚马逊是否提供任何数据屏蔽服务?
我见过 RDS 加密,但我正在寻找数据屏蔽,因为数据库包含敏感数据。所以我想知道他们是否提供任何数据屏蔽服务,或者是否有任何其他工具可用于屏蔽数据并将其手动添加到数据库中?
如果有适用于我的案例的工具列表,我将非常感激。因为我需要屏蔽这些数据以进行测试,因为原始数据库包含敏感信息,如 PII(个人身份信息)。我还必须将这些数据传输给我的同事,所以我认为数据屏蔽是一个重要因素。
谢谢。
这是一个很好的问题,我认为许多人应该注意您保护企业最有价值资产的积极主动的方法,尤其是当您与同事共享数据时.让人们只看到他们需要看到的东西无疑是减少攻击面的好方法。在我看来,标准的网络安全方法已经不够用了,许多 attacks/people 丢失 laptops/usbs 敏感数据就证明了这一点。毕竟我们只是人类。随着 GDPR 将于明年 5 月生效,任何在欧盟拥有客户的公司都必须通过设计和匿名技术(例如屏蔽)来证明隐私。
注意:我对这个答案有既得利益,因为我正在从事您正在谈论的此类服务。
我们发现,根据您的具体用例,数据集的大小和内容将取决于您的屏蔽方法。如果您的数据集的字段最少并且您知道 PII 的位置,则可以 运行 标准查询来替换敏感值。即约翰 -> XXXX。如果您想保持一些人类可读性,可以使用诸如 Python's Faker 之类的库生成基于随机区域设置的 PII,您可以将敏感值替换为。 (PHP Faker、Perl Faker 和 Ruby Faker 也存在)。
免责声明:直接屏蔽并不能保证完全隐私。想一想有人通过与带时间戳的 IMDB 数据或卫报记者交叉引用来从蒙面的 Netflix 数据集中识别个人 identifying a Judges porn preferences from masked ISP data。
随着您的数据集在 fields/tables 中增加,屏蔽确实变得乏味,您可能想为不同的同事设置不同级别的访问权限。即数据科学获得轻度匿名数据,营销获得高度匿名数据。自由文本字段中的 PII 很烦人,通常了解世界上有哪些数据可供攻击者用来交叉引用是一项艰巨的任务。
service i'm working on 旨在通过使用 NLP 技术自动化流程和对匿名数学的深入理解来缓解所有这些问题。我们将其捆绑到一个网络服务中,我们热衷于在 AWS 市场上推出。所以我很想听听更多关于您的用例的信息,如果您想要抢先体验,我们目前处于私人测试阶段,请告诉我。
如果您使用 CSV 或 JSON 文件导出或导入数据(即与您的同事共享),那么您可以使用 FileMasker。它可以 运行 作为 AWS Lamdbda 函数 reading/writing CSV/JSON S3 上的文件。 它仍在开发中,但如果您想现在尝试测试版,请与我联系。 免责声明:我为 FileMasker 的开发者 DataVeil 工作。