从列描述中识别个人信息

Identifying personnal information from column description

我对GDPR（通用数据保护条例）相关语句的识别有疑问。 Python、Java、...中是否有工具/方法可以识别数据库列是否仅包含其描述中的个人身份信息？

我们可能会考虑使用词嵌入来获取给定句子中的“most_similar”或“most_similar_cosmul”词，然后识别与 GDPR 相关的关键字（生物识别、个人、身份证、照片） ...) 但结果取决于词嵌入模型的稳健性。

提前致谢，

GDPR 中没有“个人身份信息”这样的东西。该术语（来自 GDPR article 4(1)）是“个人数据”，定义为：

any information relating to an identified or identifiable natural person

而且它本身并不一定要识别才能符合条件。什么是“可识别自然人”？ GDPR 说：

an identifiable natural person is one who can be identified, directly or indirectly, in particular by reference to an identifier such as a name, an identification number, location data, an online identifier or to one or more factors specific to the physical, physiological, genetic, mental, economic, cultural or social identity of that natural person

这里将常规“数据”变成“个人数据”的关键是“一个或多个因素”短语。可以合理地将单个字段（例如 phone 数字）视为唯一标识一个人。邮政编码本身可能不会，但是当与街道地址和名字结合使用时，我们将非常接近能够识别某人的身份，因此所有其他数据都将成为“个人”。很难评估一组字段是否足以唯一标识某人 - 您可能认为名字和城市可能无法标识个人，给定“John”和“London”，但“Esmerelda”和“Ulaanbaatar”可能很容易追踪，这是“最坏的情况”。

举一个更简单的例子：#663399这样的颜色值本身只是普通的“数据”，不是“个人数据”，也不是主题到 GDPR。在 table 的字段中存储的与“最喜欢的颜色”完全相同的值将数据链接到一个人是个人数据。 table 个城市中的“城市”不是个人数据，但用户 table 中的“城市”字段是个人数据。

简而言之，您将无法为所欲为。由于上下文不够，无法从字段名称判断字段是否为个人数据。

从列描述中识别个人信息

Identifying personnal information from column description

python

java

nlp

privacy

word-embedding