在两个不同的公司数据集之间映射实体

Mapping entities between two disparate company datasets

我有几个包含公司数据的数据集: - entity_structure(列:entity_id、parent_entity_id、ultimate_parent_id) - entity_addresses(列:address_id、entity_id、location_city、州、postal_code、邮政编码、街道...) - 供应商(列:vendor_id、parent_vendor_id、top_vendor_id、cnt_children、orgtype_id、geo_id、姓名、电子邮件... ) - 地理(列:geo_id、邮政编码、is_primary、纬度、经度、海拔、州...) - entity_coverage (entity_id, 名称, proper_name, sic_code, industry_code, sector_code, iso, ...)

我需要在数据集之间自动映射实体,例如,一个数据集中可能有一个名为 "Google" 的公司,而另一个数据集中有一个名为 "Google 123" 的公司。我需要能够以足够高的信心确定这些是相同的实体。在大多数情况下,数据不共享唯一密钥。在大多数情况下,数据不共享唯一键。

命名实体链接是最好的方法吗?是否有任何 Python 示例说明如何解决此问题?

根据您的示例,Levenshtein Distance 可能会有所帮助。