从已弃用的 freebase 中查找所有实体名称

Finding all entity names from deprecated freebase

我正在训练一些将单词表示为向量的机器学习模型,使用 freebase 作为训练数据。由于 API 已被弃用,我正在使用原始的 freebase 转储,它现在是一个包含 31 亿个三元组的列表,包含超过 5 亿个不同的实体 (subject/object),我想减少这个数字。

我想删除所有仅表示主题名称的三元组,以便仅保留包含 MID 的三元组。但是,我发现了多个可能的谓词,这些谓词定义了一个实体的 'name'。

i) common.notable_for.display_name
ii) type.object.name
iii) /rdf-schema#label

我有 3 个问题:

a) 上面的谓词有区别吗?
b) 是否还有任何额外的谓词也描述了实体的名称?
c) 除了定义名称的三元组之外,该名称是否曾经出现在其他三元组中,而不是 MID?

感谢您的帮助!

您应该只关注 type.object.name,即包含主题名称的架构 属性。

/rdf-schema#label 是均衡,它不是 freebase 架构的一部分。

common.notable_for.display_name 描述为:"Localized/gender appropriate display name for the notable object.",它也是 CVT(复合值类型)中的一个 属性,它包含不同类型的信息:"of all types that a topic has, what't it most "重要”。据我记得 "Larry Page" 是一个 "entrepreneur"。所以你不需要这个 属性。专注于 TON type.object.name