一些维基数据标签不明确(与 Q 标识符没有 one-to-one 对应关系)

Some Wikidata labels are ambiguous (do not have one-to-one correspondence with Q identifiers)

我一直在深入研究维基数据,我发现了一个可能令人不安的问题。我原以为每个标签都会有一个 one-to-one (bijective) 与标识符的对应关系。但是,我发现情况并非如此。

我不确定这是否是我应该向维基数据人员提出的主要问题。

例如维基数据中的标签"noise"有3个QID:

现在,每个 QID 都与维基百科页面一一对应,每个页面都有一个标题,可以消除 "noise" 它所指的歧义。

下面是上述问题的说明:

那么为什么维基数据没有标签来区分 "noise" 是什么类型呢?例如,Q11306265 应该有一个名为 "noise (electronics)".

的标签

我发现了 300 多个这样模棱两可的标签。以下是更多示例:

"George Washington":

"The Four Seasons":

"Symphony No. 9":

然而,绝大多数维基数据标签都是明确的。例如,"football" 可以像这样正确地消除歧义:

这就是它的本意,而且可能有数十万个这样的项目。

维基数据的命名方法是让标签成为"the most common name that the item would be known by" (WD Help:Label)

需要human-readable消歧的地方,可以使用描述字段;有一个技术要求,如果有任何给定语言的标签+描述,那么这对应该是唯一的,但是[相同标签]+[不同描述]或[相同标签]+[无描述]都是允许的。

当然,一般规则并不总是在实践中完全适用。您有时确实会看到人们选择 disambiguation-first 方法的情况,例如两种类型的足球 - 尽管在这种情况下,使用 "association football" 巧妙地解决了 "football" 和 [=30] 之间的冲突=] 作为主要名称。您有时还会看到名称中带有 Wikipedia-type“(消歧义符)”注释的项目 - 这通常是意外导入的,并且从未清理过。

但总的来说,标签不是唯一的,也不打算是唯一的。

您提到了维基百科 - 在这里,文章标题是唯一的,因为每篇文章都必须位于特定的 URL,并且页面标题被定义为与 URL 相同。要求在标题中消除歧义是不可避免的,因为您不能在单个 URL 上显示两个不同的概念而不引起很多混淆。维基数据项在其 URL 中使用数字 ID,因此压力已被消除。