有多少维基数据是有机的?

How much of Wikidata is organic (user-entered independent of Wikipedia)?

我想弄清楚有多少维基数据条目是“有机”的,即由人类输入且独立于维基百科的数据。

  1. Wikidata introduction page 说“自动机器人也将数据输入维基数据”。是否有关于机器人输入了多少维基数据的统计数据?

  2. 我知道维基数据是一个独立于维基百科的组织。是否有关于有多少维基数据条目来自维基百科的统计数据? (例如,某人阅读维基百科文章,发现维基数据中没有的事实,然后使用该维基百科文章作为参考将该事实输入维基数据。)

我熟悉 Wikidata 的 SPARQL API 并且可以查找任何可能需要的东西来解决这些问题。

当您检查 "recent changes"(并停用“仅人类”过滤器)或任何特定 page/item 的历史记录时,机器人会标有一点 'b',他们的名字也以“...Bot”结尾。

如果您仅通过“语句数”来衡量,机器人可能会添加大部分数据。如果按 importance/number 的观看次数来权衡,人类可能领先。

一个你没有提到但可能很重要的群体是“介于两者之间”:人们使用 OpenRefine 或 QuickStatements 来 semi-manually 匹配(“协调”)一些外部数据集并导入它。例如,计算生物学社区确实以这种形式使用维基数据作为一种中心。

从维基百科导入提供了很多结构,因为每个页面都有它的维基数据项(而且只有一个)。但大部分数据来自其他 public 数据集。

出于我无法理解的原因,一些维基百科和维基数据之间的关系并不总是完美的。而且由于每个项目在此类问题上都有很大的自由度,所以有些项目已经不再使用维基数据作为存储结构化信息的后端,而是在做自己的事情。当发生这种情况时,任何一个人都会至少在一个方向上继续同步它。或者数据开始出现分歧。例如,最近,英文维基百科决定使用一些 home-grown 管理短页面描述的方法。

(编辑,回答评论中的问题:)Quality-control 机器人数据通常与其他编辑相同,除了机器人编辑(以及类似的,例如使用 QuickStatement 的编辑)被标记为这样.

最近页面的概述以及将项目添加到您的个人关注列表的能力都会引起人们对任何变化的注意。还有一个 AI 系统(与 en.wikipedia.org 相同)预测 bad-faith 和 low-quality 编辑,它们被标记为这样,在更改中突出显示,并在过滤器中可用。同一用户的相关编辑也合并到“editgroups”中,并且this page shows recent ones. Properties also have numerous constraints, such as required dates of birth and death to be in the past, requiring objects for a "citizenship" property to be people, and so on. Violations of these constraints are marked with (!) on the item's page, and also in various lists. So the property "awards received" requires the object to be a person/creative work/organisation/etc. About 8000 violations are listed here, and clicking on one shows a case where a person is missing声明“is a: person”。