从维基百科中提取人物日期数据

Extracting person date data from Wikipedia

我正在尝试从维基百科中提取出生和死亡数据。我使用过 DBpedia 和维基数据,但在这个特定实例中,日期与维基百科不匹配。

此查询 https://www.wikidata.org/w/api.php?action=wbgetentities&format=json&titles=Thomas_MacDermot&sites=enwiki returns 日期为 1870-01-01 的 P569。 DBpedia 显示相同的日期。

维基百科页面 https://en.wikipedia.org/wiki/Thomas_MacDermot 显示的日期是 1870 年 6 月 26 日。

为什么会出现这种差异?是否可以从维基百科本身以编程方式(即不是屏幕抓取)检索此日期信息?

谢谢!

如果您查看 P570,您会发现值 "+1933-01-01T00:00:00Z" 与出生年份匹配,但与 P569 一样,既不是月也不是日。
所以我想也许 P569P570 不是你想的那样(顺便说一句,你有什么理由相信 P569 是出生日期? ) 而只是代表 birth/death 的年份,并对应于维基百科页面上的 1870 births/1933 deaths 类别。

Wikidata 用独立输入的结构化数据补充维基百科的大部分非结构化内容,这些数据可能也可能不会在维基百科上看到。

DBpedia 项目将大量结构化和一些非结构化的维基百科内容转换为结构化数据。

DBpedia(更清楚地说,DBpedia 快照)数据通常滞后于维基百科的更改数月至数年。在这里,我们看到 Thomas MacDermot 的 dbo:birthDate"1870-1-1".

DBpedia Live data typically lags Wikipedia changes by seconds to hours (with occasional longer delays due to software, hardware, and other issues in this evolving environment). Here, we see the dbo:birthDate for Thomas MacDermot as "1870-06-26"^^xsd:date.

您可能会发现 On the Mutually Beneficial Nature of DBpedia and Wikidata 感兴趣。


P569 被描述为 "born on | birth date | birthdate| birth year | year of birth | birthyear | DOB" - 这对我来说非常令人困惑。似乎 一些 实体在这个 属性 中用完整日期描述,而其他在这个 属性 中只用年份描述,而这个 属性本身被描述为"never changing",维基数据存储的数据可能不正确,因此维基数据中的值很可能会改变,即使事实没有。