DBpedia 结果随时间变化

DBpedia results changed over time

我 运行 在 DBpedia 上使用 jena 框架进行查询,作为项目的一部分,于 2016 年 1 月计算 100 部电影的不同属性。我昨天正在写报告,所以我试图确认结果,但令人惊讶的是它们发生了变化。一月份,我得到了 100 多个属性,昨天我得到了 63 个。我使用相同的查询,一切都一样!

我什至在 1 月份将属性标签列表保存在我的硬盘中,确认有 100 多个。我查了下DBpedia上是不是都还用描述电影资源,发现很多都不是了。我还查看了他们网站的变更日志,这是我发现的唯一可能相关的页面 (http://wiki.dbpedia.org/dbpedia-version-2016-04),上面写着:

We now filter out triples from the Raw Infobox Extractor that are already mapped. E.g. no more “ dbo:birthPlace ” and “ dbp:birthPlace|dbp:placeOfBirth|... ” in the same resource. These triples are now moved to the “infobox-properties-mapped” datasets and not loaded on the main endpoint. See issue 22 for more details.

你认为这是原因吗,或者你知道对此有什么解释吗?

我用过的查询:

select (count(distinct ?pr) AS ?count) where {
    ?su ?pr ?ob .
        select ?su{
        ?su a <http://schema.org/Movie> .
        }
    limit 100

}

谢谢。

上周发布了新的 DBpedia,因此,public 端点仅包含最新的数据集。

而且我认为关于数据中所有更改的更改日志并不完整。当然,你提到的评论减少了单个资源的属性数量,但没有看到你的查询我不能说别的。

如果您确实需要旧数据,您仍然可以下载转储并将其加载到本地三元组存储中。

请注意,无论您使用的是基于 HTTP 的 SPARQL 端点、Jena/Java/JDBC、ODBC 还是否则。

另外,我很确定您现在没有使用这里看到的查询,因为它使用了无效的语法。

综上所述,您可以在

上尝试正确的查询

(最后一个当然还没有用新的 DBpedia 数据集更新,但它可能随时更新,所以采用免责声明将符合您的最大利益。类似 "This is a publicly-editable, living data set, being extracted from Wikipedia by an evolving codebase, so results may (and will, and have) change over time.")