DBpedia 似乎错误百出

DBpedia seems like it's full of mistakes

我刚刚开始掌握 linked 数据,当然还有 DBpedia,希望它对我的工作有所帮助。

我只是想写一些 SPARQL 查询来熟悉数据和技术,但我对结果感到震惊,并且想知道我是否在这里没有得到核心概念。例如,如果我希望 DBpedia 给我一个所有国家的列表,我会天真地想象每个国家都是 "of type" dbo:country 并且如果某个国家是 "of type" dbo:country,那么那个东西肯定是一个国家。

所以,我想 return 所有国家的天真的 SPARQL 查询只是

PREFIX dbo: <http://dbpedia.org/ontology/>

SELECT ?concept
WHERE {?concept a dbo:Country}

现在,这个查询 return 有很多我期望的东西。现有国家、前国家、属于其他国家的国家,当然还有芬兰国家板球队。

等等,什么?!?!?!

为什么要查询 return 芬兰国家板球队?当然,这不可能是 Country 类型的实体,对吗?让我看看...

http://dbpedia.org/page/Finland_national_cricket_team

哦。 可以


我对这是 DBpedia 错误的理解是否正确?所有 link 数据是否都受到异常值的类似污染?我的意思是,我的查询 return 中有更多奇怪的东西,例如英国篮球队、印第安纳州民主党、美国驻巴基斯坦大使等等。这种污染是既定的还是我只是在这里遗漏了一个观点?

Is my understanding that this is a DBpedia mistake correct or not?

是的,我相信是这样。如果仔细观察,您会发现芬兰国家板球队是 dbo:countrydbr:Jonathan_October。我不太明白为什么会这样,但我认为这是问题的根源。

Is all of link data similarly polluted with outliers?

我不这么认为,这总是取决于数据的来源。但如果是从维基百科自动提取数据之类的东西,总会有问题(尽管大多数时候希望不会在这个规模上)。