DBpedia 中的总数 类 和属性
The total number of classes and properties in DBpedia
好吧,这似乎是一个非常基本的问题,但出于某种原因我无法弄清楚。我有来自 here. Now when I load this in Protégé 的 DBpedia 2014 owl 文件并查看 Ontology 指标选项卡,我看到 class 计数为 814,对象 属性 计数为1310,数据 属性 计数为 1725。这是正确的数字吗?出于好奇,我尝试检查 Virtuoso 端点上的数字和查询
select ?p (count(?p) as ?totalCount) where {?s ?p ?o } group by ?p order by DESC(?totalCount)
即试图找到属性和它们在图中出现的总次数,我发现总数是 10,000。现在我不确定这是否是检查属性和它们在图中出现的次数的正确方法。
当我发出此查询时 classes :
SELECT ?class
WHERE {
?class rdf:type rdfs:Class.
}
我没有得到任何结果。现在在 Virtuoso 中使用默认查询,即
Select count(distinct ?Concept) where {[] a ?Concept}
我得到的值为 369857。所以我有点困惑。这个数字很大是因为该图具有来自 yago、umbel、schema.org 和 purl 的概念,还是我看错了什么?概念与 class 完全不同吗? (不同的解释,我没想到)。
现在老实说,我被这些数字拦住了,因为我需要它们来计算此 paper
中定义的选择性
这里说对于三重模式,一个主题的选择性是1/R
,其中R是资源的数量,那么资源是指Class个数还是概念个数?或 ?s ?p ?o
中的 count of ?s
。三重模式?
DBpedia ontology 仅包含 classes 的公理和具有命名空间 http://dbpedia.org/ontology
的属性。
DBpedia SPARQL 端点包含更多数据:
首先,它包含具有命名空间 http://dbpedia.org/property
属性的三元组。这些属性是无类型的(即 rdf:Property
类型,这实际上意味着值可以是资源或文字。在 OWL 中,我们有类型属性,即对象和数据属性。
加载到 SPARQL 端点的其他信息包括指向外部数据集(如 YAGO 或上层 ontology UMBEL)的链接。您可以在此处找到更多详细信息 [1], [2].
顺便说一下,您可以从您的第一个查询中轻松看出这一点。有更多具有不同命名空间的属性。
根据您的第一个查询:如果您想要每个 属性 的三元组数量,这是正确的查询。它 return 只有 10000,因为这是加载 DBpedia 的 Virtuoso 三重存储的默认结果集限制。要获得更多结果,您必须使用分页。三元组中使用的属性总数可以通过
找到
SELECT (COUNT(DISTINCT ?p) AS ?cnt)
WHERE
{ ?s ?p ?o}
你的第二个查询所有 class 类型 rdf:Class
return 什么都没有,因为 DBpedia 中没有 class 是那种类型。对于 OWL 本体,查询 owl:Class
类型的 classes 更为常见。实际上,第三个查询 return 中 rdf:type
中出现的所有资源的对象位置都增加了三倍,这在处理实例数据时略有不同。这意味着它 return 数据中真正使用的所有 classes。
关于你的最后一个问题。我没有读过这篇论文,但许多研究论文中的一个共同指标通常是使用使用给定 属性.
的不同主题
好吧,这似乎是一个非常基本的问题,但出于某种原因我无法弄清楚。我有来自 here. Now when I load this in Protégé 的 DBpedia 2014 owl 文件并查看 Ontology 指标选项卡,我看到 class 计数为 814,对象 属性 计数为1310,数据 属性 计数为 1725。这是正确的数字吗?出于好奇,我尝试检查 Virtuoso 端点上的数字和查询
select ?p (count(?p) as ?totalCount) where {?s ?p ?o } group by ?p order by DESC(?totalCount)
即试图找到属性和它们在图中出现的总次数,我发现总数是 10,000。现在我不确定这是否是检查属性和它们在图中出现的次数的正确方法。
当我发出此查询时 classes :
SELECT ?class
WHERE {
?class rdf:type rdfs:Class.
}
我没有得到任何结果。现在在 Virtuoso 中使用默认查询,即
Select count(distinct ?Concept) where {[] a ?Concept}
我得到的值为 369857。所以我有点困惑。这个数字很大是因为该图具有来自 yago、umbel、schema.org 和 purl 的概念,还是我看错了什么?概念与 class 完全不同吗? (不同的解释,我没想到)。
现在老实说,我被这些数字拦住了,因为我需要它们来计算此 paper
中定义的选择性这里说对于三重模式,一个主题的选择性是1/R
,其中R是资源的数量,那么资源是指Class个数还是概念个数?或 ?s ?p ?o
中的 count of ?s
。三重模式?
DBpedia ontology 仅包含 classes 的公理和具有命名空间 http://dbpedia.org/ontology
的属性。
DBpedia SPARQL 端点包含更多数据:
首先,它包含具有命名空间 http://dbpedia.org/property
属性的三元组。这些属性是无类型的(即 rdf:Property
类型,这实际上意味着值可以是资源或文字。在 OWL 中,我们有类型属性,即对象和数据属性。
加载到 SPARQL 端点的其他信息包括指向外部数据集(如 YAGO 或上层 ontology UMBEL)的链接。您可以在此处找到更多详细信息 [1], [2].
顺便说一下,您可以从您的第一个查询中轻松看出这一点。有更多具有不同命名空间的属性。
根据您的第一个查询:如果您想要每个 属性 的三元组数量,这是正确的查询。它 return 只有 10000,因为这是加载 DBpedia 的 Virtuoso 三重存储的默认结果集限制。要获得更多结果,您必须使用分页。三元组中使用的属性总数可以通过
找到SELECT (COUNT(DISTINCT ?p) AS ?cnt)
WHERE
{ ?s ?p ?o}
你的第二个查询所有 class 类型 rdf:Class
return 什么都没有,因为 DBpedia 中没有 class 是那种类型。对于 OWL 本体,查询 owl:Class
类型的 classes 更为常见。实际上,第三个查询 return 中 rdf:type
中出现的所有资源的对象位置都增加了三倍,这在处理实例数据时略有不同。这意味着它 return 数据中真正使用的所有 classes。
关于你的最后一个问题。我没有读过这篇论文,但许多研究论文中的一个共同指标通常是使用使用给定 属性.
的不同主题