如何通过维基百科文章标题在 OpenRefine 中进行协调?
How to reconcile in OpenRefine by Wikipedia article title?
我想协调大量记录,其中我有准确的维基百科文章标题(包括括号内的消歧)。根据 OpenRefine 中 exact 维基百科标题匹配大量记录的 best/fastest 方法是什么?如果我只是简单地按文本进行协调,那么可信度就会很低,并且具有相同标题的维基数据条目会混淆。
将您的值转换为维基百科 URL,例如使用以下 GREL 公式(假设所有文章都在英文维基百科上):
'https://en.wikipedia.org/wiki/'+value
然后您可以使用 Wikidata 协调服务来协调此列,该服务将识别这些 URL 并通过站点链接解析 Wikidata 项目。
如果您的文章标题包含消歧页面,协调将为您提供消歧项目,因此最好在协调后获取它们的类型 (P31
) double-check。
我认为你是从相反的方向接近的。使用@Wikidata 编号,这些编号也可用于消歧义页面!维基数据项位于左侧窗格中。它提供消除歧义,并且是语言中立的和可查询的。每个维基百科条目都有一个维基数据条目。
可能还有一个 SPARQL 查询可以为您完成这项工作。如果您询问一些维基数据用户,他们可以提供帮助。在 Twitter 上试试@wikidatafacts。
如果您需要包含非链接文本(可能在某些反汇编页面列表中),维基百科的手动性质将无济于事。但是您可以抽查那些异常值。
我想协调大量记录,其中我有准确的维基百科文章标题(包括括号内的消歧)。根据 OpenRefine 中 exact 维基百科标题匹配大量记录的 best/fastest 方法是什么?如果我只是简单地按文本进行协调,那么可信度就会很低,并且具有相同标题的维基数据条目会混淆。
将您的值转换为维基百科 URL,例如使用以下 GREL 公式(假设所有文章都在英文维基百科上):
'https://en.wikipedia.org/wiki/'+value
然后您可以使用 Wikidata 协调服务来协调此列,该服务将识别这些 URL 并通过站点链接解析 Wikidata 项目。
如果您的文章标题包含消歧页面,协调将为您提供消歧项目,因此最好在协调后获取它们的类型 (P31
) double-check。
我认为你是从相反的方向接近的。使用@Wikidata 编号,这些编号也可用于消歧义页面!维基数据项位于左侧窗格中。它提供消除歧义,并且是语言中立的和可查询的。每个维基百科条目都有一个维基数据条目。
可能还有一个 SPARQL 查询可以为您完成这项工作。如果您询问一些维基数据用户,他们可以提供帮助。在 Twitter 上试试@wikidatafacts。
如果您需要包含非链接文本(可能在某些反汇编页面列表中),维基百科的手动性质将无济于事。但是您可以抽查那些异常值。