从维基转储中查找跨语言相关文章

Finding Interlanguage Related Articles from Wiki Dump

查找维基百科英文文章的完整列表及其相关文章的非英语语言(如法语和西班牙语)是一个他们无法解决的问题。你可以找到一些类似的问题,但其中大部分与维基百科以前的结构有关,其他的则没有正确答案。

我们可以从这里下载维基百科英文和西班牙文文章的转储文件: English Wiki and Spanish Wiki

在 enwiki 和 eswiki 中有一些名为 langlinks aka sitelinks 的数据,目的是找到跨语言相关的文章。但不清楚如何使用它们来查找语际相关文章(西班牙语文章与每个英语文章相关)。 langlinks 模式如下:

CREATE TABLE `langlinks` (
  `ll_from` int(10) unsigned NOT NULL DEFAULT '0',
  `ll_lang` varbinary(20) NOT NULL DEFAULT '',
  `ll_title` varbinary(255) NOT NULL DEFAULT '',
   UNIQUE KEY `ll_from` (`ll_from`,`ll_lang`),
   KEY `ll_lang` (`ll_lang`,`ll_title`)
) ENGINE=InnoDB DEFAULT CHARSET=binary;

具有特殊 'll_from' 字段的英文记录是否与具有类似 'll_from' 字段的西班牙文记录相关?如果是,为什么我在这两个 langlinks 文件中找不到具有相似 ll_from 字段的记录?

再问一下,如何使用这些langlinks文件来查找interlanguage相关的文章?我不想使用维基数据工具包等其他工具。

此页面有帮助:Manual:langlinks table

字段 ll_from page_id 的引用页。

ll_lang 目标语言代码,符合 ISO 639-1 标准。

ll_title 目标的标题,包括命名空间(FULLPAGENAMEE 样式)。

如架构中所示,ll_lang 和 ll_title 的组合是唯一的。