从离线转储中提取属于某个类别的维基百科文章

Extract wikipedia articles belonging to a category from offline dumps

我有不同语言的维基百科文章转储。我想用属于某个类别(特别是 Category:WikiProject_Biography

的文章过滤它们

我可以得到很多类似的问题,例如:

  1. Wikipedia API to get articles belonging to a category
  2. How do I get all articles about people from Wikipedia?

但是,我想全部离线完成。那就是使用转储,也适用于不同的语言。

我探索的其他内容是类别 table 和类别 link table。 MediaWiki_1.28.0_database_schema

从转储中获取 pagecategorylinks 表,然后 运行

SELECT
    page_namespace,
    page_title
FROM
    page
    JOIN categorylinks ON page_id = cl_from
WHERE
    cl_to = 'WikiProject_Biography'
;

获取页面列表。