从离线转储中提取属于某个类别的维基百科文章
Extract wikipedia articles belonging to a category from offline dumps
我有不同语言的维基百科文章转储。我想用属于某个类别(特别是 Category:WikiProject_Biography)
的文章过滤它们
我可以得到很多类似的问题,例如:
- Wikipedia API to get articles belonging to a category
- How do I get all articles about people from Wikipedia?
但是,我想全部离线完成。那就是使用转储,也适用于不同的语言。
我探索的其他内容是类别 table 和类别 link table。
MediaWiki_1.28.0_database_schema
从转储中获取 page
和 categorylinks
表,然后 运行
SELECT
page_namespace,
page_title
FROM
page
JOIN categorylinks ON page_id = cl_from
WHERE
cl_to = 'WikiProject_Biography'
;
获取页面列表。
我有不同语言的维基百科文章转储。我想用属于某个类别(特别是 Category:WikiProject_Biography)
的文章过滤它们我可以得到很多类似的问题,例如:
- Wikipedia API to get articles belonging to a category
- How do I get all articles about people from Wikipedia?
但是,我想全部离线完成。那就是使用转储,也适用于不同的语言。
我探索的其他内容是类别 table 和类别 link table。 MediaWiki_1.28.0_database_schema
从转储中获取 page
和 categorylinks
表,然后 运行
SELECT
page_namespace,
page_title
FROM
page
JOIN categorylinks ON page_id = cl_from
WHERE
cl_to = 'WikiProject_Biography'
;
获取页面列表。