从 Wikipedia:Vital 篇文章中获取类别

Get categories from Wikipedia:Vital articles

我正在尝试从维基百科获取我正在从事的项目的“类别树”。问题是我只想要更常见的主题和研究领域,所以我能找到的更大的转储包含太多外围文章。

我最近找到了 vital articles pages,它似乎正是我要找的东西的集合。不幸的是,我真的不知道如何从这些页面中提取信息或过滤较大的转储以仅包含那些类别和文章。

明确地说,我的问题是:给定一个重要的文章级别 (say level 4),我如何提取给定列表的类别树和文章名称,例如人文、艺术、物理科学等将其转换为 csv 或类似文件,然后我可以将其导入另一个程序。我不需要文章的实际内容,只需要名称(最好是对文章的引用,以便稍后获取更多信息)。

我也乐于接受有关如何更好地完成此任务的建议。

谢谢!

你用过PetScan吗?它是基于维基媒体的工具,允许根据某些条件从页面中提取数据。

您可以通过工具实现您的目标,然后导航到 "Templates&links" 选项卡,然后在字段 "Linked from All of these pages:" 中输入页面名称,例如Wikipedia:Vital_articles/Level/4/History。如果要在textarea中添加多页,只需逐行输入即可。

最后,按执行!按钮,将生成数据。之后,您可以从输出选项卡下载数据。