如何找到旧的维基百科转储

How to find old wikipedia dumps

我需要访问非常古老的法语维基百科转储(维基百科的备份)。我成功地从 archive.org 找到了 2010 年的备份,现在我正在搜索 2006 年甚至更早的备份。 我知道在最新的转储中有以前的所有数据,但我需要在我的计算机中设置维基百科的版本,例如 2006、2010、2012。这是 - 我猜 - 不可能用最新的转储来做的事情。

非常感谢您的帮助。

似乎有 2006 年 11 月的静态 HTML 转储,可在此处获取:http://dumps.wikimedia.org/other/static_html_dumps/

此外,如果您获得完整的转储(包含编辑历史记录),您可以过滤它以删除特定日期之后的所有修订——那么您应该能够在该日期查看它(除了 material 后来删除了,所以不在转储中)。

维基媒体基金会提供对一些旧转储的访问 on their website。请注意,与当今的维基百科相比,其中一些使用不同的架构,因此您在使用它们时可能需要修改您的工具。

Archive.org 上还提供了更多档案。

不幸的是,维基媒体不保留所有历史转储(除了其他人指出的少数例外)。

鉴于您的用例,我强烈建议您使用 JWPL 维基百科修订工具包: https://dkpro.github.io/dkpro-jwpl/WikipediaRevisionToolkit/

具体来说,您可能会喜欢 "Time Machine" 包,它允许您重建维基百科在过去某个日期的状态。 https://dkpro.github.io/dkpro-jwpl/TimeMachine/

虽然我没有专门使用该功能,但我已经将修订工具包用于其他目的,并取得了巨大的成功。 JWPL 包还包含其他非常有用的工具。