如何找到旧的维基百科转储
How to find old wikipedia dumps
我需要访问非常古老的法语维基百科转储(维基百科的备份)。我成功地从 archive.org 找到了 2010 年的备份,现在我正在搜索 2006 年甚至更早的备份。
我知道在最新的转储中有以前的所有数据,但我需要在我的计算机中设置维基百科的版本,例如 2006、2010、2012。这是 - 我猜 - 不可能用最新的转储来做的事情。
非常感谢您的帮助。
似乎有 2006 年 11 月的静态 HTML 转储,可在此处获取:http://dumps.wikimedia.org/other/static_html_dumps/
此外,如果您获得完整的转储(包含编辑历史记录),您可以过滤它以删除特定日期之后的所有修订——那么您应该能够在该日期查看它(除了 material 后来删除了,所以不在转储中)。
维基媒体基金会提供对一些旧转储的访问 on their website。请注意,与当今的维基百科相比,其中一些使用不同的架构,因此您在使用它们时可能需要修改您的工具。
Archive.org 上还提供了更多档案。
不幸的是,维基媒体不保留所有历史转储(除了其他人指出的少数例外)。
鉴于您的用例,我强烈建议您使用 JWPL 维基百科修订工具包:
https://dkpro.github.io/dkpro-jwpl/WikipediaRevisionToolkit/
具体来说,您可能会喜欢 "Time Machine" 包,它允许您重建维基百科在过去某个日期的状态。
https://dkpro.github.io/dkpro-jwpl/TimeMachine/
虽然我没有专门使用该功能,但我已经将修订工具包用于其他目的,并取得了巨大的成功。 JWPL 包还包含其他非常有用的工具。
我需要访问非常古老的法语维基百科转储(维基百科的备份)。我成功地从 archive.org 找到了 2010 年的备份,现在我正在搜索 2006 年甚至更早的备份。 我知道在最新的转储中有以前的所有数据,但我需要在我的计算机中设置维基百科的版本,例如 2006、2010、2012。这是 - 我猜 - 不可能用最新的转储来做的事情。
非常感谢您的帮助。
似乎有 2006 年 11 月的静态 HTML 转储,可在此处获取:http://dumps.wikimedia.org/other/static_html_dumps/
此外,如果您获得完整的转储(包含编辑历史记录),您可以过滤它以删除特定日期之后的所有修订——那么您应该能够在该日期查看它(除了 material 后来删除了,所以不在转储中)。
维基媒体基金会提供对一些旧转储的访问 on their website。请注意,与当今的维基百科相比,其中一些使用不同的架构,因此您在使用它们时可能需要修改您的工具。
Archive.org 上还提供了更多档案。
不幸的是,维基媒体不保留所有历史转储(除了其他人指出的少数例外)。
鉴于您的用例,我强烈建议您使用 JWPL 维基百科修订工具包: https://dkpro.github.io/dkpro-jwpl/WikipediaRevisionToolkit/
具体来说,您可能会喜欢 "Time Machine" 包,它允许您重建维基百科在过去某个日期的状态。 https://dkpro.github.io/dkpro-jwpl/TimeMachine/
虽然我没有专门使用该功能,但我已经将修订工具包用于其他目的,并取得了巨大的成功。 JWPL 包还包含其他非常有用的工具。