下载一个或多个文件中的 wiki
Download wiki in one or more files
我想从维基百科加载数据以用于 Hadoop 中的某些任务。我找到了一些链接:http://www.kiwix.org/wiki/Main_Page#Wikipedia_files, https://archive.org/details/enwiki-20160113。但我不确定它将采用哪种格式以及如何使用它。所以,问题是有人知道是否可以在一个或多个 txt 文件中下载维基百科吗?
好吧,您可以在此处下载维基百科内容的最新完整转储(另一个转储正在进行中):https://dumps.wikimedia.org/enwiki/20161020/
请注意,我认为这不包括媒体文件本身,并且此示例仅是英文站点 - 其他站点也在那里可用。
我想从维基百科加载数据以用于 Hadoop 中的某些任务。我找到了一些链接:http://www.kiwix.org/wiki/Main_Page#Wikipedia_files, https://archive.org/details/enwiki-20160113。但我不确定它将采用哪种格式以及如何使用它。所以,问题是有人知道是否可以在一个或多个 txt 文件中下载维基百科吗?
好吧,您可以在此处下载维基百科内容的最新完整转储(另一个转储正在进行中):https://dumps.wikimedia.org/enwiki/20161020/ 请注意,我认为这不包括媒体文件本身,并且此示例仅是英文站点 - 其他站点也在那里可用。