如何使用维基下载索引文件中提供的信息?

how to use information provided in wiki download's index file?

我正在尝试使用 wiki 数据对中国人进行一些研究。除了使用 dbpedia(因为与 zh.wikipedia.org 相比,关于中国人的信息有点有限),我发现我可以直接从 zhwiki http://download.wikipedia.com/zhwiki/20150301/.

下载

我看到有一个索引文件,从文件中我可以看到如下行: 966576:291:人物

我认为哪个是查找键?谁能告诉我如何使用这个查找键来搜索主文件或数据库?

有两个文件

  • zhwiki-20150301-pages-articles-multistream.xml.bz2 1.1 GB - 它有 多个 bz2 流,每个流 100 页
  • zhwiki-20150301-pages-articles-multistream-index.txt.bz2 18.8 MB - 索引文件

索引文件有行

  • offset1:pageId1:title1
  • offset1:pageId2:title2
  • ..
  • offset2:pageId101:title101 等等。

offset 是 bz2 流的起始偏移量。您需要从 bz2 文件中读取从 offset1 到 offset2 的字节,并将它们传递给 bz2 解码器,它会给您 xml 从该流中转储 100 页