维基百科转储的结构是什么?

What is the structure of wikipedia dumps?

我需要一个项目的匈牙利语单词列表,我找到的唯一可能来源是维基百科 XML 转储。它们真的很大,我想我可以用一个读取流和一个 SAX 解析器来解析它们,但是最好了解更多关于结构的信息,这样我就可以在 运行 它之前在一个小例子上测试代码大文件。是否有关于它们使用什么结构以及不同 XML gzip 文件包含什么的描述? https://dumps.wikimedia.org/enwiki/latest/ https://dumps.wikimedia.org/huwiki/latest/

格式记录在这里:https://www.mediawiki.org/wiki/Help:Export它看起来像这样:

  <mediawiki xml:lang="en">
    <page>
      <title>Page title</title>
      <restrictions>edit=sysop:move=sysop</restrictions>
      <revision>
        <timestamp>2001-01-15T13:15:00Z</timestamp>
        <contributor><username>Foobar</username></contributor>
        <comment>I have just one thing to say!</comment>
        <text>A bunch of [[Special:MyLanguage/text|text]] here.</text>
        <minor />
      </revision>
      <revision>
        <timestamp>2001-01-15T13:10:27Z</timestamp>
        <contributor><ip>10.0.0.2</ip></contributor>
        <comment>new!</comment>
        <text>An earlier [[Special:MyLanguage/revision|revision]].</text>
      </revision>
    </page>
    
    <page>
      <title>Talk:Page title</title>
      <revision>
        <timestamp>2001-01-15T14:03:00Z</timestamp>
        <contributor><ip>10.0.0.2</ip></contributor>
        <comment>hey</comment>
        <text>WHYD YOU LOCK PAGE??!!! i was editing that jerk</text>
      </revision>
    </page>
  </mediawiki>