Mahout 的 XmlInputFormat 是否可以在不重写的情况下处理 gzip 压缩文件?

Does Mahout's XmlInputFormat handle gzip compressed files without rewriting?

Mahout 的 XmlInputFormat 能否在不覆盖其任何方法的情况下处理 gzip 压缩数据?我一直在尝试解析经过 gzip 压缩的维基百科 xml 数据,但到目前为止没有成功。

我听说 Hadoop 能够自动处理 gzip 文件,但我现在假设它包含在 TextInputFormat class 中或者特定于其他输入格式,并且没有内置到 Mahout 的输入中格式。但也许我错过了什么。

注意:从那以后我就能够解析 xml,但我一直没能找到明确的答案,我很惊讶我这么难找到答案。希望有更聪明的人能启发我和其他人。

根据这个 {code} 没有处理编解码器,如果不覆盖我认为这是不可能的。

Incase of LineRecordReader 它看起来像这样 {code} 并且基于文件扩展名它确实应用了编解码器。

您仍然可以尝试使用 cloud9 的 WikipediaPageInputFormat {here}

他们已经处理了这个{codec},检查它是否适合你。