如何使用 mrjob.cat 自动解压缩输入?

How to use mrjob.cat to auto-decompress inputs?

我想使用 MrJob 分析一个数据集,而无需事先在磁盘上解压缩它(它是 18Gb 压缩但 >3Tb 未压缩)。如何使用 mrjob.cat 自动解压缩文件并将其流式传输到我的映射器?没有任何代码示例。

MRJob 可以自动将 .bz2 和 .gz 等压缩文件格式作为输入,它会知道该怎么做。