saveAsHadoopFile - 文件扩展名

saveAsHadoopFile - files extension

我正在使用 JavaPairRDDsaveAsHadoopFile 将 RDD 另存为 avro 文件并进行快速压缩。是否可以强制将输出文件的扩展名设为 snappy

AvroOutputFormat 已硬编码 .avro 扩展且不允许更改它。 我已经将 patch 上传到 Avro JIRA,并进行了适当的更改。 如果你有类似的问题,你必须(就目前而言)简单地继承 AvroOutputFormat 并在 saveAsHadoopFile 方法中使用它。例如在 Scala 中:

rdd.saveAsHadoopFile("output/path", 
    classOf[AvroWrapper[GenericRecord]], 
    classOf[NullWritable], 
    classOf[YourOutputFormatClassName[GenericRecord]])