saveAsHadoopFile - 文件扩展名
saveAsHadoopFile - files extension
我正在使用 JavaPairRDD
的 saveAsHadoopFile
将 RDD 另存为 avro 文件并进行快速压缩。是否可以强制将输出文件的扩展名设为 snappy
?
AvroOutputFormat
已硬编码 .avro
扩展且不允许更改它。
我已经将 patch 上传到 Avro JIRA,并进行了适当的更改。
如果你有类似的问题,你必须(就目前而言)简单地继承 AvroOutputFormat
并在 saveAsHadoopFile
方法中使用它。例如在 Scala 中:
rdd.saveAsHadoopFile("output/path",
classOf[AvroWrapper[GenericRecord]],
classOf[NullWritable],
classOf[YourOutputFormatClassName[GenericRecord]])
我正在使用 JavaPairRDD
的 saveAsHadoopFile
将 RDD 另存为 avro 文件并进行快速压缩。是否可以强制将输出文件的扩展名设为 snappy
?
AvroOutputFormat
已硬编码 .avro
扩展且不允许更改它。
我已经将 patch 上传到 Avro JIRA,并进行了适当的更改。
如果你有类似的问题,你必须(就目前而言)简单地继承 AvroOutputFormat
并在 saveAsHadoopFile
方法中使用它。例如在 Scala 中:
rdd.saveAsHadoopFile("output/path",
classOf[AvroWrapper[GenericRecord]],
classOf[NullWritable],
classOf[YourOutputFormatClassName[GenericRecord]])