hadoop中压缩编解码器和文件格式之间的区别?
Difference between the compression codec and file formats in hadoop?
我想知道 hadoop 中的压缩编解码器和文件格式有何不同。例如,parquet 文件格式也减少了原始文件的大小并支持文件拆分。 Bzip2codec 也做同样的事情。请帮助我更好地理解两者之间的区别。
压缩和文件格式是完全不同的东西。
文件格式描述了文件中存储的数据结构。 Avro 将包含 Avro 序列化对象,SequenceFile 将包含一个键(通常是一个数字)和一个值(原始数据)。 Parquet 是一种特殊的文件格式,它允许按列存储,因此非常 space 高效。
您可以使用更高效的格式(例如图像的 TIFF 和 JPG)和更少的格式(PSD)。
最重要的是,您可以选择使用不同的压缩编解码器来压缩存储中的文件。 Bzip、snappy 和 GZ 是常用的方法。这相当于在上面的示例中使用 Zip 压缩图像。
希望这能提供一些清晰度。
我想知道 hadoop 中的压缩编解码器和文件格式有何不同。例如,parquet 文件格式也减少了原始文件的大小并支持文件拆分。 Bzip2codec 也做同样的事情。请帮助我更好地理解两者之间的区别。
压缩和文件格式是完全不同的东西。
文件格式描述了文件中存储的数据结构。 Avro 将包含 Avro 序列化对象,SequenceFile 将包含一个键(通常是一个数字)和一个值(原始数据)。 Parquet 是一种特殊的文件格式,它允许按列存储,因此非常 space 高效。
您可以使用更高效的格式(例如图像的 TIFF 和 JPG)和更少的格式(PSD)。
最重要的是,您可以选择使用不同的压缩编解码器来压缩存储中的文件。 Bzip、snappy 和 GZ 是常用的方法。这相当于在上面的示例中使用 Zip 压缩图像。
希望这能提供一些清晰度。