hadoop中的序列文件是什么？

What is sequence file in hadoop?

我是Map-reduce新手，想了解什么是序列文件数据输入？看了Hadoop这本书，但是看不懂。

首先我们应该了解SequenceFile试图解决什么问题，然后SequenceFile如何帮助解决这些问题。

这两种情况需要不同的解决方案。

HAR 文件

序列文件

SequenceFile的概念是把每个小文件放到一个更大的单个文件中。
例如，假设有10,000个100KB的文件，那么我们可以编写一个程序将它们放入一个SequenceFile中，如下所示，其中可以使用文件名作为键，内容作为值。

_{（来源：csdn.net）}
一些好处：
1. NameNode 上需要的内存数量较少。继续以 10,000 个 100KB 文件为例，
  - 在使用SequenceFile之前，10,000个对象占用NameNode中大约4.5MB的RAM。
  - 使用SequenceFile后，1GB的SequenceFile，8个HDFS block，这些对象在NameNode中占用了大约3.6KB的RAM。
2. SequenceFile 是可拆分的，因此适合 MapReduce。
3. SequenceFile 支持压缩。
支持压缩，文件结构取决于压缩类型。
1. 未压缩
2. 压缩记录：在添加到文件时压缩每条记录。
  _{（来源：csdn.net）}
3. 块压缩
  _{（来源：csdn.net）}
  - 等到数据达到要压缩的块大小。
  - 块压缩比记录压缩提供更好的压缩率。
  - 块压缩通常是使用 SequenceFile 时的首选选项。
  - 此处的块与 HDFS 或文件系统块无关。