HDFS - 一个大文件或几个块大小的小文件

HDFS - one large file or few smaller files with the size of a block size

所以我在理解应该以何种方式存储大文件时遇到了一些问题。例如，我的HDFS中的块大小是128MB，我有一个1GB的文件。

我知道保存小于块大小的文件不是最佳做法，我明白为什么。

但是对于大文件我该怎么办，对于我的1GB文件，我应该保存1个文件还是8个每个128MB的文件，为什么？

1GB可以存储1个文件。 Hadoop 将自动将该文件存储在 8 个块中。 Hadoop 是为大文件而不是小文件设计的。请注意Block是hadoop中的物理存储。

由于您没有提到集群中的拆分大小，所以我假设它是 128 MB。拆分是您并行性所依赖的东西。因此，如果您在 128 个分割大小上处理 1 GB 文件，将调用 8 个映射器（每个分割上有 1 个映射器）。如果您存储 8 个文件，每个文件 128 MB。您的 Namenode 将有不必要的开销来维护有关这 8 个文件的信息。在 8 个文件的情况下，性能可能与 1 GB 文件或多或少相似，但在 1 GB 文件和 8 个块的情况下肯定会更好。

不要与 hadoop 中的块混淆，它们与其他文件系统一样只是存储单元。无论文件有多大，Hadoop 都会自动处理存储，并将文件分成块。在 i/o 操作中存储小文件将是不必要的开销。

HDFS - 一个大文件或几个块大小的小文件

HDFS - one large file or few smaller files with the size of a block size

hadoop

hdfs

bigdata