Hadoop - 映射器输出能否超过块大小
Hadoop - can mapper output exceed block size
我们已将其中一个 map reduce 作业 dfs.blocksize 设置为 512MB,这是一个仅限 map 的作业。但是,一些映射器输出超过 512 MB。例如:512.9 MB。
我相信,mapper 块大小应该受到 dfs.blocksize 的限制。感谢任何输入。谢谢
I believe, the mapper block size should be restrained by the
dfs.blocksize.
这不是真的。文件可以大于块大小。在那种情况下,它们只会跨越多个块。
Mappers 不将它们的输出保存在 HDFS 中——它们使用常规文件系统来保存结果——这样做是为了不在 HDFS 集群中跨服务器复制临时数据。因此,HDFS 块大小与映射器的输出文件大小无关。
我们已将其中一个 map reduce 作业 dfs.blocksize 设置为 512MB,这是一个仅限 map 的作业。但是,一些映射器输出超过 512 MB。例如:512.9 MB。
我相信,mapper 块大小应该受到 dfs.blocksize 的限制。感谢任何输入。谢谢
I believe, the mapper block size should be restrained by the dfs.blocksize.
这不是真的。文件可以大于块大小。在那种情况下,它们只会跨越多个块。
Mappers 不将它们的输出保存在 HDFS 中——它们使用常规文件系统来保存结果——这样做是为了不在 HDFS 集群中跨服务器复制临时数据。因此,HDFS 块大小与映射器的输出文件大小无关。