在 Hadoop 集群上解决 Word Count 有意义吗?

Does it make sense to solve Word Count on a Hadoop cluster?

许多关于 Hadoop MapReduce 的教程都是从字数统计示例开始的。但是我记得我的分布式计算class(那是在Hadoop诞生之前),分布式计算只有在子任务是粗粒度的时候才会有提速,也就是说计算的时间超过了时间的沟通。在 Word Count 中,时间复杂度(如果使用哈希表完成并假设字长限制不变)是线性的。因此,似乎支付将输入文件传输到 HDFS 以及随后的排序和混洗阶段的成本是不合理的。我错过了什么吗?

不清楚您建议的替代方案是什么,但 WordCount 就像用您喜欢的语言打印 Hello World。

它教给您基本概念,它并不是要成为如何使用 MapReduce 或真正如何优化 Hadoop 集群的主要示例(存储以行分隔的文本以供分析并不是 Hadoop 的强项) .