在 Hadoop 集群上解决 Word Count 有意义吗？

Does it make sense to solve Word Count on a Hadoop cluster?

hadoop
mapreduce

许多关于 Hadoop MapReduce 的教程都是从字数统计示例开始的。但是我记得我的分布式计算class（那是在Hadoop诞生之前），分布式计算只有在子任务是粗粒度的时候才会有提速，也就是说计算的时间超过了时间的沟通。在 Word Count 中，时间复杂度（如果使用哈希表完成并假设字长限制不变）是线性的。因此，似乎支付将输入文件传输到 HDFS 以及随后的排序和混洗阶段的成本是不合理的。我错过了什么吗？

不清楚您建议的替代方案是什么，但 WordCount 就像用您喜欢的语言打印 Hello World。

它教给您基本概念，它并不是要成为如何使用 MapReduce 或真正如何优化 Hadoop 集群的主要示例（存储以行分隔的文本以供分析并不是 Hadoop 的强项） .

在 Hadoop 集群上解决 Word Count 有意义吗？

Does it make sense to solve Word Count on a Hadoop cluster?

hadoop

mapreduce