hadoop如何存储数据和使用MapReduce?

How does hadoop store data and use MapReduce?

当我试图理解 hadoop 体系结构时,我想弄清楚一些问题。 当有大数据输入时,HDFS会把它分成很多个chucks(64MB或128MB每个chuck)然后复制很多次存储在内存块中,对吧?

但是,我仍然不知道MapReduce在哪里工作。是用分合数据来存储的吗?或者用它来 return 一些有用的输出?

在 HDFS 中存储数据与使用 MapReduce 范式分析数据是完全不同的事情。

当上传到HDFS时,大数据文件被分割成块存储在数据节点中,每个块被复制的次数与配置的复制因子(默认为3)一样多。数据拆分就像将文件除以配置的块大小一样简单。

MapReduce,如前所述,是一种在分析大数据文件以获得增值信息时的编程范式。简而言之,每个文件块都分配给一个映射任务,以便所有映射器对块执行相同的操作;完成后,输出的部分结果将发送到 reducer,以便以某种方式聚合数据。