将新文件添加到 运行 hadoop 集群

Adding new files to a running hadoop cluster

假设您有 10GB 的数据,并且您希望通过使用 Hadoop 的 MapReduce 程序来处理它们。我不想在开始时将所有 10GB 复制到 HDFS 然后 运行 程序,而是想复制 1GB 并开始工作并在此期间逐渐添加剩余的 9GB。我想知道在 Hadoop 中是否可行。

谢谢, 莫尔特萨

不幸的是,这对于 MapReduce 是不可能的。当您启动 MapReduce 作业时,设置过程的一部分是确定输入的块位置。如果输入只是部分存在,设置过程将只对这些块起作用,不会动态添加输入。

如果您正在寻找流处理器,请查看 Apache Storm https://storm.apache.org/ or Apache Spark https://spark.apache.org/