将新文件添加到运行 hadoop 集群

Adding new files to a running hadoop cluster

假设您有 10GB 的数据，并且您希望通过使用 Hadoop 的 MapReduce 程序来处理它们。我不想在开始时将所有 10GB 复制到 HDFS 然后运行程序，而是想复制 1GB 并开始工作并在此期间逐渐添加剩余的 9GB。我想知道在 Hadoop 中是否可行。

谢谢，莫尔特萨

不幸的是，这对于 MapReduce 是不可能的。当您启动 MapReduce 作业时，设置过程的一部分是确定输入的块位置。如果输入只是部分存在，设置过程将只对这些块起作用，不会动态添加输入。

如果您正在寻找流处理器，请查看 Apache Storm https://storm.apache.org/ or Apache Spark https://spark.apache.org/