将新文件添加到 运行 hadoop 集群
Adding new files to a running hadoop cluster
假设您有 10GB 的数据,并且您希望通过使用 Hadoop 的 MapReduce 程序来处理它们。我不想在开始时将所有 10GB 复制到 HDFS 然后 运行 程序,而是想复制 1GB 并开始工作并在此期间逐渐添加剩余的 9GB。我想知道在 Hadoop 中是否可行。
谢谢,
莫尔特萨
不幸的是,这对于 MapReduce 是不可能的。当您启动 MapReduce 作业时,设置过程的一部分是确定输入的块位置。如果输入只是部分存在,设置过程将只对这些块起作用,不会动态添加输入。
如果您正在寻找流处理器,请查看 Apache Storm https://storm.apache.org/ or Apache Spark https://spark.apache.org/
假设您有 10GB 的数据,并且您希望通过使用 Hadoop 的 MapReduce 程序来处理它们。我不想在开始时将所有 10GB 复制到 HDFS 然后 运行 程序,而是想复制 1GB 并开始工作并在此期间逐渐添加剩余的 9GB。我想知道在 Hadoop 中是否可行。
谢谢, 莫尔特萨
不幸的是,这对于 MapReduce 是不可能的。当您启动 MapReduce 作业时,设置过程的一部分是确定输入的块位置。如果输入只是部分存在,设置过程将只对这些块起作用,不会动态添加输入。
如果您正在寻找流处理器,请查看 Apache Storm https://storm.apache.org/ or Apache Spark https://spark.apache.org/