实现 Map Reduce 的最佳编程方式

Best programming way to implement Map Reduce

我们有一个问题,这是一个应用MapReduce编程技术的理想案例。初始代码写在 Python 中。现在我们有以下选项:

  1. 使用 Hadoop 和 Java 实现 MapReduce 部分。
  2. 使用 mincemeat 和 Python 实现 MapReduce 部分。
  3. 使用 Hadoop 和 Python (Hadoop MapReduce Program in Python) 实现 MapReduce 部分。

我不太确定哪个是最佳选择。有人可以帮忙吗?

由于您的初始代码在 python 中,并且在 python 或 Java 中编写 MR 并没有太大区别,(3) 应该是最佳选择追求你的场景。您可能还想探索像 https://github.com/Yelp/mrjob 这样的库,这些库可以更轻松地在 python.

中编写 MR 作业