使用 HIVE 进行地图缩减

Map Reduce with HIVE

我有 4 个不同的数据集,格式为 4 个 CSV 文件,其中的公共字段是 ID。我必须使用 Join 来实现。为了实现这个概念,Map Reduce 或 HIVE 会更好,是否可以结合 Map Reduce 和 HIVE

非常感谢。

大多数情况下,对于任何用例,Map ReduceHive 相比会提供更好的性能和控制。必须在更好地理解用例的情况下编写代码。

是的,可以结合使用 Map ReduceHive

Hive 将 Hive 查询转换为一系列 MapReduce 作业以模拟查询的行为。虽然 Hive 非常有用,但将您的业务逻辑表示为 Hive 查询并不总是有效。

如果您不介意性能延迟和加入大数据集,您可以选择 HIVE。

如果你的数据集很小,你仍然可以使用Map Reduce Joins或者Distributed Cache.

看看 Map Reduce Joins 文章。