Hive 中的 JOIN 会触发 MapReduce 中的哪种类型的 JOIN?
JOIN in Hive triggers which type of JOIN in MapReduce?
如果我在 hive
中有一个使用 JOIN 的查询,假设在两个表 ON
的任何列上有一个 LEFT OUTER JOIN
或一个 INNER JOIN
,那么我该如何知道它在后端 MapReduce
中转换成哪种类型的 JOIN(即 Map-side JOIN 或 Reduce-side JOIN)?
谢谢。
使用explain select ...
并检查计划。它解释了 map 和 reduce 究竟会做什么。此外,在执行期间,您可以检查作业跟踪器上的日志并查看映射器或缩减器进程正在做什么。
例如下面一段解释计划说它是map-side join(注意计划中的Map Join Operator):
Stage: Stage-33
Map Reduce
Map Operator Tree:
TableScan
**alias: s**
filterExpr: (col is not null) (type: boolean)
Statistics: Num rows: 85 Data size: 78965 Basic stats: COMPLETE Column stats: NONE
Filter Operator
predicate: (col is not null) (type: boolean)
Statistics: Num rows: 22 Data size: 20438 Basic stats: COMPLETE Column stats: NONE
**Map Join Operator
condition map:
Inner Join 0 to 1**
如果我在 hive
中有一个使用 JOIN 的查询,假设在两个表 ON
的任何列上有一个 LEFT OUTER JOIN
或一个 INNER JOIN
,那么我该如何知道它在后端 MapReduce
中转换成哪种类型的 JOIN(即 Map-side JOIN 或 Reduce-side JOIN)?
谢谢。
使用explain select ...
并检查计划。它解释了 map 和 reduce 究竟会做什么。此外,在执行期间,您可以检查作业跟踪器上的日志并查看映射器或缩减器进程正在做什么。
例如下面一段解释计划说它是map-side join(注意计划中的Map Join Operator):
Stage: Stage-33
Map Reduce
Map Operator Tree:
TableScan
**alias: s**
filterExpr: (col is not null) (type: boolean)
Statistics: Num rows: 85 Data size: 78965 Basic stats: COMPLETE Column stats: NONE
Filter Operator
predicate: (col is not null) (type: boolean)
Statistics: Num rows: 22 Data size: 20438 Basic stats: COMPLETE Column stats: NONE
**Map Join Operator
condition map:
Inner Join 0 to 1**