TDCH 中 Hive table 的拆分大小
Splitsize for the Hive table in TDCH
我正在使用 TDCH 将配置单元数据导出到 teradata table。为此,我需要为我的 TDCH 作业指定映射器的数量。
那么,我的问题是 "is this number of mappers option we give to TDCH job is just a hint to TDCH? or are these total number of mappers created by TDCH will always be equal to number of mappers given in the option (of the TDCH job)"?
我的假设是映射器的数量主要取决于分割大小而不是给定的映射器数量(在 TDCH 作业的选项中)。我对 TDCH 工作的假设是否正确?
此外,对于 Hive table 拆分大小是如何定义的?是根据行数定义的吗?或者它只是根据数据的大小(如 60MB 或 120MB 等)定义,类似于 "textfiles"?
"is this number of mappers option we give to TDCH job is just a hint to TDCH? or are these total number of mappers created by TDCH will always be equal to number of mappers given in the option (of the TDCH job)"?
TDCH 中的拆分大小始终等于指定的 "number of mappers"(我在 TDCH 教程之一中读到过)。因此,映射器的数量不仅仅是一个提示(与传统的 mapreduce 编程不同),它只是拆分的数量。
因为它等于拆分数,为 TDCH 作业生成的映射器总数始终等于 运行 作业时指定的 "number of mappers"(选项)。
我正在使用 TDCH 将配置单元数据导出到 teradata table。为此,我需要为我的 TDCH 作业指定映射器的数量。
那么,我的问题是 "is this number of mappers option we give to TDCH job is just a hint to TDCH? or are these total number of mappers created by TDCH will always be equal to number of mappers given in the option (of the TDCH job)"?
我的假设是映射器的数量主要取决于分割大小而不是给定的映射器数量(在 TDCH 作业的选项中)。我对 TDCH 工作的假设是否正确?
此外,对于 Hive table 拆分大小是如何定义的?是根据行数定义的吗?或者它只是根据数据的大小(如 60MB 或 120MB 等)定义,类似于 "textfiles"?
"is this number of mappers option we give to TDCH job is just a hint to TDCH? or are these total number of mappers created by TDCH will always be equal to number of mappers given in the option (of the TDCH job)"?
TDCH 中的拆分大小始终等于指定的 "number of mappers"(我在 TDCH 教程之一中读到过)。因此,映射器的数量不仅仅是一个提示(与传统的 mapreduce 编程不同),它只是拆分的数量。
因为它等于拆分数,为 TDCH 作业生成的映射器总数始终等于 运行 作业时指定的 "number of mappers"(选项)。