sqoop和TDCH的区别

Difference between sqoop and TDCH

需要 Sqoop 和 TDCH-Teradata Connector for Hadoop 之间的详细区别。对于 Teradata 作为源和 hadoop 作为目标推荐哪个? 我们需要实现不同类型的加载,如增量、历史和追加

TDCH支持hive、HCatalog,但不支持所有文件格式:仅支持TextFile、SequenceFile和RCFile。

现在,几乎所有的 hadoop 发行版都添加了 sqoop Teradata 连接器,因此您可以使用 TDCH 不支持的所有 sqoop 功能(增量、历史、追加等):

cloudera-connector-for-teradata

hwx-connector-for-teradata

four-step-strategy-incremental-updates-hive

MapR-teradata-connector-hadoop-yarn

IBM - biginsights

编辑:根据 Dev 的输入从原始答案中删除了这一行:

For Teradata as source you have to use TDCH, sqoop doesn't not have direct support for Teradata.

Teradata 没有主键的概念,而是使用主索引 (PI) 或唯一主索引 (UPI),它们用于 TD AMP 中的数据分发目的

因此,当您将 sqoop 与多个映射器一起使用或按列拆分时,我们将不会使用 fastexport 实用程序的 TD 功能。

在 sqoop 中,即使您使用 -m 参数提及 50 个映射器,当数据导出到 HDFS 时,所有数据都将驻留在单个部分文件中。

因此,为了利用 TD 和 HDFS 分发,我们必须在将数据从 TD 导出到 HDFS 时使用 TDCH jar。