Sqoop 中的增量加载

Incremental loads in Sqoop

我在 Teradata 中有一个 table,每天都会加载新数据。

我需要将此数据导入 Hive。我正在尝试使用 Sqoop,但我应该如何使用 Sqoop 进行增量加载?

我检查了 Sqoop 中可用的增量加载选项

--check-col

此选项只需要数字和唯一数据,而我的 Teradata table 没有这样的列

我正在使用日期列客栈 --spli-by

在这种情况下,如何对 Hive 执行增量导入?

请推荐

如果您使用 --incremental lastmodified 模式,那么您的 --check-column 是一个时间戳,不需要是数字或唯一的。

参见:Sqoop incremental imports

在check栏后面再用一个“--append”命令,这样新的数据就不会被替换,可以看到在hdfs中保存了一个新文件,没有替换旧文件