Sqoop 中的增量加载
Incremental loads in Sqoop
我在 Teradata 中有一个 table,每天都会加载新数据。
我需要将此数据导入 Hive。我正在尝试使用 Sqoop,但我应该如何使用 Sqoop 进行增量加载?
我检查了 Sqoop 中可用的增量加载选项
--check-col
此选项只需要数字和唯一数据,而我的 Teradata table 没有这样的列
我正在使用日期列客栈 --spli-by
在这种情况下,如何对 Hive 执行增量导入?
请推荐
如果您使用 --incremental lastmodified
模式,那么您的 --check-column
是一个时间戳,不需要是数字或唯一的。
在check栏后面再用一个“--append”命令,这样新的数据就不会被替换,可以看到在hdfs中保存了一个新文件,没有替换旧文件
我在 Teradata 中有一个 table,每天都会加载新数据。
我需要将此数据导入 Hive。我正在尝试使用 Sqoop,但我应该如何使用 Sqoop 进行增量加载?
我检查了 Sqoop 中可用的增量加载选项
--check-col
此选项只需要数字和唯一数据,而我的 Teradata table 没有这样的列
我正在使用日期列客栈 --spli-by
在这种情况下,如何对 Hive 执行增量导入?
请推荐
如果您使用 --incremental lastmodified
模式,那么您的 --check-column
是一个时间戳,不需要是数字或唯一的。
在check栏后面再用一个“--append”命令,这样新的数据就不会被替换,可以看到在hdfs中保存了一个新文件,没有替换旧文件