如何使用sqoop工具进行增量加载

How to perform incremental load using sqoop tool

实际上,我的数据在 Teradata table 中。我已经使用 sqoop-import 命令将 teradata table 数据 sqooped 到 Hive 中。

但是,我的 teradata table 每天都会获取数据。因此,需要对新添加的数据进行 sqoop,即从 teradata 到 Hive 的增量数据 table.

任何人都可以向我建议一些解决方案来实现这个...

如果您的 table 中有任何类似于 row-id/timestamp 的列,那么您可以使用:

--incremental [mode] --last-value [value] --check-column [col]

如果您为此保存了作业,可以跳过 --last-value,因为它会自动维护。

--incremental [mode]有两种模式。 lastmodifiedappend,您可以根据需要使用任何一个。