如何使用sqoop工具进行增量加载
How to perform incremental load using sqoop tool
实际上,我的数据在 Teradata table 中。我已经使用 sqoop-import 命令将 teradata table 数据 sqooped 到 Hive 中。
但是,我的 teradata table 每天都会获取数据。因此,需要对新添加的数据进行 sqoop,即从 teradata 到 Hive 的增量数据 table.
任何人都可以向我建议一些解决方案来实现这个...
如果您的 table 中有任何类似于 row-id/timestamp 的列,那么您可以使用:
--incremental [mode] --last-value [value] --check-column [col]
如果您为此保存了作业,可以跳过 --last-value
,因为它会自动维护。
--incremental [mode]
有两种模式。 lastmodified
和 append
,您可以根据需要使用任何一个。
实际上,我的数据在 Teradata table 中。我已经使用 sqoop-import 命令将 teradata table 数据 sqooped 到 Hive 中。
但是,我的 teradata table 每天都会获取数据。因此,需要对新添加的数据进行 sqoop,即从 teradata 到 Hive 的增量数据 table.
任何人都可以向我建议一些解决方案来实现这个...
如果您的 table 中有任何类似于 row-id/timestamp 的列,那么您可以使用:
--incremental [mode] --last-value [value] --check-column [col]
如果您为此保存了作业,可以跳过 --last-value
,因为它会自动维护。
--incremental [mode]
有两种模式。 lastmodified
和 append
,您可以根据需要使用任何一个。