增量 sqoop 到 HIVE table

Question

已知 --incremental sqoop import 开关不适用于通过 SQOOP 导入 HIVE。但是解决方法是什么？

1)我可以弥补的一点是，我们可以创建一个HIVE table，通过SQOOP将增量数据带到HDFS，然后手动加载它们。但如果我们这样做，每次加载时，数据都会被覆盖。如果我错了，请纠正我。

2) sqooping 数据到 HIVE 时 --query 的效率如何？

谢谢

Answer 1

您可以对配置单元执行 sqoop 增量追加 table，但是没有直接的选项，下面是您可以实现它的方法之一。

将增量 table 作为外部 table 存储在 Hive 中。更常见的是导入自上次更新数据以来的增量更改，然后合并 it.In 以下示例，--check-column 用于获取比 last_import_date 更新的记录，即日期上次增量数据更新：

sqoop import --connect jdbc:teradata://{host name}/Database=retail —connection manager org.apache.sqoop.teradata.TeradataConnManager --username dbc -password dbc --table SOURCE_TBL --target-dir /user/hive/incremental_table -m 1 --check-column modified_date --incremental lastmodified --last-value {last_import_date}

问题的第二部分

Query 也是一个非常有用的参数，您可以在 swoop import 中利用它，这将为您提供在 rdbms table 上进行基本连接的灵活性以及使用日期和时间格式的灵活性。如果我处在你的位置，我会这样做，使用查询，我将以我需要的方式导入数据，然后将其附加到我的原始 table 中，同时从临时加载到主要 table我可以玩更多的数据。如果更新不是太频繁，我建议使用查询。

增量 sqoop 到 HIVE table

incremental sqoop to HIVE table

hadoop

hive

sqoop