增量导出 Hive 数据
Export Hive data incremental
我们需要运行 HiveQL 递增并将结果导出到 avro fromat 中的文件,我们需要导出记录。
以下是我所关注的两种方式以及我在使用它们时遇到的挑战。
选项 1:使用 Pig 和客户加载程序:
一种。编写自定义 pig 加载程序,运行 配置单元查询 incemental。
b.编写猪流并创建与配置单元加载器结果的关系。
C。将结果保存在 avro 文件中。
选项 2.SQOOP 导出 - 我找不到为什么要增量导出配置单元查询结果。
到目前为止,根据我的分析,我认为选择选项 1 更适合我的要求。
如果您认为我们可以在 sqoop 中轻松实现这一点,有人可以解释一下吗?
Sqoop 可以将数据从 HDFS 目录导出到目标数据库,而不是文件。在这种情况下,sqoop 不能
- 读取增量结果,除非您有单独的配置单元 table 或分区(这会产生新目录)
- 以 avro 格式写入外部文件。
我们需要运行 HiveQL 递增并将结果导出到 avro fromat 中的文件,我们需要导出记录。
以下是我所关注的两种方式以及我在使用它们时遇到的挑战。
选项 1:使用 Pig 和客户加载程序: 一种。编写自定义 pig 加载程序,运行 配置单元查询 incemental。 b.编写猪流并创建与配置单元加载器结果的关系。 C。将结果保存在 avro 文件中。
选项 2.SQOOP 导出 - 我找不到为什么要增量导出配置单元查询结果。
到目前为止,根据我的分析,我认为选择选项 1 更适合我的要求。
如果您认为我们可以在 sqoop 中轻松实现这一点,有人可以解释一下吗?
Sqoop 可以将数据从 HDFS 目录导出到目标数据库,而不是文件。在这种情况下,sqoop 不能
- 读取增量结果,除非您有单独的配置单元 table 或分区(这会产生新目录)
- 以 avro 格式写入外部文件。