使用来自 HDFS 的数据将数据插入 avro 格式的分区配置单元 table
Insert data into avro-formatted, partitioned hive table with data from HDFS
我创建了一个名为 employee(avro 格式)的配置单元 table,并在部门上进行了分区。
我的 HDFS 位置有 avro 数据集。我的数据集也有部门 ID。
我想使用来自 HDFS 的数据将数据导入 Hive table。在导入过程中,我希望将数据保存在其各自的分区中。
如何实现?有什么想法吗?
有两种方法。
1.Manual partitioning
将路径 hdfs path
中的数据加载到 table employee_table 分区(deptId='1')
将路径 hdfs path
中的数据加载到 table employee_table 分区(deptId='2')
2.Dynamic partitioning
一个。创建中间件table
b。使用分区
创建员工 table
c。将数据从中间 table 加载到分区 table
我创建了一个名为 employee(avro 格式)的配置单元 table,并在部门上进行了分区。
我的 HDFS 位置有 avro 数据集。我的数据集也有部门 ID。
我想使用来自 HDFS 的数据将数据导入 Hive table。在导入过程中,我希望将数据保存在其各自的分区中。
如何实现?有什么想法吗?
有两种方法。
1.Manual partitioning
将路径 hdfs path
中的数据加载到 table employee_table 分区(deptId='1')
将路径 hdfs path
中的数据加载到 table employee_table 分区(deptId='2')
2.Dynamic partitioning
一个。创建中间件table
b。使用分区
创建员工 tablec。将数据从中间 table 加载到分区 table