impala 个具有 < 或 > 条件的分区
impala partitions with < or > conditions
我有 2TB 的单元 phone 记录,180 万用户的大约 330 亿条读数。
我在用户标识上创建了一个分区。
Impala 创建了许多名为 userid=XXXXX
的子目录。
这似乎过度分区了 180 万个子目录。有没有办法必须有一个范围或数字数组的分区?
目前Impala没有任何类型的范围分区。因此,您需要在 table 中的不同列上进行分区,这样会创建更少的分区。或者作为一种变通方法,您可以在 table 中添加一个附加列,该列存储您希望为每条记录指定的范围,然后在 "range" 列上进行分区。示例:您有一个包含字段 user_id=1234 的记录,它也将有一个范围为 user_range=0_100000 的字段,您可以将其用于分区。
我有 2TB 的单元 phone 记录,180 万用户的大约 330 亿条读数。
我在用户标识上创建了一个分区。
Impala 创建了许多名为 userid=XXXXX
的子目录。
这似乎过度分区了 180 万个子目录。有没有办法必须有一个范围或数字数组的分区?
目前Impala没有任何类型的范围分区。因此,您需要在 table 中的不同列上进行分区,这样会创建更少的分区。或者作为一种变通方法,您可以在 table 中添加一个附加列,该列存储您希望为每条记录指定的范围,然后在 "range" 列上进行分区。示例:您有一个包含字段 user_id=1234 的记录,它也将有一个范围为 user_range=0_100000 的字段,您可以将其用于分区。