将分区的镶木地板文件读入 Spark 会导致字段顺序不正确
Reading partitioned parquet file into Spark results in fields in incorrect order
对于 table 和
create table mytable (
..
)
partitioned by (my_part_column String)
我们正在执行一个配置单元 sql 如下:
from pyspark.sql import HiveContext
hc = HiveContext(sc)
data = hc.sql("select * from my_table limit 10")
读回的值显示 "my_part_columns" 作为每行的第一个项目而不是最后一个。
原来这是 spark 1.3.0 和 1.2.1 中已修复的已知错误
对于 table 和
create table mytable (
..
)
partitioned by (my_part_column String)
我们正在执行一个配置单元 sql 如下:
from pyspark.sql import HiveContext
hc = HiveContext(sc)
data = hc.sql("select * from my_table limit 10")
读回的值显示 "my_part_columns" 作为每行的第一个项目而不是最后一个。
原来这是 spark 1.3.0 和 1.2.1 中已修复的已知错误