将分区的镶木地板文件读入 Spark 会导致字段顺序不正确

Question

对于 table 和

create table mytable (

  ..
) 
    partitioned by (my_part_column String)

我们正在执行一个配置单元 sql 如下：

   from pyspark.sql import HiveContext
   hc = HiveContext(sc)
   data = hc.sql("select * from my_table limit 10")

读回的值显示 "my_part_columns" 作为每行的第一个项目而不是最后一个。

Answer 1

原来这是 spark 1.3.0 和 1.2.1 中已修复的已知错误

Reading partitioned parquet file into Spark results in fields in incorrect order