在 Pyspark 中将列转换（转换）为行

Question

我有一个以下格式的 spark 数据框，其中每个唯一 ID 最多可以有 3 行，由排名列给出。

 id pred    prob      rank
485 9716    0.19205872  1
729 9767    0.19610429  1
729 9716    0.186840048 2
729 9748    0.173447074 3
818 9731    0.255104463 1
818 9748    0.215499913 2
818 9716    0.207307154 3

我想转换（转换）为行式数据，这样每个 id 只有一行，pred 和 prob 列有多个列，由排名变量（列后缀）区分。

id  pred_1  prob_1      pred_2  prob_2     pred_3   prob_3
485 9716    0.19205872              
729 9767    0.19610429  9716    0.186840048 9748    0.173447074
818 9731    0.255104463 9748    0.215499913 9716    0.207307154

我不知道如何在 Pyspark

中关闭它

创建输入数据的示例代码：

# Loading the requisite packages 
from pyspark.sql.functions import col, explode, array, struct, expr, sum, lit        
# Creating the DataFrame
df = sqlContext.createDataFrame([(485,9716,19,1),(729,9767,19,1),(729,9716,18,2), (729,9748,17,3), (818,9731,25,1), (818,9748,21,2), (818,9716,20,3)],('id','pred','prob','rank'))
df.show()

Answer 1

这是多列上的枢轴problem.Try:

import pyspark.sql.functions as F

df_pivot = df.groupBy('id').pivot('rank').agg(F.first('pred').alias('pred'), F.first('prob').alias('prob')).orderBy('id')
df_pivot.show(truncate=False)

在 Pyspark 中将列转换（转换）为行

Converting (casting) columns into rows in Pyspark

pyspark

apache-spark-sql