处理spark DataFrame结构

Question

假设我们有以下两个tables

+---------+--------+
|AUTHOR_ID| NAME   |     
+---------+--------+
|  102    |Camus   |
|  103    |Hugo    |

+---------+-------- +------------
|AUTHOR_ID| BOOK_ID + BOOK_NAME  |     
+---------+-------- + -----------|
|  1      |Camus    | Etranger
|  1      |Hugo     | Mesirable  |

我想加入两个 table 以获得具有以下架构的 DataFrame

root
 |-- AUTHORID: integer
 |-- NAME: string 
 |-- BOOK_LIST: array 
 |    |-- BOOK_ID: integer 
 |    |-- BOOK_NAME: string

我正在使用 pyspark，提前致谢

Answer 1

简单的加入 + group by 应该可以完成工作：

from pyspark.sql import functions as F

result = (df_authors.join(df_books, on=["AUTHOR_ID"], how="left")
          .groupBy("AUTHOR_ID", "NAME")
          .agg(F.collect_list(F.struct("BOOK_ID", "BOOK_NAME")))
          )

在聚合中，我们使用 collect_list 创建结构数组。

处理spark DataFrame结构

Handle spark DataFrame structure

python

dataframe

apache-spark

pyspark

apache-spark-sql