在新列下的pyspark数据框中存储多列的值

Question

我正在从一个 csv 文件导入数据，其中有列 Reading1 和 Reading2，并将其存储到 pyspark 数据框中。我的 objective 是要有一个新的列名称 Reading 及其作为包含 Reading1 和 Reading2 值的数组的值。我怎样才能在 pyspark 中实现相同的目标。

        +---+-----------+-----------+
        | id|  Reading A|  Reading B| 
        +---+-----------------------+
        |01 |  0.123    |   0.145   | 
        |02 |  0.546    |   0.756   |
        +---+-----------+-----------+

        Desired Output:
        +---+------------------+
        | id|    Reading       |
        +---+------------------+
        |01 |  [0.123, 0.145]  |
        |02 |  [0.546, 0.756   |
        +---+------------------+-

Answer 1

试试这个

将 pyspark.sql.functions 导入为 f

df.withColumn('reading',f.array([f.col("reading a"), f.col("reading b")] ))

在新列下的pyspark数据框中存储多列的值

Storing values of multiples columns in pyspark dataframe under a new column

pyspark

pyspark-sql

pyspark-dataframes