在新列下的pyspark数据框中存储多列的值
Storing values of multiples columns in pyspark dataframe under a new column
我正在从一个 csv 文件导入数据,其中有列 Reading1 和 Reading2,并将其存储到 pyspark 数据框中。
我的 objective 是要有一个新的列名称 Reading 及其作为包含 Reading1 和 Reading2 值的数组的值。我怎样才能在 pyspark 中实现相同的目标。
+---+-----------+-----------+
| id| Reading A| Reading B|
+---+-----------------------+
|01 | 0.123 | 0.145 |
|02 | 0.546 | 0.756 |
+---+-----------+-----------+
Desired Output:
+---+------------------+
| id| Reading |
+---+------------------+
|01 | [0.123, 0.145] |
|02 | [0.546, 0.756 |
+---+------------------+-
试试这个
将 pyspark.sql.functions 导入为 f
df.withColumn('reading',f.array([f.col("reading a"), f.col("reading b")] ))
我正在从一个 csv 文件导入数据,其中有列 Reading1 和 Reading2,并将其存储到 pyspark 数据框中。 我的 objective 是要有一个新的列名称 Reading 及其作为包含 Reading1 和 Reading2 值的数组的值。我怎样才能在 pyspark 中实现相同的目标。
+---+-----------+-----------+
| id| Reading A| Reading B|
+---+-----------------------+
|01 | 0.123 | 0.145 |
|02 | 0.546 | 0.756 |
+---+-----------+-----------+
Desired Output:
+---+------------------+
| id| Reading |
+---+------------------+
|01 | [0.123, 0.145] |
|02 | [0.546, 0.756 |
+---+------------------+-
试试这个
将 pyspark.sql.functions 导入为 f
df.withColumn('reading',f.array([f.col("reading a"), f.col("reading b")] ))