从 apache spark 数据集中的列创建行

Question

我正在尝试从数据集中根据现有列创建一行。这是我的案例：

输入数据集

accountid	payingaccountid	billedaccountid	startdate	enddate
0011t00000MY1U3AAL	0011t00000MY1U3XXX	0011t00000ZZ1U3AAL	2020-06-10 00:00:00.000000	NULL

我想要这样的东西

accountid	startdate	enddate
0011t00000MY1U3AAL	2021-06-10 00:00:00.000000	NULL
0011t00000MY1U3XXX	2021-06-10 00:00:00.000000	NULL
0011t00000ZZ1U3AAL	2021-06-10 00:00:00.000000	NULL

在输入数据集中，billedaccounid 和 payingaccounid 列现在也在 accountid 列中。

提前致谢。

Answer 1

您可以创建一个包含 3 个 id 列的数组列，然后使用 explode 函数来获得所需的结果。

val spark = SparkSession.builder().master("local[*]").getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
import spark.implicits._

val df = List(("0011t00000MY1U3AAL", "0011t00000MY1U3XXX", "0011t00000ZZ1U3AAL", "2020-06-10 00:00:00.000000", "NULL"))
    .toDF("accountid", "payingaccountid", "billedaccountid", "startdate", "enddate")

df.select(
    explode_outer(array("accountid","payingaccountid","billedaccountid")).as("accountid"),
    'startdate,'enddate).show(false)
/*
+------------------+--------------------------+-------+
|accountid         |startdate                 |enddate|
+------------------+--------------------------+-------+
|0011t00000MY1U3AAL|2020-06-10 00:00:00.000000|NULL   |
|0011t00000MY1U3XXX|2020-06-10 00:00:00.000000|NULL   |
|0011t00000ZZ1U3AAL|2020-06-10 00:00:00.000000|NULL   |
+------------------+--------------------------+-------+ */

从 apache spark 数据集中的列创建行

create rows from columns in a apache spark dataset

sql

scala

apache-spark

apache-spark-dataset