从 apache spark 数据集中的列创建行
create rows from columns in a apache spark dataset
我正在尝试从数据集中根据现有列创建一行。
这是我的案例:
输入数据集
accountid
payingaccountid
billedaccountid
startdate
enddate
0011t00000MY1U3AAL
0011t00000MY1U3XXX
0011t00000ZZ1U3AAL
2020-06-10 00:00:00.000000
NULL
我想要这样的东西
accountid
startdate
enddate
0011t00000MY1U3AAL
2021-06-10 00:00:00.000000
NULL
0011t00000MY1U3XXX
2021-06-10 00:00:00.000000
NULL
0011t00000ZZ1U3AAL
2021-06-10 00:00:00.000000
NULL
在输入数据集中,billedaccounid 和 payingaccounid 列现在也在 accountid 列中。
提前致谢。
您可以创建一个包含 3 个 id 列的数组列,然后使用 explode 函数来获得所需的结果。
val spark = SparkSession.builder().master("local[*]").getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
import spark.implicits._
val df = List(("0011t00000MY1U3AAL", "0011t00000MY1U3XXX", "0011t00000ZZ1U3AAL", "2020-06-10 00:00:00.000000", "NULL"))
.toDF("accountid", "payingaccountid", "billedaccountid", "startdate", "enddate")
df.select(
explode_outer(array("accountid","payingaccountid","billedaccountid")).as("accountid"),
'startdate,'enddate).show(false)
/*
+------------------+--------------------------+-------+
|accountid |startdate |enddate|
+------------------+--------------------------+-------+
|0011t00000MY1U3AAL|2020-06-10 00:00:00.000000|NULL |
|0011t00000MY1U3XXX|2020-06-10 00:00:00.000000|NULL |
|0011t00000ZZ1U3AAL|2020-06-10 00:00:00.000000|NULL |
+------------------+--------------------------+-------+ */
我正在尝试从数据集中根据现有列创建一行。 这是我的案例:
输入数据集
accountid | payingaccountid | billedaccountid | startdate | enddate |
---|---|---|---|---|
0011t00000MY1U3AAL | 0011t00000MY1U3XXX | 0011t00000ZZ1U3AAL | 2020-06-10 00:00:00.000000 | NULL |
我想要这样的东西
accountid | startdate | enddate |
---|---|---|
0011t00000MY1U3AAL | 2021-06-10 00:00:00.000000 | NULL |
0011t00000MY1U3XXX | 2021-06-10 00:00:00.000000 | NULL |
0011t00000ZZ1U3AAL | 2021-06-10 00:00:00.000000 | NULL |
在输入数据集中,billedaccounid 和 payingaccounid 列现在也在 accountid 列中。
提前致谢。
您可以创建一个包含 3 个 id 列的数组列,然后使用 explode 函数来获得所需的结果。
val spark = SparkSession.builder().master("local[*]").getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
import spark.implicits._
val df = List(("0011t00000MY1U3AAL", "0011t00000MY1U3XXX", "0011t00000ZZ1U3AAL", "2020-06-10 00:00:00.000000", "NULL"))
.toDF("accountid", "payingaccountid", "billedaccountid", "startdate", "enddate")
df.select(
explode_outer(array("accountid","payingaccountid","billedaccountid")).as("accountid"),
'startdate,'enddate).show(false)
/*
+------------------+--------------------------+-------+
|accountid |startdate |enddate|
+------------------+--------------------------+-------+
|0011t00000MY1U3AAL|2020-06-10 00:00:00.000000|NULL |
|0011t00000MY1U3XXX|2020-06-10 00:00:00.000000|NULL |
|0011t00000ZZ1U3AAL|2020-06-10 00:00:00.000000|NULL |
+------------------+--------------------------+-------+ */