在scala中加入多个数据框
Join multiple dataframes in scala
我有两个变量。一个是 Dataframe,另一个是 List[Dataframe]。我希望对这些进行连接。目前我正在使用以下方法:
def joinDfList(SingleDataFrame: DataFrame, DataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame = {
var joinedDf = SingleDataFrame
DataFrameList.foreach(
Df => {
joinedDf = joinedDf.join(Df, groupByCols, "left_outer")
}
)
joinedDf.na.fill(0.0)
}
是否有一种方法可以让我们跳过“var”的使用,而不是“foreach”而使用“foldleft”?
您可以使用 foldLeft
:
不使用变量来简单地编写它
def joinDfList(singleDataFrame: DataFrame, dataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame =
dataFrameList.foldLeft(singleDataFrame)(
(dfAcc, nextDF) => dfAcc.join(nextDF, groupByCols, "left_outer")
).na.fill(0.0)
在此代码中 dfAcc
将始终与来自 dataFrameList
的新 DataFrame
合并,最后您将得到一个 DataFrame
重要! 小心,在一个作业中使用太多连接可能是性能下降的原因。
我有两个变量。一个是 Dataframe,另一个是 List[Dataframe]。我希望对这些进行连接。目前我正在使用以下方法:
def joinDfList(SingleDataFrame: DataFrame, DataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame = {
var joinedDf = SingleDataFrame
DataFrameList.foreach(
Df => {
joinedDf = joinedDf.join(Df, groupByCols, "left_outer")
}
)
joinedDf.na.fill(0.0)
}
是否有一种方法可以让我们跳过“var”的使用,而不是“foreach”而使用“foldleft”?
您可以使用 foldLeft
:
def joinDfList(singleDataFrame: DataFrame, dataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame =
dataFrameList.foldLeft(singleDataFrame)(
(dfAcc, nextDF) => dfAcc.join(nextDF, groupByCols, "left_outer")
).na.fill(0.0)
在此代码中 dfAcc
将始终与来自 dataFrameList
的新 DataFrame
合并,最后您将得到一个 DataFrame
重要! 小心,在一个作业中使用太多连接可能是性能下降的原因。