将函数应用于 Spark Dataframe 列
Applying function to Spark Dataframe Column
来自R,我习惯于轻松地对列进行操作。有什么简单的方法可以使用我在 scala
中编写的这个函数
def round_tenths_place( un_rounded:Double ) : Double = {
val rounded = BigDecimal(un_rounded).setScale(1, BigDecimal.RoundingMode.HALF_UP).toDouble
return rounded
}
并将其应用于数据框的一列 - 我希望这样做:
bid_results.withColumn("bid_price_bucket", round_tenths_place(bid_results("bid_price")) )
我还没有找到任何简单的方法,并且正在努力弄清楚如何做到这一点。必须有比将数据帧转换为 RDD 然后从行的 rdd 中选择以获得正确的字段并将函数映射到所有值之间的更简单的方法,是吗?还有更简洁的创建 SQL table 然后使用 sparkSQL UDF?
您可以定义一个UDF如下:
val round_tenths_place_udf = udf(round_tenths_place _)
bid_results.withColumn(
"bid_price_bucket", round_tenths_place_udf($"bid_price"))
尽管内置 Round
expression 使用与您的函数完全相同的逻辑并且应该绰绰有余,更不用说效率更高了:
import org.apache.spark.sql.functions.round
bid_results.withColumn("bid_price_bucket", round($"bid_price", 1))
另请参阅以下内容:
来自R,我习惯于轻松地对列进行操作。有什么简单的方法可以使用我在 scala
中编写的这个函数def round_tenths_place( un_rounded:Double ) : Double = {
val rounded = BigDecimal(un_rounded).setScale(1, BigDecimal.RoundingMode.HALF_UP).toDouble
return rounded
}
并将其应用于数据框的一列 - 我希望这样做:
bid_results.withColumn("bid_price_bucket", round_tenths_place(bid_results("bid_price")) )
我还没有找到任何简单的方法,并且正在努力弄清楚如何做到这一点。必须有比将数据帧转换为 RDD 然后从行的 rdd 中选择以获得正确的字段并将函数映射到所有值之间的更简单的方法,是吗?还有更简洁的创建 SQL table 然后使用 sparkSQL UDF?
您可以定义一个UDF如下:
val round_tenths_place_udf = udf(round_tenths_place _)
bid_results.withColumn(
"bid_price_bucket", round_tenths_place_udf($"bid_price"))
尽管内置 Round
expression 使用与您的函数完全相同的逻辑并且应该绰绰有余,更不用说效率更高了:
import org.apache.spark.sql.functions.round
bid_results.withColumn("bid_price_bucket", round($"bid_price", 1))
另请参阅以下内容: