我们如何创建函数来查找 Pyspark 数据框中列的中位数
How can we create function for finding median of column in Pyspark dataframe
我想用 Pyspark.How 中的中值替换空值,我可以这样做吗?
可以使用 summary() 函数计算中位数。
例如,如果你想用 column_1
中的中位数替换 NULL,你可以这样做:
df.na.fill({'column_1': df.summary().filter(col("summary")=="50%")\
.select(col("column_1")).collect()[0][0]}).show()
我想用 Pyspark.How 中的中值替换空值,我可以这样做吗?
可以使用 summary() 函数计算中位数。
例如,如果你想用 column_1
中的中位数替换 NULL,你可以这样做:
df.na.fill({'column_1': df.summary().filter(col("summary")=="50%")\
.select(col("column_1")).collect()[0][0]}).show()