我们如何创建函数来查找 Pyspark 数据框中列的中位数

How can we create function for finding median of column in Pyspark dataframe

我想用 Pyspark.How 中的中值替换空值,我可以这样做吗?

可以使用 summary() 函数计算中位数。
例如,如果你想用 column_1 中的中位数替换 NULL,你可以这样做:

df.na.fill({'column_1': df.summary().filter(col("summary")=="50%")\
            .select(col("column_1")).collect()[0][0]}).show()