替换 Pyspark Dataframe 中列中的空值

Question

我需要替换 Spark 数据框中列中的空值。下面是我试过的代码

df=df.na.fill(0,Seq('c_amount')).show()

但是它给我一个错误NameError: name 'Seq' is not defined

下面是我的table

   +------------+--------+
   |c_account_id|c_amount|
   +------------+--------+ 
   |           1|    null|    
   |           2|    123 |
   |           3|    null|
   +------------+--------+

预期输出

   +------------+--------+
   |c_account_id|c_amount|
   +------------+--------+ 
   |           1|       0|    
   |           2|     123|
   |           3|       0|
   +------------+--------+

Answer 1

你需要这样使用

df = df.fillna("<BLANK>", subset=['col_name'])

替换 Pyspark Dataframe 中列中的空值

Replacing null values in a column in Pyspark Dataframe

apache-spark

apache-spark-sql

pyspark

pyspark-dataframes