根据字符串列和其他列的条件转换两列 2 & 3 Pyspark UDF

Convert two columns based on the condition of string column and other columns 2 & 3 Pyspark UDF

你好

我想将一些厘米值(ref_low = 20 和 ref_low <40, & ref_high > 70 和 ref_high <90,)转换为使用公式 (cm/100) 计。我尝试使用 Pyspark UDF

c_udf = udf(lambda val: val/100 if ref_low = 20 and ref_low <40 else val) df = df.withColumn("new", c_udf("ref_low")).withColumn("new", c_udf("ref_high"))

问题 1:如何将 unit = Cm 添加到 UDF? 并希望保持所有其他值不变。

谢谢

我想这就是你想要的。 Spark 内置 when/otherwise 就足够了。您只需要适当地表达布尔值。

from pyspark.sql import functions as F
df.withColumn("ref_low", F.when((F.col("unit")=='cm')&((F.col("ref_low")<40)|\
                                 (F.col("ref_low")==20)), F.col("ref_low")/100)\
             .otherwise(F.col("ref_low")))\
  .withColumn("ref_high", F.when((F.col("unit")=='cm')&((F.col("ref_high")<90)&\
                                  (F.col("ref_high")>70)),F.col("ref_high")/100)\
             .otherwise(F.col("ref_high"))).show()

#+-----+-------+--------+
#| unit|ref_low|ref_high|
#+-----+-------+--------+
#|   cm|    0.3|    50.0|
#|   cm|   40.0|    70.0|
#|   cm|    0.2|    0.85|
#|   cm|    0.2|    0.85|
#|   cm|    0.3|    0.76|
#|   cm|   43.0|    65.0|
#|Meter|    0.2|    0.65|
#|Meter|    0.4|    0.68|
#|Meter|    0.5|     0.8|
#+-----+-------+--------+