Pyspark 从数据框中的整数中删除逗号

Pyspark remove comma from integer in dataframe

我有以下名为 A 的数据框,它包含两列:

值的列类型为整型。我想将输出值更改为整数之类的东西。因此,例如,第一行的预期结果是 -782543,第五行是 -614278。 我想我只需要使用 Pyspark 从此列中删除逗号。

有什么建议吗?非常感谢!

您可以使用 regexp_replace to remove the comma, then cast 列作为整数。

from pyspark.sql import functions as F

df.withColumn('aa', F.regexp_replace(F.col('a'), ',', '').cast('integer')).show()

+--------+--------+-------+
|       a|       b|     aa|
+--------+--------+-------+
|-782,543|-614,278|-782543|
+--------+--------+-------+

root
 |-- a: string (nullable = true)
 |-- b: string (nullable = true)
 |-- aa: integer (nullable = true)