Pyspark 从数据框中的整数中删除逗号
Pyspark remove comma from integer in dataframe
我有以下名为 A 的数据框,它包含两列:
值的列类型为整型。我想将输出值更改为整数之类的东西。因此,例如,第一行的预期结果是 -782543,第五行是 -614278。
我想我只需要使用 Pyspark 从此列中删除逗号。
有什么建议吗?非常感谢!
您可以使用 regexp_replace
to remove the comma, then cast
列作为整数。
from pyspark.sql import functions as F
df.withColumn('aa', F.regexp_replace(F.col('a'), ',', '').cast('integer')).show()
+--------+--------+-------+
| a| b| aa|
+--------+--------+-------+
|-782,543|-614,278|-782543|
+--------+--------+-------+
root
|-- a: string (nullable = true)
|-- b: string (nullable = true)
|-- aa: integer (nullable = true)
我有以下名为 A 的数据框,它包含两列:
值的列类型为整型。我想将输出值更改为整数之类的东西。因此,例如,第一行的预期结果是 -782543,第五行是 -614278。 我想我只需要使用 Pyspark 从此列中删除逗号。
有什么建议吗?非常感谢!
您可以使用 regexp_replace
to remove the comma, then cast
列作为整数。
from pyspark.sql import functions as F
df.withColumn('aa', F.regexp_replace(F.col('a'), ',', '').cast('integer')).show()
+--------+--------+-------+
| a| b| aa|
+--------+--------+-------+
|-782,543|-614,278|-782543|
+--------+--------+-------+
root
|-- a: string (nullable = true)
|-- b: string (nullable = true)
|-- aa: integer (nullable = true)