Trim PySpark 中名称之间的附加空格
Trim addtional whitespace between the names in PySpark
如何 trim PySpark 数据帧中名称之间存在的额外 space?
下面是我的数据框
+----------------------+----------+
|name |account_id|
+----------------------+----------+
| abc xyz pqr | 1 |
| pqm rst | 2 |
+----------------------+----------+
我想要的输出
+-------------+----------+
|name |account_id|
+-------------+----------+
| abc xyz pqr | 1 |
| pqm rst | 2 |
+-------------+----------+
我尝试使用 regex_replace,但它 trim 完全是 space。还有其他方法可以实现吗?非常感谢!
我尝试使用 'regexp_replace(,'\s+',' ')' 并得到了输出。
df=df.withColumn("name",regexp_replace(col("name"),'\s+',' '))
输出
+-----------+----------+
| name |account_id|
+-----------+----------+
|abc xyz pqr| 1 |
| pqm rst| 2 |
+-----------+----------+
如何 trim PySpark 数据帧中名称之间存在的额外 space?
下面是我的数据框
+----------------------+----------+
|name |account_id|
+----------------------+----------+
| abc xyz pqr | 1 |
| pqm rst | 2 |
+----------------------+----------+
我想要的输出
+-------------+----------+
|name |account_id|
+-------------+----------+
| abc xyz pqr | 1 |
| pqm rst | 2 |
+-------------+----------+
我尝试使用 regex_replace,但它 trim 完全是 space。还有其他方法可以实现吗?非常感谢!
我尝试使用 'regexp_replace(,'\s+',' ')' 并得到了输出。
df=df.withColumn("name",regexp_replace(col("name"),'\s+',' '))
输出
+-----------+----------+
| name |account_id|
+-----------+----------+
|abc xyz pqr| 1 |
| pqm rst| 2 |
+-----------+----------+