如何从文本中删除标点符号?
How to remove punctuation from a text?
我有一个非常大的数据集。我想知道如何从 pyspark 的大数据集中删除所有标点符号?例如, . & \ | - _
您可以使用 regexp_replace
删除您使用正则表达式指定的标点符号:
import pyspark.sql.functions as F
df2 = df.select(
[F.regexp_replace(col, r',|\.|&|\|\||-|_', '').alias(col) for col in df.columns]
)
我有一个非常大的数据集。我想知道如何从 pyspark 的大数据集中删除所有标点符号?例如, . & \ | - _
您可以使用 regexp_replace
删除您使用正则表达式指定的标点符号:
import pyspark.sql.functions as F
df2 = df.select(
[F.regexp_replace(col, r',|\.|&|\|\||-|_', '').alias(col) for col in df.columns]
)