如何从文本中删除标点符号?

How to remove punctuation from a text?

我有一个非常大的数据集。我想知道如何从 pyspark 的大数据集中删除所有标点符号?例如, . & \ | - _

您可以使用 regexp_replace 删除您使用正则表达式指定的标点符号:

import pyspark.sql.functions as F

df2 = df.select(
    [F.regexp_replace(col, r',|\.|&|\|\||-|_', '').alias(col) for col in df.columns]
)