regex_replace 用于字符串匹配而非子字符串匹配的字符串

regex_replace on string for string match and not substring match

这个:

words = words.withColumn('value_2', F.regexp_replace('value', '|'.join(stopWords), ''))

适用于子字符串。

但是,我有一个停用词 'a',结果 'was' 变成了 'ws'。我只想在 'A' 或 'a' 上看到它,然后保持原样。

在交替周围放置单词边界:

words = words.withColumn('value_2', F.regexp_replace('value', '\b(' + '|'.join(stopWords) + ')\b', ''))