替换 R 中的文本上下文

Question

我有一些文本，我想在其中检测所有连续的单字字符并删除它们之间的空格。但是，应尊重标点符号。例如，如果我有：

sampleText = "Abc defg h i j k, l mn, o p qrst."

我希望我的结果是这样的：

processedText = "Abc defg hijk, l mn, op qrst."

在 R 中执行此操作的最佳方法是什么？

如果我现在一定要计划这个，我可能会：

但是，这对我来说听起来效率很低。我猜有一种方法可以做到这一点而不用大惊小怪，对吧？

Answer 1

我建议使用基于 PCRE 的正则表达式，gsub 来自 base R:

gsub("(?<!\S)(\w)\s(?=\w\b)", "\1", sampleText, perl=TRUE)
[1] "Abc defg hijk, l mn, op qrst."

详情:

替换模式中的只是将捕获的值插入组 1 回到结果字符串。

Replacing text context in R