删除 df 中以数字开头的所有条目并使用 R 组合单词时态

Question

所以我有一个类似这样的数据框：

word        count
employee    500       
jack        202       
employee's  199       
012hen      10
93          1
20          1
word        1
words       1
worded      1

所以我一直在尝试在这里使用 gsub，但我把它搞砸了。

基本上，我想删除 word 中包含数字的所有条目，并且我想合并具有相同基数的单词条目。

所以在这里，employee 和 employee's 应该放在一起。此外，word、words 和 worded 也应该如此。

目标：

word        count
employee    699       
jack        202            
word          3

Answer 1

这是部分答案，因为我知道如何删除所有带数字的条目。关于折叠派生词的第二部分我不确定。

去除数字，确实可以使用正则表达式。我更喜欢基于 grepl.

的结果进行子集化

df[!grepl("[0-9"], df$word),]
        word count
1   employee   500
2       jack   202
3 employee's   199
7       word     1
8      words     1
9     worded     1

删除 df 中以数字开头的所有条目并使用 R 组合单词时态

Removing all entires in a df beginning with numbers and combine tenses of words using R

text

r

word-cloud

tidyverse

tidytext