删除 df 中以数字开头的所有条目并使用 R 组合单词时态
Removing all entires in a df beginning with numbers and combine tenses of words using R
所以我有一个类似这样的数据框:
word count
employee 500
jack 202
employee's 199
012hen 10
93 1
20 1
word 1
words 1
worded 1
所以我一直在尝试在这里使用 gsub,但我把它搞砸了。
基本上,我想删除 word
中包含数字的所有条目,并且我想合并具有相同基数的单词条目。
所以在这里,employee 和 employee's 应该放在一起。此外,word、words 和 worded 也应该如此。
目标:
word count
employee 699
jack 202
word 3
这是部分答案,因为我知道如何删除所有带数字的条目。关于折叠派生词的第二部分我不确定。
去除数字,确实可以使用正则表达式。我更喜欢基于 grepl
.
的结果进行子集化
df[!grepl("[0-9"], df$word),]
word count
1 employee 500
2 jack 202
3 employee's 199
7 word 1
8 words 1
9 worded 1
所以我有一个类似这样的数据框:
word count
employee 500
jack 202
employee's 199
012hen 10
93 1
20 1
word 1
words 1
worded 1
所以我一直在尝试在这里使用 gsub,但我把它搞砸了。
基本上,我想删除 word
中包含数字的所有条目,并且我想合并具有相同基数的单词条目。
所以在这里,employee 和 employee's 应该放在一起。此外,word、words 和 worded 也应该如此。
目标:
word count
employee 699
jack 202
word 3
这是部分答案,因为我知道如何删除所有带数字的条目。关于折叠派生词的第二部分我不确定。
去除数字,确实可以使用正则表达式。我更喜欢基于 grepl
.
df[!grepl("[0-9"], df$word),]
word count
1 employee 500
2 jack 202
3 employee's 199
7 word 1
8 words 1
9 worded 1