使用 R 在数据框中提取文本列

Question

我有一个具有这种结构的数据框：

#Load lexicon
Lexicon_DF <- read.csv("LexiconFrancais.csv",header=F, sep=";")

"LexiconFrancais.csv" 的结构是这样的：

French Translation (Google Translate);Positive;Negative
un dos;0;0
abaque;0;0
abandonner;0;1
abandonné;0;1
abandon;0;1
se calmer;0;0
réduction;0;0
abba;1;0
abbé;0;0
abréger;0;0
abréviation;0;0



> Lexicon_DF
                                         V1       V2       V3
1     French Translation (Google Translate) Positive Negative
2                                    un dos        0        0
3                                    abaque        0        0
4                                abandonner        0        1
5                                 abandonné        0        1
6                                   abandon        0        1
7                                 se calmer        0        0
8                                 réduction        0        0
9                                      abba        1        0
10                                     abbé        0        0
11                                  abréger        0        0
12                              abréviation        0        0

我尝试提取数据框的第一列，为此我做了：

Lexicon_DF <- SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')

但执行此命令后，我只找到 Lexicon_DF 数据框中的第一列，其他两列消失了。

> Lexicon_DF <- SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')
> Lexicon_DF
   [1] "French Translation (Google Translate)" "un dos"                                "abaqu"                                
   [4] "abandon"                               "abandon"                               "abandon"                              
   [7] "se calm"                               "réduct"                                "abba"                                 
  [10] "abbé"                                  "abreg"                                 "abrévi"

如何在不遗漏其他两列的情况下进行词干提取？

谢谢

Answer 1

您正在尝试用 wordStem-

的 o/p 替换 Lexicon_DF 的全部内容

试试这个：

Lexicon_DF$V1 <-SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')

使用 R 在数据框中提取文本列

Stemming a text column in a dataframe with R

r

stemming

dataframe