使用 R 在数据框中提取文本列
Stemming a text column in a dataframe with R
我有一个具有这种结构的数据框:
#Load lexicon
Lexicon_DF <- read.csv("LexiconFrancais.csv",header=F, sep=";")
"LexiconFrancais.csv" 的结构是这样的:
French Translation (Google Translate);Positive;Negative
un dos;0;0
abaque;0;0
abandonner;0;1
abandonné;0;1
abandon;0;1
se calmer;0;0
réduction;0;0
abba;1;0
abbé;0;0
abréger;0;0
abréviation;0;0
> Lexicon_DF
V1 V2 V3
1 French Translation (Google Translate) Positive Negative
2 un dos 0 0
3 abaque 0 0
4 abandonner 0 1
5 abandonné 0 1
6 abandon 0 1
7 se calmer 0 0
8 réduction 0 0
9 abba 1 0
10 abbé 0 0
11 abréger 0 0
12 abréviation 0 0
我尝试提取数据框的第一列,为此我做了:
Lexicon_DF <- SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')
但执行此命令后,我只找到 Lexicon_DF 数据框中的第一列,其他两列消失了。
> Lexicon_DF <- SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')
> Lexicon_DF
[1] "French Translation (Google Translate)" "un dos" "abaqu"
[4] "abandon" "abandon" "abandon"
[7] "se calm" "réduct" "abba"
[10] "abbé" "abreg" "abrévi"
如何在不遗漏其他两列的情况下进行词干提取?
谢谢
您正在尝试用 wordStem-
的 o/p 替换 Lexicon_DF 的全部内容
试试这个:
Lexicon_DF$V1 <-SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')
我有一个具有这种结构的数据框:
#Load lexicon
Lexicon_DF <- read.csv("LexiconFrancais.csv",header=F, sep=";")
"LexiconFrancais.csv" 的结构是这样的:
French Translation (Google Translate);Positive;Negative
un dos;0;0
abaque;0;0
abandonner;0;1
abandonné;0;1
abandon;0;1
se calmer;0;0
réduction;0;0
abba;1;0
abbé;0;0
abréger;0;0
abréviation;0;0
> Lexicon_DF
V1 V2 V3
1 French Translation (Google Translate) Positive Negative
2 un dos 0 0
3 abaque 0 0
4 abandonner 0 1
5 abandonné 0 1
6 abandon 0 1
7 se calmer 0 0
8 réduction 0 0
9 abba 1 0
10 abbé 0 0
11 abréger 0 0
12 abréviation 0 0
我尝试提取数据框的第一列,为此我做了:
Lexicon_DF <- SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')
但执行此命令后,我只找到 Lexicon_DF 数据框中的第一列,其他两列消失了。
> Lexicon_DF <- SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')
> Lexicon_DF
[1] "French Translation (Google Translate)" "un dos" "abaqu"
[4] "abandon" "abandon" "abandon"
[7] "se calm" "réduct" "abba"
[10] "abbé" "abreg" "abrévi"
如何在不遗漏其他两列的情况下进行词干提取?
谢谢
您正在尝试用 wordStem-
的 o/p 替换 Lexicon_DF 的全部内容试试这个:
Lexicon_DF$V1 <-SnowballC::wordStem(Lexicon_DF[[1]], language = 'fr')