用 R 将语料库中的两个词组合起来

Question

这是我的代码

ny <- read.csv2("nyt.csv", sep = "\t", header = T)
ny_texte <- as.vector(ny)

iterator <- itoken(ny_texte,
                   preprocessor=tolower, 
                   tokenizer=word_tokenizer, 
                   progressbar=FALSE)

vocabulary <- create_vocabulary(iterator)

我的 .csv 是纽约时报的文章。我想在词汇表中组合 "new york"、"south africa"、"ellis island" 之类的词，而不仅仅是这样的标记："new"、"york" 等

我该怎么做？

谢谢

更精确：我正在使用这些库

library(text2vec)
library(stopwords)
library(tm)
library(dplyr)
library(readr)

例如关于我的结果

ny[1]

1 " LEAD Cuomo 州长和可能的总统竞选等待翅膀在新年前夕宣誓就职第二任纽约州首席执行官 LEAD Cuomo 州长和可能的总统竞选等待翅膀 ...

vocabulary enter image description here

Answer 1

回答你的问题还是有点难：我们不能运行你的代码，因为我们没有"nyt.csv."但似乎gsub()会做你的想要：

ny <- read.csv2("nyt.csv", sep = "\t", header = TRUE)
ny <– gsub("new york", "newyork", ny, ignore.case = TRUE)
ny <– gsub("south africa", "southafrica", ny, ignore.case = TRUE)
ny_texte <- as.vector(ny)

（然后运行您示例中的 itoken() 和 create_vocabulary() 命令。）

用 R 将语料库中的两个词组合起来

Combine two words in a corpus with R

r

corpus

text-mining

text2vec