用 R 将语料库中的两个词组合起来

Combine two words in a corpus with R

这是我的代码

ny <- read.csv2("nyt.csv", sep = "\t", header = T)
ny_texte <- as.vector(ny)

iterator <- itoken(ny_texte,
                   preprocessor=tolower, 
                   tokenizer=word_tokenizer, 
                   progressbar=FALSE)

vocabulary <- create_vocabulary(iterator)

我的 .csv 是纽约时报的文章。 我想在词汇表中组合 "new york"、"south africa"、"ellis island" 之类的词,而不仅仅是这样的标记:"new"、"york" 等

我该怎么做?

谢谢

更精确:我正在使用这些库

library(text2vec)
library(stopwords)
library(tm)
library(dplyr)
library(readr)
ny[1]

1 " LEAD Cuomo 州长和可能的总统竞选等待翅膀在新年前夕宣誓就职第二任纽约州首席执行官 LEAD Cuomo 州长和可能的总统竞选等待翅膀 ...

回答你的问题还是有点难:我们不能运行你的代码,因为我们没有"nyt.csv."但似乎gsub()会做你的想要:

ny <- read.csv2("nyt.csv", sep = "\t", header = TRUE)
ny <– gsub("new york", "newyork", ny, ignore.case = TRUE)
ny <– gsub("south africa", "southafrica", ny, ignore.case = TRUE)
ny_texte <- as.vector(ny)

(然后 运行 您示例中的 itoken()create_vocabulary() 命令。)