在 tm R 中组合单词没有达到预期的结果
combining words in tm R is not achieving desired result
我正在尝试组合几个词,以便它们算作一个。
在此示例中,我希望将 val
和 valuatin
计为 valuation
.
我一直用来尝试执行此操作的代码如下:
#load in package
library(tm)
replaceWords <- function(x, from, keep){
regex_pat <- paste(from, collapse = "|")
gsub(regex_pat, keep, x)
}
oldwords <- c("val", "valuati")
newword <- c("valuation")
TextDoc2 <- tm_map(TextDoc, replaceWords, from=oldwords, keep=newword)
然而,这并没有像预期的那样工作。任何时候有 val
的单词现在都被替换为 valuation
。例如 equivalent
变为 equivaluation
。我该如何解决这个错误并达到我想要的结果?
试试这个功能 -
replaceWords <- function(x, from, keep){
regex_pat <- sprintf('\b(%s)\b', paste(from, collapse = '|'))
gsub(regex_pat, keep, x)
}
val
与 equivalent
匹配。添加单词边界可以阻止这种情况发生。
grepl('val', 'equivalent')
#[1] TRUE
grepl('\bval\b', 'equivalent')
#[1] FALSE
我正在尝试组合几个词,以便它们算作一个。
在此示例中,我希望将 val
和 valuatin
计为 valuation
.
我一直用来尝试执行此操作的代码如下:
#load in package
library(tm)
replaceWords <- function(x, from, keep){
regex_pat <- paste(from, collapse = "|")
gsub(regex_pat, keep, x)
}
oldwords <- c("val", "valuati")
newword <- c("valuation")
TextDoc2 <- tm_map(TextDoc, replaceWords, from=oldwords, keep=newword)
然而,这并没有像预期的那样工作。任何时候有 val
的单词现在都被替换为 valuation
。例如 equivalent
变为 equivaluation
。我该如何解决这个错误并达到我想要的结果?
试试这个功能 -
replaceWords <- function(x, from, keep){
regex_pat <- sprintf('\b(%s)\b', paste(from, collapse = '|'))
gsub(regex_pat, keep, x)
}
val
与 equivalent
匹配。添加单词边界可以阻止这种情况发生。
grepl('val', 'equivalent')
#[1] TRUE
grepl('\bval\b', 'equivalent')
#[1] FALSE