计算文本中停用词的数量
Counting the number of stop words in a text
我想知道是否有人可以帮助我解决以下问题:
我正在尝试确定客户评论文本中停用词的数量(计数)。我在 R 中使用 "quanteda" 包停用词列表。
我已使用以下代码标记文本并过滤掉停用词:
stop.words <- tokens_select(corpus2.tokens, stopwords())
但是,我现在在保存这些结果时遇到问题,无法计算每条评论中包含的停用词的实际数量。
如有任何建议,我们将不胜感激。提前致谢!
您可以使用 stringr
中的 str_detect
(或 stringi
中的 stri_detect
)来计算停用词的数量。 str_detect 将 return TRUE
或 FALSE
这些你可以数一下。根据您拥有的停用词列表,您可以获得不同的结果。 stopwords
包中的 stopwords("en")
将 return 28。如果你使用 stopwords(source = "smart")
,你将得到 61。
text <- "I've never had a better pulled pork pizza! The amount of toppings that they layered on it was astounding...bacon, corn, more pulled pork, and the sauce was delicious. I shared my pizza with 2 other people. I can't wait to go back."
stopwords <- stopwords::stopwords("en")
sum(stringr::str_detect(tolower(text), stopwords))
28
我想知道是否有人可以帮助我解决以下问题: 我正在尝试确定客户评论文本中停用词的数量(计数)。我在 R 中使用 "quanteda" 包停用词列表。 我已使用以下代码标记文本并过滤掉停用词:
stop.words <- tokens_select(corpus2.tokens, stopwords())
但是,我现在在保存这些结果时遇到问题,无法计算每条评论中包含的停用词的实际数量。
如有任何建议,我们将不胜感激。提前致谢!
您可以使用 stringr
中的 str_detect
(或 stringi
中的 stri_detect
)来计算停用词的数量。 str_detect 将 return TRUE
或 FALSE
这些你可以数一下。根据您拥有的停用词列表,您可以获得不同的结果。 stopwords
包中的 stopwords("en")
将 return 28。如果你使用 stopwords(source = "smart")
,你将得到 61。
text <- "I've never had a better pulled pork pizza! The amount of toppings that they layered on it was astounding...bacon, corn, more pulled pork, and the sauce was delicious. I shared my pizza with 2 other people. I can't wait to go back."
stopwords <- stopwords::stopwords("en")
sum(stringr::str_detect(tolower(text), stopwords))
28