清洁后测量文本质量以进行文本分析

Question

是否有任何测量可以帮助查看文本分析技术在清理过程后的文本质量是否有更好的结果，例如来自 quanteda.textmodels.

的 lsa

包中的示例：

library(quanteda.textmodels)
library(quanteda)
library(stm)
quant_dfm <- dfm(data_corpus_irishbudget2010,
                 remove_punct = TRUE, remove_numbers = TRUE,
                 remove = stopwords("english"))

如果我使用

quant_dfm2 <- dfm(data_corpus_irishbudget2010,
                 remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE
                 remove = stopwords("english"))

如何衡量性能（哪个更好）？

Answer 1

在即将推出的 quanteda 版本中（在 Github 上可用），添加了 textstat_summary()。您可以使用它来检查文本的清洁程度：

library(quanteda)
library(quanteda.textmodels)
quant_dfm <- dfm(data_corpus_irishbudget2010,
                 remove_punct = TRUE, remove_numbers = TRUE,
                 remove = stopwords("english"))
textstat_summary(quant_dfm)

#                     document chars sents tokens types puncts numbers symbols urls tags emojis
# 1        Lenihan, Brian (FF)    NA    NA   4157  1549      0       0      75    0    0      0
# 2       Bruton, Richard (FG)    NA    NA   1824   855      0       0      18    0    0      0
# 3         Burton, Joan (LAB)    NA    NA   2938  1371      0       0      49    0    0      0
# 4        Morgan, Arthur (SF)    NA    NA   3175  1349      0       0      42    0    0      0
# 5          Cowen, Brian (FF)    NA    NA   3107  1376      0       0      38    0    0      0
# 6           Kenny, Enda (FG)    NA    NA   1848   959      0       0      20    0    0      0

清洁后测量文本质量以进行文本分析

Measure the quality of text for text analysis after cleaning

r

quanteda