清洁后测量文本质量以进行文本分析
Measure the quality of text for text analysis after cleaning
是否有任何测量可以帮助查看文本分析技术在清理过程后的文本质量是否有更好的结果,例如来自 quanteda.textmodels.
的 lsa
包中的示例:
library(quanteda.textmodels)
library(quanteda)
library(stm)
quant_dfm <- dfm(data_corpus_irishbudget2010,
remove_punct = TRUE, remove_numbers = TRUE,
remove = stopwords("english"))
如果我使用
quant_dfm2 <- dfm(data_corpus_irishbudget2010,
remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE
remove = stopwords("english"))
如何衡量性能(哪个更好)?
在即将推出的 quanteda 版本中(在 Github 上可用),添加了 textstat_summary()
。您可以使用它来检查文本的清洁程度:
library(quanteda)
library(quanteda.textmodels)
quant_dfm <- dfm(data_corpus_irishbudget2010,
remove_punct = TRUE, remove_numbers = TRUE,
remove = stopwords("english"))
textstat_summary(quant_dfm)
# document chars sents tokens types puncts numbers symbols urls tags emojis
# 1 Lenihan, Brian (FF) NA NA 4157 1549 0 0 75 0 0 0
# 2 Bruton, Richard (FG) NA NA 1824 855 0 0 18 0 0 0
# 3 Burton, Joan (LAB) NA NA 2938 1371 0 0 49 0 0 0
# 4 Morgan, Arthur (SF) NA NA 3175 1349 0 0 42 0 0 0
# 5 Cowen, Brian (FF) NA NA 3107 1376 0 0 38 0 0 0
# 6 Kenny, Enda (FG) NA NA 1848 959 0 0 20 0 0 0
是否有任何测量可以帮助查看文本分析技术在清理过程后的文本质量是否有更好的结果,例如来自 quanteda.textmodels.
的 lsa包中的示例:
library(quanteda.textmodels)
library(quanteda)
library(stm)
quant_dfm <- dfm(data_corpus_irishbudget2010,
remove_punct = TRUE, remove_numbers = TRUE,
remove = stopwords("english"))
如果我使用
quant_dfm2 <- dfm(data_corpus_irishbudget2010,
remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE
remove = stopwords("english"))
如何衡量性能(哪个更好)?
在即将推出的 quanteda 版本中(在 Github 上可用),添加了 textstat_summary()
。您可以使用它来检查文本的清洁程度:
library(quanteda)
library(quanteda.textmodels)
quant_dfm <- dfm(data_corpus_irishbudget2010,
remove_punct = TRUE, remove_numbers = TRUE,
remove = stopwords("english"))
textstat_summary(quant_dfm)
# document chars sents tokens types puncts numbers symbols urls tags emojis
# 1 Lenihan, Brian (FF) NA NA 4157 1549 0 0 75 0 0 0
# 2 Bruton, Richard (FG) NA NA 1824 855 0 0 18 0 0 0
# 3 Burton, Joan (LAB) NA NA 2938 1371 0 0 49 0 0 0
# 4 Morgan, Arthur (SF) NA NA 3175 1349 0 0 42 0 0 0
# 5 Cowen, Brian (FF) NA NA 3107 1376 0 0 38 0 0 0
# 6 Kenny, Enda (FG) NA NA 1848 959 0 0 20 0 0 0