如何在不丢失观察值或变量的情况下导出 textstat_simil 文档?

How do I export a textstat_simil document without losing observations or variables?

我是 quanteda 的新手,在导出文档时遇到问题。我正在比较两个文档,“dfm_latam”,有超过 27k 个观察值,和“dfm_cosines”,它由两个语料库组成,文本与 [= 的 27k 个观察值中的每一个进行比较23=] 数据库.

corpus_cosine_2 <- corpus(cosine_2_pdf)
corpus_cosines <- corpus_cosine_1 + corpus_cosine_2 
dfm_cosines <- dfm(corpus_cosines, case_insensitive = TRUE)


corpus_latam <- corpus(latam_review)
docvars(corpus_latam, "Text") <- names(corpus_latam$text)
dfm_latam <- dfm(corpus_latam, case_insensitive = TRUE)


simil_latam <- textstat_simil(dfm_latam, dfm_cosines, method = "cosine", margin = "documents", case_insensitive = TRUE)
view(simil_latam)

R 中的 view() 函数为我提供了前 1000 行,一切正常。 dfm_cosines 中的两个数值变量都出现了。但是,当我尝试将其导出为 Excel 文档时,输出看起来与 view() 1000 行预览完全不同。其中一个变量丢失,.xlsx 输出仅显示“corpus_cosine_1”的结果。 dfm“dfm_cosines”是在“corpus_cosine_1”和“corpus_cosine_2”之后生成的。为什么我导出的时候会出现这种情况?

openxlsx::write.xlsx(simil_latam, file = "F:\path\simil_latam.xlsx")

因此,我尝试与 view() 函数一起导出:

openxlsx::write.xlsx(view(simil_latam), file = "F:\path\simil_latam.xlsx")

对于此 write.xlsx(view()),显示的变量恰到好处,但我只导出了 27.000 多个观测值中的 1.000 个。如何自动导出 table 的所有观察结果并显示所有变量?

您需要将 textstat_simil 对象转换为更类似于电子表格的对象。尝试

as.matrix(simil_latam)

在你打电话之前 write.xlsx() 或者如果你喜欢这种格式,

as.data.frame(simil_latam)

我建议您在导出之前检查这两个强制对象,并查看这些方法中每个对象的帮助函数(在 quanteda.textstats 包中找到) .