Stata 中的描述性统计 - 词频

Descriptive statistics in Stata - Word frequencies

我有一个大型数据集,其中包含变量 fileid、年份和大约 1000 个单词(每个单词都是一个单独的变量)。所有行条目均来自公司报告,指示年份、唯一的文件 ID 以及该报告中每个词的相应绝对频率。现在我想要一些描述性统计数据:根本未使用的词数、词的均值、词的方差、词的前百分位数。我如何在 Stata 中对其进行编程?

警告:您最好使用 R 或其他程序中的文本处理包。但由于没有其他人回答,我会给它一个仅限 Stata 的镜头。可能已经构建了一个更适合的 ado 文件,但我不知道有一个。

我假设

each word is a separate variable

表示有一个变量word_profit取值k,从0到K其中word_profit[i]是第i个报表写利润的次数,fileid[i].

词的意思

collapse (mean) word_* 会给出单词被使用的平均次数。添加 by(year) 选项将为您提供按年计算的方法。为了使它比一个非常广泛的观测数据集更易于管理,您需要 运行 在崩溃后执行以下操作:

gen temp = 1
reshape long word_, i(temp) j(str) string
rename word_ count
drop temp
词的变化

collapse (std) word_* 会给你标准偏差。要获得方差,只需平方标准差即可。

完全没有使用的字数

如果不更清楚一点,我不太清楚你在这里想要什么。你可以计算每个单词的零:

foreach var of varlist word_* {
  gen zero_`var' = (`var' == 0)
}
collapse (sum) zero_*