Stata 中的描述性统计 - 词频

Question

我有一个大型数据集，其中包含变量 fileid、年份和大约 1000 个单词（每个单词都是一个单独的变量）。所有行条目均来自公司报告，指示年份、唯一的文件 ID 以及该报告中每个词的相应绝对频率。现在我想要一些描述性统计数据：根本未使用的词数、词的均值、词的方差、词的前百分位数。我如何在 Stata 中对其进行编程？

Answer 1

警告：您最好使用 R 或其他程序中的文本处理包。但由于没有其他人回答，我会给它一个仅限 Stata 的镜头。可能已经构建了一个更适合的 ado 文件，但我不知道有一个。

我假设

each word is a separate variable

表示有一个变量word_profit取值k，从0到K其中word_profit[i]是第i个报表写利润的次数，fileid[i].

词的意思

collapse (mean) word_* 会给出单词被使用的平均次数。添加 by(year) 选项将为您提供按年计算的方法。为了使它比一个非常广泛的观测数据集更易于管理，您需要运行在崩溃后执行以下操作：

gen temp = 1
reshape long word_, i(temp) j(str) string
rename word_ count
drop temp

词的变化

collapse (std) word_* 会给你标准偏差。要获得方差，只需平方标准差即可。

完全没有使用的字数

如果不更清楚一点，我不太清楚你在这里想要什么。你可以计算每个单词的零：

foreach var of varlist word_* {
  gen zero_`var' = (`var' == 0)
}
collapse (sum) zero_*

Stata 中的描述性统计 - 词频

Descriptive statistics in Stata - Word frequencies

statistics

frequency-analysis

stata