为什么 Stata 根据变量的聚合计算不同的总和?

Why does Stata calculate different sums depending on aggregation of variables?

我注意到 Stata 根据被加数的聚合程度估计略有不同的总和。

举个例子,我有 4 个变量(Var1、Var2、Var3、Var4)。

Var1        Var2        Var3        Var4
420966      10804428    21982560    1055822272
207381      20133238    69127000    580531008
217297.6    7946694.5   23631250    554597952
327553.2    7505444     10898800    261170592
119776.4    715082.75   607820.3125 414926752
3758613     2533234.5   225734784   88380432

首先,我估计所有 4 个变量的总和:

gen sumVars1234 = Var1 + Var2 + Var3 + Var4 
   // this calculates the same sum as `egen rowtotal`

然后我分别估算 Vars 1 和 2 以及 Vars 3 和 4 的总和:

gen sumVars12 = Var1 + Var2 
gen sumVars34 = Var3 + Var4 

当我将 sumVars12sumVars34 相加时,会生成 sumVars12_34:

gen sumVars12_34 = sumVars12 + sumVars34
gen dif = sumVars12_34 - sumVars1234    // I calculate difference between both sums

但是,sumVars12_34 不等于 sumVars1234,我不明白为什么。

sumVars12   sumVars34   sumVars12_34    sumVars1234     dif
11225394    1077804800  1089030144      1089030272      -128
20340618    649657984   669998592       669998656       -64
8163992     578229184   586393152       586393216       -64
7832997     272069376   279902368       279902400       -32
834859.125  415534560   416369408       416369440       -32
6291848     314115200   320407040       320407072       -32

我知道这些差异很小,而且我确信有一个简单的解释,但我不确定它是什么!任何见解将不胜感激。谢谢!

这很可能是由于“混合数学”(整数和实浮点型变量)。输入数据中的数字精度也包含整数,因此这可能是由于四舍五入所致。我会在 Excel 中复制计算,但前提是将 .0 添加到您的整个整数中。在Excel中,大家可能知道,可以select一个单元格范围内的所有数据,右击,然后select设置单元格格式-->数字,十进制指定1地方。然后做你的总结。