为什么 Stata 根据变量的聚合计算不同的总和?
Why does Stata calculate different sums depending on aggregation of variables?
我注意到 Stata 根据被加数的聚合程度估计略有不同的总和。
举个例子,我有 4 个变量(Var1、Var2、Var3、Var4)。
Var1 Var2 Var3 Var4
420966 10804428 21982560 1055822272
207381 20133238 69127000 580531008
217297.6 7946694.5 23631250 554597952
327553.2 7505444 10898800 261170592
119776.4 715082.75 607820.3125 414926752
3758613 2533234.5 225734784 88380432
首先,我估计所有 4 个变量的总和:
gen sumVars1234 = Var1 + Var2 + Var3 + Var4
// this calculates the same sum as `egen rowtotal`
然后我分别估算 Vars 1 和 2 以及 Vars 3 和 4 的总和:
gen sumVars12 = Var1 + Var2
gen sumVars34 = Var3 + Var4
当我将 sumVars12
和 sumVars34
相加时,会生成 sumVars12_34
:
gen sumVars12_34 = sumVars12 + sumVars34
gen dif = sumVars12_34 - sumVars1234 // I calculate difference between both sums
但是,sumVars12_34
不等于 sumVars1234
,我不明白为什么。
sumVars12 sumVars34 sumVars12_34 sumVars1234 dif
11225394 1077804800 1089030144 1089030272 -128
20340618 649657984 669998592 669998656 -64
8163992 578229184 586393152 586393216 -64
7832997 272069376 279902368 279902400 -32
834859.125 415534560 416369408 416369440 -32
6291848 314115200 320407040 320407072 -32
我知道这些差异很小,而且我确信有一个简单的解释,但我不确定它是什么!任何见解将不胜感激。谢谢!
这很可能是由于“混合数学”(整数和实浮点型变量)。输入数据中的数字精度也包含整数,因此这可能是由于四舍五入所致。我会在 Excel 中复制计算,但前提是将 .0 添加到您的整个整数中。在Excel中,大家可能知道,可以select一个单元格范围内的所有数据,右击,然后select设置单元格格式-->数字,十进制指定1地方。然后做你的总结。
我注意到 Stata 根据被加数的聚合程度估计略有不同的总和。
举个例子,我有 4 个变量(Var1、Var2、Var3、Var4)。
Var1 Var2 Var3 Var4
420966 10804428 21982560 1055822272
207381 20133238 69127000 580531008
217297.6 7946694.5 23631250 554597952
327553.2 7505444 10898800 261170592
119776.4 715082.75 607820.3125 414926752
3758613 2533234.5 225734784 88380432
首先,我估计所有 4 个变量的总和:
gen sumVars1234 = Var1 + Var2 + Var3 + Var4
// this calculates the same sum as `egen rowtotal`
然后我分别估算 Vars 1 和 2 以及 Vars 3 和 4 的总和:
gen sumVars12 = Var1 + Var2
gen sumVars34 = Var3 + Var4
当我将 sumVars12
和 sumVars34
相加时,会生成 sumVars12_34
:
gen sumVars12_34 = sumVars12 + sumVars34
gen dif = sumVars12_34 - sumVars1234 // I calculate difference between both sums
但是,sumVars12_34
不等于 sumVars1234
,我不明白为什么。
sumVars12 sumVars34 sumVars12_34 sumVars1234 dif
11225394 1077804800 1089030144 1089030272 -128
20340618 649657984 669998592 669998656 -64
8163992 578229184 586393152 586393216 -64
7832997 272069376 279902368 279902400 -32
834859.125 415534560 416369408 416369440 -32
6291848 314115200 320407040 320407072 -32
我知道这些差异很小,而且我确信有一个简单的解释,但我不确定它是什么!任何见解将不胜感激。谢谢!
这很可能是由于“混合数学”(整数和实浮点型变量)。输入数据中的数字精度也包含整数,因此这可能是由于四舍五入所致。我会在 Excel 中复制计算,但前提是将 .0 添加到您的整个整数中。在Excel中,大家可能知道,可以select一个单元格范围内的所有数据,右击,然后select设置单元格格式-->数字,十进制指定1地方。然后做你的总结。