在 R 中解释 Shapiro Wilk 测试
Interpreting Shapiro Wilk Test in R
您好统计学家和数据爱好者!!
我正在处理数据集以对其应用线性判别分析。而且我很难找到具有足够好的正态分布分数 shapiro.test 的列,因为所有 p 值都达到 0.05 的标记。
下面是我的数据shapiro.test结果
statistic p.value
Id 0.9548438 7.972013e-21
MSSubClass 0.8045693 9.108194e-39
LotFrontage 0.8804029 2.001693e-29
LotArea 0.3510589 7.933654e-58
OverallQual 0.9480078 2.686457e-22
OverallCond 0.8289229 6.774229e-37
YearBuilt 0.9255974 2.77022e-26
YearRemodAdd 0.8628004 6.72028e-34
MasVnrArea 0.639286 6.556645e-48
BsmtFinSF1 0.8479603 2.813854e-35
BsmtFinSF2 0.3272826 1.850254e-58
BsmtUnfSF 0.9304219 1.639911e-25
TotalBsmtSF 0.917352 1.611332e-27
X1stFlrSF 0.9269462 4.513223e-26
X2ndFlrSF 0.7668042 2.514882e-41
LowQualFinSF 0.09799004 9.589248e-64
GrLivArea 0.9279825 6.597611e-26
BsmtFullBath 0.6582952 3.760666e-47
BsmtHalfBath 0.2429119 1.466616e-60
FullBath 0.7193559 4.231488e-44
HalfBath 0.6380019 4.581582e-48
BedroomAbvGr 0.849803 4.115551e-35
KitchenAbvGr 0.2197959 4.221203e-61
TotRmsAbvGrd 0.9422768 2.004964e-23
Fireplaces 0.7552301 4.83098e-42
GarageYrBlt 0.9209432 2.816783e-26
GarageCars 0.8353703 2.301685e-36
GarageArea 0.9753273 4.016963e-15
WoodDeckSF 0.7685159 3.227985e-41
OpenPorchSF 0.7271672 1.135905e-43
EnclosedPorch 0.4144382 4.849485e-56
X3SsnPorch 0.09493385 8.307268e-64
ScreenPorch 0.2982077 3.305688e-59
PoolArea 0.04120243 7.111538e-65
MiscVal 0.05823268 1.529907e-64
MoSold 0.968784 3.178973e-17
YrSold 0.8970975 3.420194e-30
SalePrice 0.8696715 3.206142e-33
所有所需列的直方图
但我在解释这些结果时遇到了麻烦,因为我是统计数据和 R 语言的新手。
请指导准确解释,以便找到正态分布的列。
为了理解 p 值,您必须了解相应的统计检验实际上在检验什么。
在 Shapiro-Wilk 正态性检验的情况下,零假设是基础数据具有正态分布。然后 p 值(或多或少)衡量这种可能性有多大。
如果 p 值大于或等于 0.05,我们通常会接受原假设。这意味着在只有 5% 的情况下我们拒绝原假设,尽管它是正确的(I 类错误)。
在您的情况下,none 的 p 值几乎可以接受。简单看一下直方图就会发现 none 的变量确实呈正态分布。正态分布看起来像这样:
直方图应该是对称的钟形的。希望这有帮助。
您好统计学家和数据爱好者!!
我正在处理数据集以对其应用线性判别分析。而且我很难找到具有足够好的正态分布分数 shapiro.test 的列,因为所有 p 值都达到 0.05 的标记。
下面是我的数据shapiro.test结果
statistic p.value
Id 0.9548438 7.972013e-21
MSSubClass 0.8045693 9.108194e-39
LotFrontage 0.8804029 2.001693e-29
LotArea 0.3510589 7.933654e-58
OverallQual 0.9480078 2.686457e-22
OverallCond 0.8289229 6.774229e-37
YearBuilt 0.9255974 2.77022e-26
YearRemodAdd 0.8628004 6.72028e-34
MasVnrArea 0.639286 6.556645e-48
BsmtFinSF1 0.8479603 2.813854e-35
BsmtFinSF2 0.3272826 1.850254e-58
BsmtUnfSF 0.9304219 1.639911e-25
TotalBsmtSF 0.917352 1.611332e-27
X1stFlrSF 0.9269462 4.513223e-26
X2ndFlrSF 0.7668042 2.514882e-41
LowQualFinSF 0.09799004 9.589248e-64
GrLivArea 0.9279825 6.597611e-26
BsmtFullBath 0.6582952 3.760666e-47
BsmtHalfBath 0.2429119 1.466616e-60
FullBath 0.7193559 4.231488e-44
HalfBath 0.6380019 4.581582e-48
BedroomAbvGr 0.849803 4.115551e-35
KitchenAbvGr 0.2197959 4.221203e-61
TotRmsAbvGrd 0.9422768 2.004964e-23
Fireplaces 0.7552301 4.83098e-42
GarageYrBlt 0.9209432 2.816783e-26
GarageCars 0.8353703 2.301685e-36
GarageArea 0.9753273 4.016963e-15
WoodDeckSF 0.7685159 3.227985e-41
OpenPorchSF 0.7271672 1.135905e-43
EnclosedPorch 0.4144382 4.849485e-56
X3SsnPorch 0.09493385 8.307268e-64
ScreenPorch 0.2982077 3.305688e-59
PoolArea 0.04120243 7.111538e-65
MiscVal 0.05823268 1.529907e-64
MoSold 0.968784 3.178973e-17
YrSold 0.8970975 3.420194e-30
SalePrice 0.8696715 3.206142e-33
所有所需列的直方图
但我在解释这些结果时遇到了麻烦,因为我是统计数据和 R 语言的新手。
请指导准确解释,以便找到正态分布的列。
为了理解 p 值,您必须了解相应的统计检验实际上在检验什么。
在 Shapiro-Wilk 正态性检验的情况下,零假设是基础数据具有正态分布。然后 p 值(或多或少)衡量这种可能性有多大。 如果 p 值大于或等于 0.05,我们通常会接受原假设。这意味着在只有 5% 的情况下我们拒绝原假设,尽管它是正确的(I 类错误)。
在您的情况下,none 的 p 值几乎可以接受。简单看一下直方图就会发现 none 的变量确实呈正态分布。正态分布看起来像这样:
直方图应该是对称的钟形的。希望这有帮助。