考虑偏度和峰态的标准归一化
Standard Normalization considering Skewness and Kurtosis
我有一个相当基础的统计问题。我知道 stack-overflow 可能不是完美的地方,但我是一名软件开发人员,我不知道有什么好的统计论坛,而 stack-overflow 在过去为我提供了很好的服务。
我的问题如下。我需要标准化一些数据。我有两个不同的集合,在我标准化之后它们应该共享大致相同的分布。直到现在我都使用标准归一化(标准分数:(x - mu)/ sigma)。在像这样 t运行sform 我的两个分布的所有值之后,我希望所有 t运行sform 值的结果分布几乎相同。
到目前为止效果很好,但现在我 运行 遇到了我的两个分布之一偏斜的问题。标准归一化没有考虑到这一点,所以在归一化之后,均值和标准差可能相同,但一个是偏斜的,而另一个分布是对称的。
我现在的问题是:是否有一种已知的方法可以进行标准归一化,同时考虑 t运行 变形的偏斜和峰度?
值得一提的是,我的价值观也可以是负数。
我知道这可能不是正确的论坛,所以如果有人能给我指一个可靠的统计论坛,我也很高兴。
奥利
如果您的目标是查看两个数据集是否共享相同的分布,则无需进行归一化。您应该考虑使用 Q-Q plot。如果数据共享一个共同的分布,即使使用不同的参数化,结果也会非常接近于一条直线。
当两组数据量相同时,生成 Q-Q 图很容易。对两组进行排序,然后将它们配对并绘制它们。如果集合的大小不同,则您必须为较小的集合插入分位数,这更具挑战性。
但在您当前的情况下,如果其中一组偏斜(基于不止一个或两个离群值)而另一个是对称的,则它们可能来自不同的分布。
如果您的数据呈正态分布,那么 "standardizing" 在将真实方差用于转换时生成标准正态分布,在使用样本方差时生成 t 分布。然而,由于标准化是一种线性变换,因此它是保形的。如果您的数据不正常,标准变换不会神奇地使它们呈钟形和对称。
据我所知,唯一能可靠地产生相同参考分布的转换是转换为分位数。 well-known result 如果随机变量 X 具有可逆的 CDF FX,则 FX(X) ~ U(0,1 ),即通过它们自己的 CDF 映射 X 会产生归一化到范围 (0,1) 的分位数。要将此作为转换应用,您必须知道正确的 CDF。这就是 Q-Q 图非常聪明的地方——如果两个数据集具有相同的基础分布,无论您是否知道实际分布,它们的分位数都会彼此对齐。
底线:如果您想知道您的两个数据集是否具有相同的分布,请使用 Q-Q 绘图。如果您想要一个将为任何(连续)输入分布产生已知参考分布的转换,您需要知道涉及的实际 CDF。
我不确定这种转换是否以通用且独立于分发的方式存在(有人可以称之为 "Standard")。对于标准归一化,您所做的是线性变换 ((x - mu)/ sigma),因此您的分布现在类似于 N(0,1) - 均值为 0 且 sigma 为 1 的高斯分布。
但偏斜计算为偏斜 = 3 *(均值 - 中值)/ 标准差。所以 0 均值和 1 的 stddev,剩下的是 -3*Median
。因此,如果您现在有非零偏斜,则意味着您想要将其设为 0 的非零中位数。
为此,剩下的唯一选择是非线性变换,我认为这将取决于分布。基本上,pjs 做出了类似的声明 - 通过分位数转换假设使用 CDF 和逆 CDF,这远远超出了线性变换,并且如果不处理分布属性就无法标准化。
也许使用简单的偏态分布模型 - Skewed Normal - 可能会为这种转换产生一些简单的模型
我有一个相当基础的统计问题。我知道 stack-overflow 可能不是完美的地方,但我是一名软件开发人员,我不知道有什么好的统计论坛,而 stack-overflow 在过去为我提供了很好的服务。
我的问题如下。我需要标准化一些数据。我有两个不同的集合,在我标准化之后它们应该共享大致相同的分布。直到现在我都使用标准归一化(标准分数:(x - mu)/ sigma)。在像这样 t运行sform 我的两个分布的所有值之后,我希望所有 t运行sform 值的结果分布几乎相同。
到目前为止效果很好,但现在我 运行 遇到了我的两个分布之一偏斜的问题。标准归一化没有考虑到这一点,所以在归一化之后,均值和标准差可能相同,但一个是偏斜的,而另一个分布是对称的。
我现在的问题是:是否有一种已知的方法可以进行标准归一化,同时考虑 t运行 变形的偏斜和峰度? 值得一提的是,我的价值观也可以是负数。
我知道这可能不是正确的论坛,所以如果有人能给我指一个可靠的统计论坛,我也很高兴。
奥利
如果您的目标是查看两个数据集是否共享相同的分布,则无需进行归一化。您应该考虑使用 Q-Q plot。如果数据共享一个共同的分布,即使使用不同的参数化,结果也会非常接近于一条直线。
当两组数据量相同时,生成 Q-Q 图很容易。对两组进行排序,然后将它们配对并绘制它们。如果集合的大小不同,则您必须为较小的集合插入分位数,这更具挑战性。
但在您当前的情况下,如果其中一组偏斜(基于不止一个或两个离群值)而另一个是对称的,则它们可能来自不同的分布。
如果您的数据呈正态分布,那么 "standardizing" 在将真实方差用于转换时生成标准正态分布,在使用样本方差时生成 t 分布。然而,由于标准化是一种线性变换,因此它是保形的。如果您的数据不正常,标准变换不会神奇地使它们呈钟形和对称。
据我所知,唯一能可靠地产生相同参考分布的转换是转换为分位数。 well-known result 如果随机变量 X 具有可逆的 CDF FX,则 FX(X) ~ U(0,1 ),即通过它们自己的 CDF 映射 X 会产生归一化到范围 (0,1) 的分位数。要将此作为转换应用,您必须知道正确的 CDF。这就是 Q-Q 图非常聪明的地方——如果两个数据集具有相同的基础分布,无论您是否知道实际分布,它们的分位数都会彼此对齐。
底线:如果您想知道您的两个数据集是否具有相同的分布,请使用 Q-Q 绘图。如果您想要一个将为任何(连续)输入分布产生已知参考分布的转换,您需要知道涉及的实际 CDF。
我不确定这种转换是否以通用且独立于分发的方式存在(有人可以称之为 "Standard")。对于标准归一化,您所做的是线性变换 ((x - mu)/ sigma),因此您的分布现在类似于 N(0,1) - 均值为 0 且 sigma 为 1 的高斯分布。
但偏斜计算为偏斜 = 3 *(均值 - 中值)/ 标准差。所以 0 均值和 1 的 stddev,剩下的是 -3*Median
。因此,如果您现在有非零偏斜,则意味着您想要将其设为 0 的非零中位数。
为此,剩下的唯一选择是非线性变换,我认为这将取决于分布。基本上,pjs 做出了类似的声明 - 通过分位数转换假设使用 CDF 和逆 CDF,这远远超出了线性变换,并且如果不处理分布属性就无法标准化。
也许使用简单的偏态分布模型 - Skewed Normal - 可能会为这种转换产生一些简单的模型