考虑偏度和峰态的标准归一化

Standard Normalization considering Skewness and Kurtosis

我有一个相当基础的统计问题。我知道 stack-overflow 可能不是完美的地方，但我是一名软件开发人员，我不知道有什么好的统计论坛，而 stack-overflow 在过去为我提供了很好的服务。

我的问题如下。我需要标准化一些数据。我有两个不同的集合，在我标准化之后它们应该共享大致相同的分布。直到现在我都使用标准归一化（标准分数：（x - mu）/ sigma）。在像这样 t运行sform 我的两个分布的所有值之后，我希望所有 t运行sform 值的结果分布几乎相同。

到目前为止效果很好，但现在我运行遇到了我的两个分布之一偏斜的问题。标准归一化没有考虑到这一点，所以在归一化之后，均值和标准差可能相同，但一个是偏斜的，而另一个分布是对称的。

我现在的问题是：是否有一种已知的方法可以进行标准归一化，同时考虑 t运行变形的偏斜和峰度？值得一提的是，我的价值观也可以是负数。

我知道这可能不是正确的论坛，所以如果有人能给我指一个可靠的统计论坛，我也很高兴。

奥利

如果您的目标是查看两个数据集是否共享相同的分布，则无需进行归一化。您应该考虑使用 Q-Q plot。如果数据共享一个共同的分布，即使使用不同的参数化，结果也会非常接近于一条直线。

当两组数据量相同时，生成 Q-Q 图很容易。对两组进行排序，然后将它们配对并绘制它们。如果集合的大小不同，则您必须为较小的集合插入分位数，这更具挑战性。

但在您当前的情况下，如果其中一组偏斜（基于不止一个或两个离群值）而另一个是对称的，则它们可能来自不同的分布。

如果您的数据呈正态分布，那么 "standardizing" 在将真实方差用于转换时生成标准正态分布，在使用样本方差时生成 t 分布。然而，由于标准化是一种线性变换，因此它是保形的。如果您的数据不正常，标准变换不会神奇地使它们呈钟形和对称。

据我所知，唯一能可靠地产生相同参考分布的转换是转换为分位数。 well-known result 如果随机变量 X 具有可逆的 CDF F_X，则 F_X(X) ~ U(0,1 )，即通过它们自己的 CDF 映射 X 会产生归一化到范围 (0,1) 的分位数。要将此作为转换应用，您必须知道正确的 CDF。这就是 Q-Q 图非常聪明的地方——如果两个数据集具有相同的基础分布，无论您是否知道实际分布，它们的分位数都会彼此对齐。

底线：如果您想知道您的两个数据集是否具有相同的分布，请使用 Q-Q 绘图。如果您想要一个将为任何（连续）输入分布产生已知参考分布的转换，您需要知道涉及的实际 CDF。

我不确定这种转换是否以通用且独立于分发的方式存在（有人可以称之为 "Standard"）。对于标准归一化，您所做的是线性变换 ((x - mu)/ sigma)，因此您的分布现在类似于 N(0,1) - 均值为 0 且 sigma 为 1 的高斯分布。

但偏斜计算为偏斜 = 3 *（均值 - 中值）/ 标准差。所以 0 均值和 1 的 stddev，剩下的是 -3*Median。因此，如果您现在有非零偏斜，则意味着您想要将其设为 0 的非零中位数。

为此，剩下的唯一选择是非线性变换，我认为这将取决于分布。基本上，pjs 做出了类似的声明 - 通过分位数转换假设使用 CDF 和逆 CDF，这远远超出了线性变换，并且如果不处理分布属性就无法标准化。

也许使用简单的偏态分布模型 - Skewed Normal - 可能会为这种转换产生一些简单的模型

考虑偏度和峰态的标准归一化

Standard Normalization considering Skewness and Kurtosis

statistics

distribution

normalization