如何找出分位数回归中不同分位数的系数是否显着不同? (SPSS 或 Python)
How to find out whether coefficients of different quantiles are significantly different in a quantile regression? (SPSS or Python)
我正在研究某个职业的收入增长率在收入分配的不同部分是否存在显着差异,以查看收入差距是否正在显着扩大或缩小。
QUANTREG 模型
我在 SPSS 中执行了分位数回归(我是编码新手,只有非常基础的 Python 知识,所以我需要你的帮助)。因变量是索引收入,自变量是时间(此数据集中的季度)、人口群体、职业细分。我还添加了每个虚拟人与时间变量的交互项。
所以(至少我是这样看的),这个模型允许比较三个层次的收入变化:
- 属于某个人口群体或细分群体如何影响收入(例如,与数据输入工作相比:数据分析增加 100 欧元,数据科学增加 200 欧元)
- 每个不同 category/dummy 的影响如何随时间变化(例如,与数据输入工作相比,成为数据科学家的积极影响增加了 10%,现在增加了 220 欧元)
- 这些变化的影响在收入分配的不同部分之间有何不同(例如,时间系数*data_scientist 在 90%Q 中比在 10%Q 中大得多,表明更高-收入数据科学家的收入随着时间的推移比收入较低的数据科学家有更大的增长)
问题
所以我在 SPSS 上得到了这个分位数回归的输出,一个巨大的 table,包含所有系数及其显着性和置信区间。
现在我想看看90%Q和10%Q之间的差异是否具有统计显着性,以便对这个行业的收入差距是否显着增加或减少做出陈述。我想在 Python 而不是 SPSS 上执行此操作,我搜索了如何将数据切割成分位数,以及如何执行分位数回归。但是应该如何着手检验 90%Q 和 10%Q 之间差异的显着性呢?
我找到了一种方法来检验回归系数是否显着不同,50% 规则 使用标准化的 beta 权重及其 95% 置信区间(可以估计通过偏差校正 bootstrap;对于分位数回归,它们通常已经在输出中提供)。该规则基本上表明,如果两个样本均值的 95% 置信区间重叠小于 50%,则存在显着差异 (p=0.05)。如果重叠小于 14%,则显着性水平为 p=0.01。
这是我在其中找到此方法的 Youtube 视频:
https://www.youtube.com/watch?v=qKnpiGwNDMk
Youtube 视频提到的论文:
G. 卡明 (2009)。肉眼推断:读取置信区间的重叠。 医学统计,28(2),205-220。
我正在研究某个职业的收入增长率在收入分配的不同部分是否存在显着差异,以查看收入差距是否正在显着扩大或缩小。
QUANTREG 模型
我在 SPSS 中执行了分位数回归(我是编码新手,只有非常基础的 Python 知识,所以我需要你的帮助)。因变量是索引收入,自变量是时间(此数据集中的季度)、人口群体、职业细分。我还添加了每个虚拟人与时间变量的交互项。
所以(至少我是这样看的),这个模型允许比较三个层次的收入变化:
- 属于某个人口群体或细分群体如何影响收入(例如,与数据输入工作相比:数据分析增加 100 欧元,数据科学增加 200 欧元)
- 每个不同 category/dummy 的影响如何随时间变化(例如,与数据输入工作相比,成为数据科学家的积极影响增加了 10%,现在增加了 220 欧元)
- 这些变化的影响在收入分配的不同部分之间有何不同(例如,时间系数*data_scientist 在 90%Q 中比在 10%Q 中大得多,表明更高-收入数据科学家的收入随着时间的推移比收入较低的数据科学家有更大的增长)
问题
所以我在 SPSS 上得到了这个分位数回归的输出,一个巨大的 table,包含所有系数及其显着性和置信区间。
现在我想看看90%Q和10%Q之间的差异是否具有统计显着性,以便对这个行业的收入差距是否显着增加或减少做出陈述。我想在 Python 而不是 SPSS 上执行此操作,我搜索了如何将数据切割成分位数,以及如何执行分位数回归。但是应该如何着手检验 90%Q 和 10%Q 之间差异的显着性呢?
我找到了一种方法来检验回归系数是否显着不同,50% 规则 使用标准化的 beta 权重及其 95% 置信区间(可以估计通过偏差校正 bootstrap;对于分位数回归,它们通常已经在输出中提供)。该规则基本上表明,如果两个样本均值的 95% 置信区间重叠小于 50%,则存在显着差异 (p=0.05)。如果重叠小于 14%,则显着性水平为 p=0.01。
这是我在其中找到此方法的 Youtube 视频:
https://www.youtube.com/watch?v=qKnpiGwNDMk
Youtube 视频提到的论文:
G. 卡明 (2009)。肉眼推断:读取置信区间的重叠。 医学统计,28(2),205-220。