从顶部和底部分别修剪 2% 的分数是否会给我留下 .02 - .98 的分位数?
Does trimming 2% of scores from top and bottom each leave me with quantiles .02 - .98?
如果您有一个数据集,并且 trim 顶部和底部均为 2%,总计 4% trim,您剩下中间 96% 的分数。这是否意味着唯一剩余的分数将在原始数据集的 .02 分位数到 .98 分位数之间?
如果这是不正确的,我将如何trim 以便只有从 .02 分位数到 .98 分位数的数据?
我正在使用 R 并希望通过这种方式 trim 异常值。
实际上,0.02 概率分位数或第二个百分位数是低于该值的 2% 的数据。
要获取第2个和第98个百分位数之间的数据,可以使用quantile
函数:
# Random samples from a normal distribution
x <- rnorm(1000)
# Quantiles
q <- quantile(x, probs = c(2, 98)/100)
# Samples between quantiles
x2 <- x[x>q[1] & x<q[2]]
编辑:关于清理异常值,您可能需要查看 this answer 对类似问题的评论。要点是:简单地删除固定百分比的数据以消除异常值可能是错误的。
如果您有一个数据集,并且 trim 顶部和底部均为 2%,总计 4% trim,您剩下中间 96% 的分数。这是否意味着唯一剩余的分数将在原始数据集的 .02 分位数到 .98 分位数之间?
如果这是不正确的,我将如何trim 以便只有从 .02 分位数到 .98 分位数的数据?
我正在使用 R 并希望通过这种方式 trim 异常值。
实际上,0.02 概率分位数或第二个百分位数是低于该值的 2% 的数据。
要获取第2个和第98个百分位数之间的数据,可以使用quantile
函数:
# Random samples from a normal distribution
x <- rnorm(1000)
# Quantiles
q <- quantile(x, probs = c(2, 98)/100)
# Samples between quantiles
x2 <- x[x>q[1] & x<q[2]]
编辑:关于清理异常值,您可能需要查看 this answer 对类似问题的评论。要点是:简单地删除固定百分比的数据以消除异常值可能是错误的。