从数据框中获取一个子集,切断异常值
Obtaining a subset from the data frame cutting off the outliers
我正在使用关于 195 个国家/地区的 inflation 1980-2020 年期间利率的数据集 (csv file)。我想生成描述 1980-2020 期间 inflation 值分布的图表。与此同时,我制作了这张图表:
我对图表的问题是我想描述一个截断的数据集:inflation 值处于 99.5% 百分位,并且从数据集中消除了异常值。非常感谢任何见解。
您可以使用 quantile
-函数:
library(dplyr)
data %>%
group_by(year) %>%
filter(value <= quantile(value, 0.995))
删除每年计算的每个 > 99.5% 百分位的值。如果您不想按年计算,请删除 group_by()
行。
我正在使用关于 195 个国家/地区的 inflation 1980-2020 年期间利率的数据集 (csv file)。我想生成描述 1980-2020 期间 inflation 值分布的图表。与此同时,我制作了这张图表:
我对图表的问题是我想描述一个截断的数据集:inflation 值处于 99.5% 百分位,并且从数据集中消除了异常值。非常感谢任何见解。
您可以使用 quantile
-函数:
library(dplyr)
data %>%
group_by(year) %>%
filter(value <= quantile(value, 0.995))
删除每年计算的每个 > 99.5% 百分位的值。如果您不想按年计算,请删除 group_by()
行。