从数据框中获取一个子集,切断异常值

Obtaining a subset from the data frame cutting off the outliers

我正在使用关于 195 个国家/地区的 inflation 1980-2020 年期间利率的数据集 (csv file)。我想生成描述 1980-2020 期间 inflation 值分布的图表。与此同时,我制作了这张图表:

我对图表的问题是我想描述一个截断的数据集:inflation 值处于 99.5% 百分位,并且从数据集中消除了异常值。非常感谢任何见解。

您可以使用 quantile-函数:

library(dplyr)

data %>% 
  group_by(year) %>% 
  filter(value <= quantile(value, 0.995))

删除每年计算的每个 > 99.5% 百分位的值。如果您不想按年计算,请删除 group_by() 行。