从数据框中获取一个子集，切断异常值

Question

我正在使用关于 195 个国家/地区的 inflation 1980-2020 年期间利率的数据集 (csv file)。我想生成描述 1980-2020 期间 inflation 值分布的图表。与此同时，我制作了这张图表：

我对图表的问题是我想描述一个截断的数据集：inflation 值处于 99.5% 百分位，并且从数据集中消除了异常值。非常感谢任何见解。

Answer 1

您可以使用 quantile-函数：

library(dplyr)

data %>% 
  group_by(year) %>% 
  filter(value <= quantile(value, 0.995))

删除每年计算的每个 > 99.5% 百分位的值。如果您不想按年计算，请删除 group_by() 行。

Obtaining a subset from the data frame cutting off the outliers