stat_density2d - 这个传说是什么意思?

stat_density2d - What does the legend mean?

我用 stat_density2d 在 R 中完成了一张地图。这是代码:

ggplot(data, aes(x=Lon, y=Lat)) + 
  stat_density2d(aes(fill = ..level..), alpha=0.5, geom="polygon",show.legend=FALSE)+
  geom_path(data=map.df,aes(x=long, y=lat, group=group), colour="grey50")+
  xlim(-10,+2.5) +
  ylim(+47,+60) +
  coord_fixed(1.7) +




The coloured contours correspond to the smallest region which contains the respective probability mass: red = 25%, orange + red = 50%, yellow + orange + red = 75%

但是,使用 stat_density2d,我的地图中有 11 个等高线。有谁知道 stat_density2d 的工作原理以及图例的含义?理想情况下,我希望能够说明红色轮廓包含 25% 的图等。


让我们以 ggplot2 中的 faithful 为例:

ggplot(faithful, aes(x = eruptions, y = waiting)) +
  stat_density_2d(aes(fill = factor(stat(level))), geom = "polygon") +
  geom_point() +
  xlim(0.5, 6) +
  ylim(40, 110)


级别是 3D "mountains" 切片的高度。我不知道有什么方法(其他人可能会)将其转化为百分比,但我知道如何让你说出百分比。

如果我们查看该图表,级别 0.002 包含绝大多数点(除 2 点外)。 0.004 层实际上是 2 个多边形,它们包含除了 ~12 个点之外的所有点。如果我明白了你要问的要点,那就是你想知道的,除了不计算,而是给定级别的多边形所包含的点的百分比。使用涉及的各种 ggplot2 "stats" 的方法可以直接计算。

请注意,当我们导入 tidyversesp 包时,我们将使用其他一些完全限定的函数。现在,让我们稍微重塑 faithful 数据:


xdf <- select(faithful, x = eruptions, y = waiting)

(更容易输入 xy

现在,我们将按照 ggplot2 的方式计算二维核密度估计:

h <- c(MASS::bandwidth.nrd(xdf$x), MASS::bandwidth.nrd(xdf$y))

dens <- MASS::kde2d(
  xdf$x, xdf$y, h = h, n = 100,
  lims = c(0.5, 6, 40, 110)

breaks <- pretty(range(zdf$z), 10)

zdf <- data.frame(expand.grid(x = dens$x, y = dens$y), z = as.vector(dens$z))

z <- tapply(zdf$z, zdf[c("x", "y")], identity)

cl <- grDevices::contourLines(
  x = sort(unique(dens$x)), y = sort(unique(dens$y)), z = dens$z,
  levels = breaks

我不会用 str() 输出来混淆答案,但看看那里发生的事情有点有趣。


  lapply(1:length(cl), function(idx) {
      srl = list(Polygon(
        matrix(c(cl[[idx]]$x, cl[[idx]]$y), nrow=length(cl[[idx]]$x), byrow=FALSE)
      ID = idx
) -> cont

coordinates(xdf) <- ~x+y

  ct = sapply(over(cont, geometry(xdf), returnList = TRUE), length),
  id = 1:length(ct),
  lvl = sapply(cl, function(x) x$level)
) %>% 
  count(lvl, wt=ct) %>% 
    pct = n/length(xdf),
    pct_lab = sprintf("%s of the points fall within this level", scales::percent(pct))
## # A tibble: 12 x 4
##      lvl     n    pct pct_lab                              
##    <dbl> <int>  <dbl> <chr>                                
##  1 0.002   270 0.993  99.3% of the points fall within this level
##  2 0.004   259 0.952  95.2% of the points fall within this level
##  3 0.006   249 0.915  91.5% of the points fall within this level
##  4 0.008   232 0.853  85.3% of the points fall within this level
##  5 0.01    206 0.757  75.7% of the points fall within this level
##  6 0.012   175 0.643  64.3% of the points fall within this level
##  7 0.014   145 0.533  53.3% of the points fall within this level
##  8 0.016    94 0.346  34.6% of the points fall within this level
##  9 0.018    81 0.298  29.8% of the points fall within this level
## 10 0.02     60 0.221  22.1% of the points fall within this level
## 11 0.022    43 0.158  15.8% of the points fall within this level
## 12 0.024    13 0.0478  4.8% of the points fall within this level 

我把它拼出来只是为了避免废话,但百分比会根据你如何修改密度计算的各种参数而改变(我的 ggalt::geom_bkde2d() 使用不同的估算器也是如此)。

如果有一种方法可以在不重新执行计算的情况下梳理出百分比,那么最好的方法就是让其他 SO R 人员展示他们比写这个答案的人聪明多少(希望以比最近的模式更外交的方式)。