另一个变量的权重 ggridges

Weight ggridges by another variable

我正在尝试使用山脊图可视化一些数据,但我想知道是否有一种方法可以对山脊的密度进行加权。

基本上我有以下几点:

set.seed(1)
example <- data.frame(matrix(nrow=100,ncol=3))
colnames(example) <- c("year","position","weight")
example$year <- as.character(rep(c(1,2,3,4,5),each=20) )
example$position <- runif(100,1,10)
example$weight <- sample(1:3,100,replace = T)

5 个不同年份的职位样本。我想用岭图绘制分布随时间的变化,但在数据集中,还有一个 "weight," 的列,这意味着一些样本比其他样本计数更多。有没有办法将其合并到我的山脊分布图中?还有一种方法可以使具有更多样本*权重的行比具有更少样本的行更高?所以不把每年的身高都标准化为1?

ggplot(example,aes(x=position,y=year))+
  ggridges::geom_density_ridges()+
  theme_classic()

我在想我可以尝试通过管道将数据集传输到重复行以获得它们具有的权重值的数量,这样它们就会被计数超过 x 次(或者,"weight" 次) 并改变密度。虽然不太清楚该怎么做。另外,在我的数据集中,权重不是整数,所以我希望有更好的解决方案。

或者,是否还有另一个 package/technique 可以实现这一目标?

对于这个数据集,我们可以根据 weight 列重复行,然后绘制:

library(ggplot2)
library(ggridges)

example2 <- example[rep(seq_along(example$weight), example$weight), ]

ggplot(example2,aes(x=position,y=year))+
  ggridges::geom_density_ridges()+
  theme_classic()
#> Picking joint bandwidth of 1.02

但是,如果您的权重不是整数,这将不起作用。有 this open issue on github 你可能想试一试。

另一个想法是将原始数据集中的权重归一化为整数,方法是将它们四舍五入到特定数字并将它们乘以 10 的所需精度的幂。然后您可以将以前的解决方案用于您的实际数据集。