使用 R 中的 plyr 从我的数据摘要中遗漏 NA 的问题

Question

我正在尝试使用 plyr 总结我的数据，以便使用 ggplot2 将其呈现在图表中。我使用了我在 R cookbook 上找到的函数（在下面引用），它处理了一组没有缺失值的数据并且它工作得很好，但是自从我在一个有缺失值的数据集上尝试它之后，它就不起作用了，输出对于密度 returns NA 对于 "Density"（又名平均值）但不是 N、SD 或 SE）。我曾尝试将 na.rm= 子句更改为 TRUE，但这没有帮助。有人可以帮我理解我在这里做错了什么吗？

我还将包含我正在导入到 R 中的 excel 文件格式的图像。

非常感谢。

summarySE <- function(data=NULL, measurevar, groupvars=NULL, na.rm=FALSE,
                      conf.interval=.95, .drop=TRUE) {
  library(plyr)

  # New version of length which can handle NA's: if na.rm==T, don't count them
  length2 <- function (x, na.rm=FALSE) {
    if (na.rm) sum(!is.na(x))
    else       length(x)
  }

  # This does the summary. For each group's data frame, return a vector with
  # N, mean, and sd
  datac <- ddply(data, groupvars, .drop=.drop,
                 .fun = function(xx, col) {
                   c(N    = length2(xx[[col]], na.rm=na.rm),
                     mean = mean   (xx[[col]], na.rm=na.rm),
                     sd   = sd     (xx[[col]], na.rm=na.rm)
                   )
                 },
                 measurevar
  )

  # Rename the "mean" column    
  datac <- rename(datac, c("mean" = measurevar))

  datac$se <- datac$sd / sqrt(datac$N)  # Calculate standard error of the mean

  # Confidence interval multiplier for standard error
  # Calculate t-statistic for confidence interval: 
  # e.g., if conf.interval is .95, use .975 (above/below), and use df=N-1
  ciMult <- qt(conf.interval/2 + .5, datac$N-1)
  datac$ci <- datac$se * ciMult

  return(datac)
}
ggplotdata <- summarySE(data, measurevar="Density", groupvars=c("Genotype", "Region"))

Answer 1

我找到了解决我自己问题的方法！我意识到我必须 将单元格留空 而不是在 excel 中输入 NA（并更改 na.rm=T）。

使用 R 中的 plyr 从我的数据摘要中遗漏 NA 的问题

Problems with missing out NAs from my data summary using plyr in R

r

ggplot2

plyr