在部分排名数据中估算缺失值?

Impute missing values in partial rank data?

我有一些缺少值的排名数据。排名最高的项目被赋予值“1”。 'NA' 值在项目未排名时出现。

# sample data
df <- data.frame(Item1 = c(1,2, NA, 2, 3), Item2 = c(3,1,NA, NA, 1), Item3 = c(2,NA, 1, 1, 2))

> df
  Item1 Item2 Item3
1     1     3     2
2     2     1    NA
3    NA    NA     1
4     2    NA     1
5     3     1     2

我想用适当的未排序值随机估算每一行中的 'NA' 值。满足我的目标的一种解决方案是:

> solution1
  Item1 Item2 Item3
1     1     3     2
2     2     1     3
3     3     2     1
4     2     3     1
5     3     1     2

此代码列出了每行的可能替换值。

# set max possible rank in data
max_val <- 3 

# calculate row max
df$row_max <- apply(df, 1, max, na.rm= T) 

# calculate number of missing values in each row
df$num_na <- max_val - df$row_max 

# set a sample vector
samp_vec <- 1:max_val # set a sample vector

# set an empty list
replacements <- vector(mode = "list", length = nrow(df))
 
# generate a list of replacements for each row
for(i in 1:nrow(df)){
  
  if(df$num_na[i] > 0){
    replacements[[i]] <- sample(samp_vec[samp_vec > df$row_max[i] ], df$num_na[i])
  } else {
    replacements[[i]] <- NULL
  }
  
}

现在对如何将列表中的值分配给 data.frame 的每一行中的缺失值感到困惑。 (我的实际数据有 1000 行。)

有没有一种干净的方法来做到这一点?

使用 apply -

的基础 R 选项
set.seed(123)

df[] <- t(apply(df, 1, function(x) {
  #Get values which are not present in the row
  val <- setdiff(seq_along(x), x)
  #If only 1 missing value replace with the one which is not missing
  if(length(val) == 1) x[is.na(x)] <- val
  #If more than 1 missing replace randomly
  else if(length(val) > 1) x[is.na(x)] <- sample(val)
  #If no missing replace the row as it is
  x
}))
df

#  Item1 Item2 Item3
#1     1     3     2
#2     2     1     3
#3     2     3     1
#4     2     3     1
#5     3     1     2