查找匹配对及其 ID 以匹配记录

Question

我有一个巨大的数据集，我需要根据某些标准从中匹配样本。例如，对于某个位置和行政区的每个电影明星，我都会找到两个不是电影明星的人（随机）。电影明星为 1，非电影明星为 0。

location<- c('manhattan', 'manhattan' ,'manhattan', 'manhattan', 'manhattan', 'manhattan')
moviestar<- c(0,1,0,0,0,1)
id<- c(1,2,3,4,5,6)
 borough <- c('williamsburg', 'williamsburg', 'williamsburg', 'williamsburg', 'williamsburg','williamsburg')

 df<- data.frame(location,moviestar, borough, id)

我想创建一个子集，其中匹配了成对的电影明星和居住在同一地点和行政区的另外两位非电影明星（随机挑选）。有什么建议吗？基本上有 6 个人住在曼哈顿，有两颗星星住在曼哈顿，我想匹配每颗星星，在这种情况下，2 和 6 是星星，那么我想在最终数据中配对如下（一些随机对）：

我期待的输出是这样的，

    matcheddata
    location moviestar borough       id matchpairid
    manhattan    1    williamsburg   2  match1
    manhattan    0    williamsburg   1  match1
    manhttan     0    williamsburg   5  match1
    manhattan    1    williamsburg   6  match2
    manhattan    0    williamsburg   3  match2
    manhttan     0    williamsburg   5  match2

Answer 1

应该这样做：

library(data.table)
setDT(df)[, .(moviestar.id = id[moviestar == 1],
              match.id = sample(id[moviestar == 0], 2*sum(moviestar == 1)))
          , by = .(location, borough)]
#    location      borough moviestar.id match.id
#1: manhattan williamsburg            2        3
#2: manhattan williamsburg            6        5
#3: manhattan williamsburg            2        1
#4: manhattan williamsburg            6        4

之后你可以按摩成任何你喜欢的形状。

Answer 2

这是另一种直接产生预期结果的方法，其中电影明星的每一行后面跟着两行随机挑选的非电影明星：

library(data.table)
setDT(df)[, {
  n_stars <- .SD[moviestar == 1, .N]
  rbind(.SD[moviestar == 1], .SD[moviestar == 0][sample.int(.N, 2L * n_stars)])[
    , pairid := rep(1:n_stars, 3L)][order(pairid)]
}, by = .(location, borough)]

    location      borough moviestar id pairid
1: manhattan williamsburg         1  2      1
2: manhattan williamsburg         0  3      1
3: manhattan williamsburg         0  1      1
4: manhattan williamsburg         1  6      2
5: manhattan williamsburg         0  4      2
6: manhattan williamsburg         0  5      2

查找匹配对及其 ID 以匹配记录

Find matched pairs and their ids for matching records

r

dplyr

data.table

tidyr