为每条边寻找间接节点（在 R 中）

Question

我有关于在指定医院一起工作的医生组的信息。一名医生可以同时在多家医院工作。我想编写一个代码，输出在给定医院工作的给定医生的所有间接同事的信息。例如，如果我在某家医院与另一位也在另一家医院工作的医生一起工作，我想知道与我的同事一起在另一家医院工作的医生是谁。

考虑三个医院（1、2、3）和五个医生（A、B、C、D、E）的简单示例。 A、B、C医师在医院合作1.A、B、D医师在医院合作2.B、E医师在医院合作3.

对于在给定医院工作的每位医生，我希望通过他们的每位直接同事了解他们的间接同事的信息。例如，医生 A 通过医院 1 的医生 B 有一个间接同事：这是医院 3 的医生 E。另一方面，医生 B 在医院 1 没有通过医生 A 的间接同事。医生 C 有两个间接同事通过医院1的医生B：他们是医院2的医生D和医院3的医生E。依此类推..

以下是描述各医院医师网络的对象：

edges <- tibble(hosp  = c("1", "1", "1", "1", "1", "1", "2", "2", "2", "2", "2", "2", "3", "3"), 
             from = c("A", "A", "B", "B", "C", "C", "A", "A", "B", "B", "D", "D", "B", "E"), 
             to   = c("C", "B", "C", "A", "B", "A", "D", "B", "A", "D", "A", "B", "E", "B")) %>% arrange(hosp, from, to)

我想要一个产生以下输出的代码：

output <- tibble(hosp     = c("1", "1", "1", "1", "1", "1", "1", "2", "2", "2", "2", "2", "2", "2", "3", "3", "3", "3", "3"), 
             from     = c("A", "A", "B", "B", "C", "C", "C", "A", "A", "B", "B", "D", "D", "D", "B", "E", "E", "E", "E"), 
             to       = c("C", "B", "C", "A", "B", "A", "B", "D", "B", "A", "D", "A", "B", "B", "E", "B", "B", "B", "B"),
             hosp_ind = c("" , "3", "" , "" , "2", "2", "3", "" , "3", "" , "" , "1", "1", "3", "" , "1", "1", "2", "2"),
             to_ind   = c("" , "E", "" , "" , "D", "D", "E", "" , "E", "" , "" , "C", "C", "E", "" , "A", "C", "A", "D")) %>% arrange(hosp, from, to)

Answer 1

这是一个使用 igraph + data.table

的选项

library(igraph)
library(data.table)

g <- simplify(graph_from_data_frame(edges, directed = FALSE))
res <- setDT(edges)[
  ,
  c(.SD, {
    to_ind <- setdiff(
      do.call(
        setdiff,
        Map(names, ego(g, 2, c(to, from), mindist = 2))
      ), from
    )
    if (!length(to_ind)) {
      hosp_ind <- to_ind <- NA_character_
    } else {
      hosp_ind <- lapply(to_ind, function(v) names(neighbors(g, v)))
    }
    data.table(
      hosp_ind = unlist(hosp_ind),
      to_ind = rep(to_ind, lengths(hosp_ind))
    )
  }),
  .(id = seq(nrow(edges)))
][, id := NULL][]

你将获得

> res
    hosp from to hosp_ind to_ind
 1:    1    A  B        3      E
 2:    1    A  C     <NA>   <NA>
 3:    1    B  A     <NA>   <NA>
 4:    1    B  C     <NA>   <NA>
 5:    1    C  A        2      D
 6:    1    C  B        2      D
 7:    1    C  B        3      E
 8:    2    A  B        3      E
 9:    2    A  D     <NA>   <NA>
10:    2    B  A     <NA>   <NA>
11:    2    B  D     <NA>   <NA>
12:    2    D  A        1      C
13:    2    D  B        1      C
14:    2    D  B        3      E
15:    3    B  E     <NA>   <NA>
16:    3    E  B        1      A
17:    3    E  B        2      A
18:    3    E  B        1      C
19:    3    E  B        2      D

此外，当您运行 plot(g) 时，您将看到如下图

为每条边寻找间接节点（在 R 中）

Finding indirect nodes for every edge (in R)

networking

r

edges

nodes