R：元素向量中所有长度的所有组合，每个元素具有 2 个条件

Question

跟进，我想为每个长度的组合扩展相同的案例。

所以我有一个形式的向量：

markers <- LETTERS[1:5]

最初我只是想要所有可能的条件组合 + 和 - 用于所有标记；即 5.

组合的“最低层级”

所以应用上述问题的答案，我得到了以下信息：

 [1] "A+/B+/C+/D+/E+" "A-/B+/C+/D+/E+" "A+/B-/C+/D+/E+" "A-/B-/C+/D+/E+" "A+/B+/C-/D+/E+" "A-/B+/C-/D+/E+" "A+/B-/C-/D+/E+"
 [8] "A-/B-/C-/D+/E+" "A+/B+/C+/D-/E+" "A-/B+/C+/D-/E+" "A+/B-/C+/D-/E+" "A-/B-/C+/D-/E+" "A+/B+/C-/D-/E+" "A-/B+/C-/D-/E+"
[15] "A+/B-/C-/D-/E+" "A-/B-/C-/D-/E+" "A+/B+/C+/D+/E-" "A-/B+/C+/D+/E-" "A+/B-/C+/D+/E-" "A-/B-/C+/D+/E-" "A+/B+/C-/D+/E-"
[22] "A-/B+/C-/D+/E-" "A+/B-/C-/D+/E-" "A-/B-/C-/D+/E-" "A+/B+/C+/D-/E-" "A-/B+/C+/D-/E-" "A+/B-/C+/D-/E-" "A-/B-/C+/D-/E-"
[29] "A+/B+/C-/D-/E-" "A-/B+/C-/D-/E-" "A+/B-/C-/D-/E-" "A-/B-/C-/D-/E-"

现在我想将其扩展到 1、2、3 和 4 标记组合的“上层”级别。所以我会得到类似的东西：

"A+"
"A-"
"B+"
"B-"
"C+"
"C-"
...
"A+/B+"
"A-/B+"
"A+/B-"
"A-/B-"
"B+/C+"
"B+/C-"
"B-/C+"
"B-/C-"
...
"A+/B+/C+"
"A-/B+/C+"
...
"A+/B+/C+/D+/E+"
"A-/B+/C+/D+/E+"
"A+/B-/C+/D+/E+"
"A-/B-/C+/D+/E+"
"A+/B+/C-/D+/E+"
...

在上一个问题的公认答案之上进行构建的最快最佳方法是什么？

不必一次性完成，从以前的 5 组结果中获取“内部节点”仍然可以（甚至更好）。也许正在研究 expand.grid中间结果。

有什么想法吗？谢谢！

编辑

实现我的意图的最佳方法是为更高层级组合中的所有标记实际保留一个占位符。

例如在这种情况下 A+/D- 将变为 A+/NA/NA/D-/NA

编辑 2

即使是从头开始创建所有可能的 n 大小组合（包括 NA）的第一个答案也非常好......在我的真实世界场景中，我有机会检索一个更小的过滤列表我最感兴趣的 5 个“标记”的“最低层级”组合。

在这种情况下，如果可以选择从中提取 1,2,3,4...n（具有 NA）组合的“上层节点”，那就太好了筛选列表（而不是从头开始生成所有可能的 n 大小组合）...

有什么想法吗？

Answer 1

如果您仍想保留 NA 值，那么只需将其视为具有与“+”或“-”不同的值，您也只有 NA 值。你可以做类似

的事情

markers <- LETTERS[1:5]

test <- expand.grid(lapply(seq(markers), function(x) c("+","-","NA")),stringsAsFactors=FALSE)

apply(test,1,function(x){paste0(ifelse(x=="NA", "NA", markers),ifelse(x=="NA","",x),collapse = "/")})

Answer 2

建立我的：

library(RcppAlgos)

plusMinusCombs <- function(n) {
    unlist(lapply(1:n, function(x) {
        comboGeneral(n, x, FUN = function(comb) {
            permuteGeneral(c("+", "-"), x, repetition = TRUE, FUN = function(y) {
                res <- rep(NA_character_, n)
                res[comb] <- paste0(LETTERS[comb], y)
                paste(res, collapse = "/")
            })
        })
    }))
}

注意，上面没有给出所有NAs的情况。比如用n <- 4，上面的代码不会给出"NA/NA/NA/NA"。如果您确实需要这种情况，您可以更改上面的代码，以便附加此结果。

也是高效（fun2是@MrFlick提供的功能）：

fun2 <- function(n) {
    markers <- LETTERS[1:n]
    test <- expand.grid(lapply(seq(markers), function(x) c("+","-","NA")),stringsAsFactors=FALSE)        
    apply(test,1,function(x){paste0(ifelse(x=="NA", "NA", markers),ifelse(x=="NA","",x),collapse = "/")}) 
}

library(microbenchmark)
microbenchmark(plusMinusCombs(6), fun2(6))
Unit: milliseconds
             expr       min        lq      mean    median        uq      max neval
plusMinusCombs(6)  6.094728  6.601576  8.513207  6.808835  7.146834 34.95683   100
          fun2(6) 12.909009 13.890408 18.250859 14.233292 18.461800 64.42103   100

我在上面用斜体表示“高效”是为了指出，如前所述，使用字符进行此类工作（尤其是通过 paste 进行的字符串操作），无论您选择哪种方法，都会在以下情况下执行得非常糟糕与一些等效的数值映射相比。

例如，仅删除上面的字符串特征可以使效率提高约 4 倍。下面创建一个对象，该对象具有 one-to-one 映射到实际所需的结果，因此后缀 isomorphic:

isomorphicInteger <- function(n) {
    lapply(1:n, function(x) {
        comboGeneral(n, x, FUN = function(comb) {
            permuteGeneral(c(1L, -1L), x, repetition = TRUE, FUN = function(y) {
                res <- integer(n)
                res[comb] <- comb * y
                res
            })
        })
    })
}

microbenchmark(plusMinusCombs(6), fun2(6), isomorphicInteger(6))
Unit: milliseconds
                expr       min        lq      mean    median        uq       max neval
   plusMinusCombs(6)  6.348778  6.716615  9.433772  6.864476  7.194432 44.743407   100
             fun2(6) 13.927647 14.439699 17.775887 14.679669 18.480845 78.450272   100
isomorphicInteger(6)  1.662479  1.753788  2.290239  1.797843  1.897838  8.679857   100

还有很大的改进空间。这只是为了证明如果您真的关心性能，您可能需要重新考虑您的方法。很多时候在优化问题中，找到这些类型的映射是至关重要的。

免责声明：我是 RcppAlgos

的作者

R：元素向量中所有长度的所有组合，每个元素具有 2 个条件

R: all combinations of all lengths from a vector of elements each with 2 conditions

combinations

r

levels