让 dendextend 为我为树叶预设颜色的分支分配颜色

Make dendextend assign colors to branches where I preset colors for leaves

我想设置树状图分支的颜色,给定手动分配的叶子组。所以我提前知道我想要着色,例如叶子 A-C 是红色的,所有只通向红色叶子的分支也应该是红色的。

我可以使用 "dendextend" 包为树状图的分​​支着色。 但是,我无法控制将哪种颜色分配给哪个集群 ID。 dendrextend 将第一种颜色分配给它找到的第一个簇 ID,而不管它是否为 ID 1。但是,我需要颜色为 1 的 ID 1,等等,因为我需要一个图例。

看这个例子。我想要一个树状图,它将标签和分支 A-C 染成红色,D-F 染成蓝色, G-I 染成红色绿色。

suppressPackageStartupMessages(library(dendextend))
library(dplyr)

set.seed(12346)
# Sample data: 
# ------------
# l = Leaf labels | g = assigned color of leaf | x = value for clustering
dat <- tibble(l = LETTERS[1:9],
              g = factor(rep(letters[1:3], each = 3)),
              x = round(runif(9,0,10)))

# color_branches() need integer cluster IDs
dat$gi <- dat$g %>% as.integer()

# Color IDs of each group
dat %>% distinct(g, gi)
## # A tibble: 3 x 2
##   g        gi
##   <fct> <int>
## 1 a         1
## 2 b         2
## 3 c         3
# ID 1 = red, ID 2 = blue, ID 3 = green
clucols <- c("red", "blue", "green")

# Clustering & Dendrogram
# -----------------------
dst <- dist(setNames(dat$x, dat$l))
den <- as.dendrogram(hclust(dst))
o <- order.dendrogram(den)

den <- den %>%
  color_branches(col = clucols, clusters = dat$gi[o]) 
# Transfer branch colors to labels
labels_colors(den) <- get_leaves_branches_col(den)

plot(den)

# Legend
dat %>% distinct(g, gi) %>%
{legend("topright", legend = .$g, col = clucols[.$gi], lty = 1)}

结果:

叶子没有按我想要的顺序着色,而是按图上从左到右的簇位置着色

如果将 set.seed(...) 行更改为 set.seed(12345),您会发现着色似乎是正确的。但这是因为如果从左到右看,这些簇偶然以正确的顺序出现:

如何让color_branches()按簇 ID 分配颜色,而不是按哪个簇先出现?

我试过的其他SO问题

解决方法是使用函数 branches_attr_by_labels 分别为每个组的分支分配颜色。

替换问题中的这段代码:

den <- den %>%
  color_branches(col = clucols, clusters = dat$gi[o]) 

使用下面的代码。

您需要获得一个列表,其中包含每个组的每个元素。每个元素依次包含要着色的标签和颜色本身。你得到它的例子是这样的:

library(purrr)
colmap <- dat %>% group_by(g) %>% summarise(l = list(l)) %>% transpose()
colmap

## [[1]]
## [[1]]$g
## [1] 1
## 
## [[1]]$l
## [1] "A" "B" "C"
## 
## 
## [[2]]
## [[2]]$g
## [1] 2
## 
## [[2]]$l
## [1] "D" "E" "F"
## 
## 
## [[3]]
## [[3]]$g
## [1] 3
## 
## [[3]]$l
## [1] "G" "H" "I"

然后,对每个元素应用 branches_attr_by_labels。因为它需要一个树状图和 一些变化的参数以及 returns 树状图,您可以使用 purrr::reducebase::Reduce:

den <- reduce(.x = colmap, .init = den, .f = function(d, m) 
  branches_attr_by_labels(d, m$l, clucols[m$g] ))

或者,稍微长一点:

for(e in colmap){
  den <- branches_attr_by_labels(den, e$l, clucols[e$g])
}

set.seed(123456) 的结果。对比上图: