PPI（蛋白质蛋白质相互作用）网络的聚类

Question

我想将蛋白质相互作用数据库聚类到子聚类中为此，我在 R 中使用了 Hierarchical Clustering。但是我收到了我无法理解的警告消息，并且不会创建集群。我的代码和数据库如下：

数据库：

         trpD             trpB
         serB             sdaA
         pabA             trpA
         pabB             trpA
         pabA             pabB
         serB             glyA
         serB             trpB
         trpC             trpA
         ilvA             trpA
         serB             ilvA
         trpB             trpA
         pabB             trpB
         trpE             trpC
         trpC             trpB
         trpE             trpB
         pabB             trpC
         sdaA             trpB
         pabA             trpD
         trpE             trpD
         pabA             trpC
         sdaA             trpA
         serB             trpA
         pabA             trpE
         ilvA             glyA
         pabB             trpD
         trpD             trpC
         ilvA             trpB
         glyA             trpA
         glyA             trpB
         pabA             trpB
         trpE             trpA
         glyA             sdaA
         trpD             trpA

此处 traA 与 trpB 交互，serB 与 sdaA 交互等等...现在我想聚类 them.My 代码是：

rm(list=ls())  
options(max.print = 10000000)

library(igraph) # load package igraph
library(combinat)
library(e1071)
library(maptree)

read_database <- read.table("C:/Users/Priyanka/Desktop/text_summary.txt",             header=TRUE, comment.char = "") 
read_database

data_frame <- data.frame (read_database$V1, read_database$V2)
data_frame

dim(data_frame)

d_euclidian <- dist(read_database, method = "euclidean")
d_euclidian

我收到警告：警告信息：在 dist(data_frame, method = "euclidean") 中：强制引入的 NAs

有人可以帮忙吗？还有谁能告诉我关于聚类 PPI 的其他技术。我可以在这里使用 K 均值聚类吗？如果是的话怎么办？？？请帮助..

谢谢...

Answer 1

下面是一个使用来自 igraph 的聚类算法的示例：

df <- read.table(sep = ";", text = "trpD;trpB
serB;sdaA
pabA;trpA
pabB;trpA
pabA;pabB
serB;glyA
serB;trpB
trpC;trpA
ilvA;trpA
serB;ilvA
trpB;trpA
pabB;trpB
trpE;trpC
trpC;trpB
trpE;trpB
pabB;trpC
sdaA;trpB
pabA;trpD
trpE;trpD
pabA;trpC
sdaA;trpA
serB;trpA
pabA;trpE
ilvA;glyA
pabB;trpD
trpD;trpC
ilvA;trpB
glyA;trpA
glyA;trpB
pabA;trpB
trpE;trpA
glyA;sdaA
trpD;trpA")
library(igraph)
set.seed(1)
g <- graph.data.frame(df, directed = F)
groups <- membership(cluster_louvain(g))
communities <- communities(cluster_louvain(g))
plot.igraph(g, mark.groups = communities)

PPI（蛋白质蛋白质相互作用）网络的聚类

Clustering For PPI (protein protein interaction) network

r

cluster-computing

hclust

igraph