R 中的基因列表(带有 ENTREZID)的基因 ontology (GO) 分析?

Gene ontology (GO) analysis for a list of Genes (with ENTREZID) in R?

我对 GO 分析很陌生,我对如何做我的基因列表有点困惑。

我有一个基因列表 (n=10):

gene_list

    SYMBOL ENTREZID                              GENENAME
1    AFAP1    60312   actin filament associated protein 1
2  ANAPC11    51529 anaphase promoting complex subunit 11
3   ANAPC5    51433  anaphase promoting complex subunit 5
4     ATL2    64225                     atlastin GTPase 2
5    AURKA     6790                       aurora kinase A
6    CCNB2     9133                             cyclin B2
7    CCND2      894                             cyclin D2
8    CDCA2   157313      cell division cycle associated 2
9    CDCA7    83879      cell division cycle associated 7
10  CDCA7L    55536 cell division cycle associated 7-like

我只是想找到它们的功能,有人建议我使用 GO 分析工具。 我不确定这样做是否正确。 这是我的解决方案:

x <- org.Hs.egGO

# Get the entrez gene identifiers that are mapped to a GO ID

    xx<- as.list(x[gene_list$ENTREZID])

所以,我有一个 EntrezID 列表,每个基因都分配给了几个 GO 术语。 例如:

> xx$`60312`
$`GO:0009966`
$`GO:0009966`$GOID
[1] "GO:0009966"

$`GO:0009966`$Evidence
[1] "IEA"

$`GO:0009966`$Ontology
[1] "BP"


$`GO:0051493`
$`GO:0051493`$GOID
[1] "GO:0051493"

$`GO:0051493`$Evidence
[1] "IEA"

$`GO:0051493`$Ontology
[1] "BP"

我的问题是: 我怎样才能以更简单的方式找到这些基因中每一个的功能,我也想知道我是否做对了? 因为我想将该函数添加到 gene_list 作为 function/GO 列。

提前致谢,

编辑:有一个新的Bioinformatics SE(目前处于测试模式)。


希望我能达到您的目的。

顺便说一句,对于生物信息学相关主题,您还可以查看 biostar 与 SO 具有相同目的但用于生物信息学

如果您只想获得与基因相关的每个功能的列表,您可以查询数据库,例如 ENSEMBl through the biomaRt bioconductor 包,它是一个 API 用于查询 biomart 数据库。 您将需要互联网才能进行查询。

Bioconductor 提出了用于生物信息学研究的软件包,这些软件包通常伴随着良好的小插曲,可以帮助您完成分析的不同步骤(甚至强调您应该如何设计数据或哪些是陷阱) .

在您的情况下,直接来自 biomaRt vignette - 特别是任务 2:

注意:有比我在下面报告的方法稍微快一些的方法:

# load the library
library("biomaRt")

# I prefer ensembl so that the one I will query, but you can
# query other bases, try out: listMarts() 
ensembl=useMart("ensembl")

# as it seems that you are looking for human genes:
ensembl = useDataset("hsapiens_gene_ensembl",mart=ensembl)
# if you want other model organisms have a look at:
#listDatasets(ensembl)

您需要创建查询(您的 ENTREZ ID 列表)。要查看您可以查询哪些过滤器:

filters = listFilters(ensembl)

然后您想检索属性:您的 GO 编号和描述。查看可用属性列表

attributes = listAttributes(ensembl)

对于您来说,查询将类似于:

goids = getBM(

        #you want entrezgene so you know which is what, the GO ID and
        # name_1006 is actually the identifier of 'Go term name'
        attributes=c('entrezgene','go_id', 'name_1006'), 

        filters='entrezgene', 
        values=gene_list$ENTREZID, 
        mart=ensembl)

查询本身可能需要一段时间。

然后您可以随时将信息折叠成两列(但我不会推荐将其用于报告目的的任何其他用途)。

Go.collapsed<-Reduce(rbind,lapply(gene_list$ENTREZID,function(x)
                           tempo<-goids[goids$entrezgene==x,]
                           return(
                                   data.frame('ENTREZGENE'= x,
                                  'Go.ID'= paste(tempo$go_id,collapse=' ; '),
                                  'GO.term'=paste(tempo$name_1006,collapse=' ; '))
)


编辑:

如果要查询以前版本的ensembl数据库:

ens82<-useMart(host='sep2015.archive.ensembl.org',
               biomart='ENSEMBL_MART_ENSEMBL',
               dataset='hsapiens_gene_ensembl')

然后查询将是:

goids = getBM(attributes=c('entrezgene','go_id', 'name_1006'),  
        filters='entrezgene',values=gene_list$ENTREZID, 
        mart=ens82)


但是,如果您打算进行 GO 富集分析,那么您的基因列表太短了。