R biomaRt 包:获取链接数据库中的所有值

R biomaRt package: obtaining all values in linked databases

一道生物信息学编程题。在 R 中,我有一个经典的 speciesA 到 speciesB 基因符号转换,在这个例子中是从小鼠到人类,我正在使用 biomaRt 执行,特别是 getLDS 函数。

x<-c("Lbp","Ndufv3","Ggt1")
require(biomaRt)
convert<-function(x){
        human=useMart("ensembl",dataset="hsapiens_gene_ensembl")
        mouse=useMart("ensembl",dataset="mmusculus_gene_ensembl")

    newgenes=getLDS(
        attributes="mgi_symbol",
        filters="mgi_symbol",
        values=x,
        mart=mouse,
        attributesL="hgnc_symbol",
        martL=human,
        uniqueRows=TRUE
    )
    humanx<-unique(newgenes)
    return(humanx)
}
conversion<-convert(x)

但是,我想获取链接数据库中存在的所有 ID:换句话说,所有 mouse/human 对(在本例中)。告诉 getLDS 函数中的参数 value 检索 all id,而不仅仅是那些在x 变量。我说的是一张完整的地图,几万行,详细说明了两个数据库符号之间的所有直系同源关系。

有什么想法或解决方法吗?非常感谢!

我认为解决方法是从 Biomart 数据库本身检索所有 ID,此处:https://www.ensembl.org/biomart/martview/

  • 点击选择数据库 -> Ensembl Genes
  • 选择数据集 -> 您选择的物种(例如小鼠基因)
  • 点击结果 -> 选中“仅限唯一结果” -> 开始
  • 利润

这里检索到的列表目前有53605个id,我相信这正是您所需要的。

尽情享受吧!