从 Ensembl 基因 ID 转换为不同的标识符

converting from Ensembl gene ID's to different identifier

我继承了 Canis Lupus(狗)的 RNAseq 输出数据数据集。我有 Ensembl 格式的基因标识符,特别是它们看起来像这样,ENSCAFT00000001452.3。我正在尝试使用 bioMaRt 将它们转换为更常见的 ID 并需要帮助。我是 R 的新手,认为自己很无知。任何入门帮助。

能否将这些 Ensembl ID 转换为任何其他 Ensembl ID(例如,不同的物种)? 这些 Ensembl ID 能否转换为 RefSeq、GI assession #?如何

从这里开始:

library('biomaRt')

mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))

genes <- df$genes

.......在此之后丢失。谢谢你的帮助。 瑞安

这里是分步示例:

  1. 加载 biomaRt 库。

    library(biomaRt)
    
  2. 作为查询输入,我们有 Canis lupus familiaris Ensembl 转录本 ID(请注意它们不是 Ensembl 基因 ID)。我们还需要去掉末尾的点+数字,用于表示注释更新。

    tx <- c("ENSCAFT00000001452.3", "ENSCAFT00000001656.3")
    tx <- gsub("\.\d+$", "", tx)
    
  3. 我们现在在数据库中查询 tx

    中的 Ensembl 转录本 ID
    ensembl <- useEnsembl(biomart = "ensembl", dataset = "cfamiliaris_gene_ensembl")
    res <- getBM(
        attributes = c("ensembl_gene_id", "ensembl_transcript_id", "external_gene_name", "description"),
        filters = "ensembl_transcript_id",
        values = tx,
        mart = ensembl)
    res
    #ensembl_gene_id ensembl_transcript_id external_gene_name
    #1 ENSCAFG00000000934    ENSCAFT00000001452            COL14A1
    #2 ENSCAFG00000001086    ENSCAFT00000001656                MYC
    #                                                                   description
    #1               collagen type XIV alpha 1 chain [Source:VGNC Symbol;Acc:VGNC:51768]
    #2 MYC proto-oncogene, bHLH transcription factor [Source:VGNC Symbol;Acc:VGNC:43527]
    

请注意,您可以通过 listAttributes(ensembl).

获得特定 mart 的所有 attributesdata.frame

除了 link @GordonShumway 在上面的评论中给出,另一个好的(简洁的)summary/introduction 到 biomaRt 可以在 Ensembl websites 上找到。