从 Ensembl 基因 ID 转换为不同的标识符
converting from Ensembl gene ID's to different identifier
我继承了 Canis Lupus(狗)的 RNAseq 输出数据数据集。我有 Ensembl 格式的基因标识符,特别是它们看起来像这样,ENSCAFT00000001452.3。我正在尝试使用 bioMaRt 将它们转换为更常见的 ID 并需要帮助。我是 R 的新手,认为自己很无知。任何入门帮助。
能否将这些 Ensembl ID 转换为任何其他 Ensembl ID(例如,不同的物种)?
这些 Ensembl ID 能否转换为 RefSeq、GI assession #?如何
从这里开始:
library('biomaRt')
mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))
genes <- df$genes
.......在此之后丢失。谢谢你的帮助。
瑞安
这里是分步示例:
加载 biomaRt
库。
library(biomaRt)
作为查询输入,我们有 Canis lupus familiaris Ensembl 转录本 ID(请注意它们不是 Ensembl 基因 ID)。我们还需要去掉末尾的点+数字,用于表示注释更新。
tx <- c("ENSCAFT00000001452.3", "ENSCAFT00000001656.3")
tx <- gsub("\.\d+$", "", tx)
我们现在在数据库中查询 tx
中的 Ensembl 转录本 ID
ensembl <- useEnsembl(biomart = "ensembl", dataset = "cfamiliaris_gene_ensembl")
res <- getBM(
attributes = c("ensembl_gene_id", "ensembl_transcript_id", "external_gene_name", "description"),
filters = "ensembl_transcript_id",
values = tx,
mart = ensembl)
res
#ensembl_gene_id ensembl_transcript_id external_gene_name
#1 ENSCAFG00000000934 ENSCAFT00000001452 COL14A1
#2 ENSCAFG00000001086 ENSCAFT00000001656 MYC
# description
#1 collagen type XIV alpha 1 chain [Source:VGNC Symbol;Acc:VGNC:51768]
#2 MYC proto-oncogene, bHLH transcription factor [Source:VGNC Symbol;Acc:VGNC:43527]
请注意,您可以通过 listAttributes(ensembl)
.
获得特定 mart
的所有 attributes
的 data.frame
除了 link @GordonShumway 在上面的评论中给出,另一个好的(简洁的)summary/introduction 到 biomaRt
可以在 Ensembl websites 上找到。
我继承了 Canis Lupus(狗)的 RNAseq 输出数据数据集。我有 Ensembl 格式的基因标识符,特别是它们看起来像这样,ENSCAFT00000001452.3。我正在尝试使用 bioMaRt 将它们转换为更常见的 ID 并需要帮助。我是 R 的新手,认为自己很无知。任何入门帮助。
能否将这些 Ensembl ID 转换为任何其他 Ensembl ID(例如,不同的物种)? 这些 Ensembl ID 能否转换为 RefSeq、GI assession #?如何
从这里开始:
library('biomaRt')
mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))
genes <- df$genes
.......在此之后丢失。谢谢你的帮助。 瑞安
这里是分步示例:
加载
biomaRt
库。library(biomaRt)
作为查询输入,我们有 Canis lupus familiaris Ensembl 转录本 ID(请注意它们不是 Ensembl 基因 ID)。我们还需要去掉末尾的点+数字,用于表示注释更新。
tx <- c("ENSCAFT00000001452.3", "ENSCAFT00000001656.3") tx <- gsub("\.\d+$", "", tx)
我们现在在数据库中查询
中的 Ensembl 转录本 IDtx
ensembl <- useEnsembl(biomart = "ensembl", dataset = "cfamiliaris_gene_ensembl") res <- getBM( attributes = c("ensembl_gene_id", "ensembl_transcript_id", "external_gene_name", "description"), filters = "ensembl_transcript_id", values = tx, mart = ensembl) res #ensembl_gene_id ensembl_transcript_id external_gene_name #1 ENSCAFG00000000934 ENSCAFT00000001452 COL14A1 #2 ENSCAFG00000001086 ENSCAFT00000001656 MYC # description #1 collagen type XIV alpha 1 chain [Source:VGNC Symbol;Acc:VGNC:51768] #2 MYC proto-oncogene, bHLH transcription factor [Source:VGNC Symbol;Acc:VGNC:43527]
请注意,您可以通过 listAttributes(ensembl)
.
mart
的所有 attributes
的 data.frame
除了 link @GordonShumway 在上面的评论中给出,另一个好的(简洁的)summary/introduction 到 biomaRt
可以在 Ensembl websites 上找到。