是否有 R 代码集使用 PubMed ID 或 DOI 来获取该文章的数据文件?
Is there a R code set to use PubMed ID or DOI to get data files for that article, please?
我正在尝试从 NCBI 或 PubMed 中获取与数百个唯一 DOI 或 PMID 相关或附加的数据文件名,使用 R 语言。例如。我有 PMID:19122651,我想获取与其连接的三个 GSE 的名称,它们是:GSE12781、GSE12782 和 GSE12783。
我搜索了各种资源和包都无济于事。
感谢您的帮助。
您可以通过 rentrez
包查询 NCBI,如 here 所述。函数 entrez_link()
应该能够找到交叉引用
您可以使用 rentrez 包执行此操作。
要求的函数是entrez_link。
示例:
library(rentrez)
results <- entrez_link(dbfrom = 'pubmed', id = 19122651, db = 'gds')
results$links$pubmed_gds
[1] "200012783" "200012782" "200012781"
这 3 个结果是关联的 GEO 数据集记录的 ID。您可以使用 entrez_summary
.
将它们转换为 GSE 种质
这里有一个有点难看的sapply
可以作为函数的基础:
sapply(results$links$pubmed_gds, function (id) entrez_summary("gds", id)$accession,
USE.NAMES = FALSE)
[1] "GSE12783" "GSE12782" "GSE12781"
我正在尝试从 NCBI 或 PubMed 中获取与数百个唯一 DOI 或 PMID 相关或附加的数据文件名,使用 R 语言。例如。我有 PMID:19122651,我想获取与其连接的三个 GSE 的名称,它们是:GSE12781、GSE12782 和 GSE12783。
我搜索了各种资源和包都无济于事。
感谢您的帮助。
您可以通过 rentrez
包查询 NCBI,如 here 所述。函数 entrez_link()
应该能够找到交叉引用
您可以使用 rentrez 包执行此操作。
要求的函数是entrez_link。
示例:
library(rentrez)
results <- entrez_link(dbfrom = 'pubmed', id = 19122651, db = 'gds')
results$links$pubmed_gds
[1] "200012783" "200012782" "200012781"
这 3 个结果是关联的 GEO 数据集记录的 ID。您可以使用 entrez_summary
.
这里有一个有点难看的sapply
可以作为函数的基础:
sapply(results$links$pubmed_gds, function (id) entrez_summary("gds", id)$accession,
USE.NAMES = FALSE)
[1] "GSE12783" "GSE12782" "GSE12781"