Biopython:通过蛋白质加入获取 XML-文件
Biopython: Getting XML-file by Protein accession
我有一个充满 Uniprot ID 的文件。
现在我正在寻找一种方法来为每个 ID 下载整个 XML 条目。
首先,您为每个 UniProt ID 构建一个 URL,以检索蛋白质的 XML 定义。
uniprot_id = 'P12345'
url = 'http://www.uniprot.org/uniprot/'+uniprot_id+'.xml'
您可以构造 URLs 以通过更改字符串的结尾来检索不同的数据格式,即“.txt、.fasta、.rdf”。 link 提供了有关 uniprot 访问模式的更多具体细节。
接下来您打开 url 并使用 BioPython 解析输出。或者,您可以将 XML 字符串保存到磁盘。
import urllib2
from Bio import SeqIO
uniprot_id = 'P12345'
url = 'http://www.uniprot.org/uniprot/'+uniprot_id+'.xml'
s = urllib2.urlopen(url)
contents = s.read()
record = SeqIO.read(contents, 'uniprot-xml')
我有一个充满 Uniprot ID 的文件。 现在我正在寻找一种方法来为每个 ID 下载整个 XML 条目。
首先,您为每个 UniProt ID 构建一个 URL,以检索蛋白质的 XML 定义。
uniprot_id = 'P12345'
url = 'http://www.uniprot.org/uniprot/'+uniprot_id+'.xml'
您可以构造 URLs 以通过更改字符串的结尾来检索不同的数据格式,即“.txt、.fasta、.rdf”。 link 提供了有关 uniprot 访问模式的更多具体细节。
接下来您打开 url 并使用 BioPython 解析输出。或者,您可以将 XML 字符串保存到磁盘。
import urllib2
from Bio import SeqIO
uniprot_id = 'P12345'
url = 'http://www.uniprot.org/uniprot/'+uniprot_id+'.xml'
s = urllib2.urlopen(url)
contents = s.read()
record = SeqIO.read(contents, 'uniprot-xml')