从 uniprotID 和特定残基中检索 13mer 肽序列

Question

我有一个 UniprotID 列表，其中包含相应的感兴趣残基（例如 Q7TQ48_S442）。我需要检索蛋白质序列中特定位点周围的 +/-6 个残基（在示例中，我需要的序列是 DIEAEASEERQQE）。您能否建议一种方法来使用 Python、R 或已经可用的网络工具来处理 ID 列表 + 感兴趣的残留物？谢谢，伊曼纽尔

Answer 1

如果我从 https://www.uniprot.org/uploadlists/ 或通过上传文件将蛋白质 ID 列表输入 UniProt，我会得到 table 个结果。在 table 的顶部，有一个选项允许您 select 列 - 一个选项是肽序列。（到目前为止不需要编程 - 只需上传您感兴趣的 UID 列表）。

现在，要提取特定序列，可以使用 substr 命令在 R 中完成。在这里，我们希望从任一端 add/subtract 6:

len13seq <- with(uniprot_data, substr(peptide_sequence, start = ind - 6, stop = ind + 6 ))

在您的示例中，ind = 442。

要完成这项工作，您需要

将您的标签分成两（+？）列 - UniprotID 和站点索引。如果您需要氨基酸用于以后的分析，您还可以包括氨基酸。
创建一个仅包含 UniProtID 的文件，并将其输入 UniProt 数据库。
自定义显示的列，确保获得顺序。
下载结果并将其读入 R。
将原始数据框（带有站点索引）与下载的结果合并。
在您的兴趣点附近生成序列。

完全可以在 R 中完成此操作 - 我曾经做过，但我不确定您是否需要它，除非您需要将整个过程自动化。如果那是您所需要的，我建议您查看 https://www.bioconductor.org/packages/3.7/bioc/html/UniProt.ws.html。我不经常使用 Bioconductor，所以我不熟悉这个包。当我以前使用 R 获取 UniProt 数据时，我所追求的在表格输出中是不可用的，我不得不对我的代码进行相当多的修改才能获得我所追求的数据。希望 Bioconductor 解决方案比我做的更简单。

从 uniprotID 和特定残基中检索 13mer 肽序列

retrieve 13mer peptide sequence from uniprotID and specific residue

python

r

bioinformatics

protein-database

bioconductor