从 uniprotID 和特定残基中检索 13mer 肽序列

retrieve 13mer peptide sequence from uniprotID and specific residue

我有一个 UniprotID 列表,其中包含相应的感兴趣残基(例如 Q7TQ48_S442)。我需要检索蛋白质序列中特定位点周围的 +/-6 个残基(在示例中,我需要的序列是 DIEAEASEERQQE)。 您能否建议一种方法来使用 Python、R 或已经可用的网络工具来处理 ID 列表 + 感兴趣的残留物? 谢谢, 伊曼纽尔

如果我从 https://www.uniprot.org/uploadlists/ 或通过上传文件将蛋白质 ID 列表输入 UniProt,我会得到 table 个结果。在 table 的顶部,有一个选项允许您 select 列 - 一个选项是肽序列。 (到目前为止不需要编程 - 只需上传您感兴趣的 UID 列表)。

现在,要提取特定序列,可以使用 substr 命令在 R 中完成。在这里,我们希望从任一端 add/subtract 6:

len13seq <- with(uniprot_data, substr(peptide_sequence, start = ind - 6, stop = ind + 6 ))

在您的示例中,ind = 442

要完成这项工作,您需要

  1. 将您的标签分成两(+?)列 - UniprotID 和站点索引。如果您需要氨基酸用于以后的分析,您还可以包括氨基酸。
  2. 创建一个仅包含 UniProtID 的文件,并将其输入 UniProt 数据库。
  3. 自定义显示的列,确保获得顺序。
  4. 下载结果并将其读入 R。
  5. 将原始数据框(带有站点索引)与下载的结果合并。
  6. 在您的兴趣点附近生成序列。

完全可以在 R 中完成此操作 - 我曾经做过,但我不确定您是否需要它,除非您需要将整个过程自动化。如果那是您所需要的,我建议您查看 https://www.bioconductor.org/packages/3.7/bioc/html/UniProt.ws.html。我不经常使用 Bioconductor,所以我不熟悉这个包。当我以前使用 R 获取 UniProt 数据时,我所追求的在表格输出中是不可用的,我不得不对我的代码进行相当多的修改才能获得我所追求的数据。 希望 Bioconductor 解决方案比我做的更简单。