蛋白质编码基因正则表达式

A protein-coded gene Regular Expression

我正在尝试编写一个可以匹配以下指令的正则表达式 带有“AT”前缀的字符序列,后跟“nG”,其中 n 是从 1 到 5 的数字,然后是 "G",最后是 5 位数字的后缀。

注意:只是普通的正则表达式,不特定于语言。

匹配字符串的示例是:“AT1G01040”

这是我可以构造的 AT[1-5]G(d\{1,5}) 但我不确定它是否是正确答案。

拜托,我需要你帮忙,谢谢。

如果末尾的位数可能是1到5,可以用

^AT[1-5]G[0-9]{1,5}$

参见regex demo

注意,如果末尾的位数必须正好是5,则必须去掉1,:

^AT[1-5]G[0-9]{5}$

详情

  • ^ - 字符串开头
  • AT - 字符序列 AT
  • [1-5] - 12345
  • G - 一个 G 字符
  • [0-9]{1,5} - 任意 1 到 5 次连续出现的 ASCII 数字(或者 - 如果您使用 {5} - 恰好出现 5 次)
  • $ - 字符串结尾。