匹配不定长字符串的正则表达式
Regular expression that match string without fixed length
我有这样的字符串
01084700069811461719010010285322921DA192089940088
01084700088763891719050010BM2120
这些字符串是datamatrix字符串,我必须这样拆分字符串
0108470006981146 17190100 102853229 21DA192089940088
0108470008876389 17190500 10BM2120
每个块以固定代码开头,后跟数字或字符
- 01 + 14 位
- 17 + 6 位数
- 10 + 1 到 20 个字符
- 21 + 1 到 20 个字符
我试着用正则表达式来做这个,对于前两个块我没有问题,因为长度是固定的。我对第三个(and/or第四个)块有问题。
我创建了这个正则表达式
/^(01\d{14})(?:(17\d{6}))*(?:(10\w*))*(?:(21\w*))*$/
对于这个字符串是正确的
01084700088763891719050010BM2120
Group 1. 0108470008876389 (ok)
Group 2. 17190500 (ok)
Group 3. 10BM2120 (ok)
但对于另一个字符串
01084700069811461719010010285322921DA192089940088
正则表达式匹配
Group 1. 0108470006981146 (ok)
Group 2. 17190100 (ok)
Group 3. 10285322921DA192089940088 (no)
我无法创建能够正确匹配第三个和第四个块的正则表达式,因为没有固定长度的字符并且因为在第三个块中可能有字符串“21” " 这也是下一个区块的起始码。
可以创建一个正确匹配字符串所有部分的正则表达式。
感谢大家
您可以使用
^(01\d{14})(17\d{6})?(10\w{1,20})?(21\w{1,20})?$
请注意,如果您打算量化它们,则不必将捕获组与非捕获组一起包装,您可以直接量化捕获组。
此外,要使组可选,使用 ?
量词就足够了,因为 *
匹配 0 次或多次出现。
图案详情
^
- 字符串开头
(01\d{14})
- 第 1 组:01
和 24 位数字
(17\d{6})?
- 第 2 组(可选):17
和 6 位数字
(10\w{1,20})?
- 第 3 组(可选):10
和 1 到 20 个字符
(21\w{1,20})?
- 第 4 组(可选):21
和 1 到 20 个字符
$
- 字符串结尾。
请注意,要仅匹配字母数字字符,您需要将 \w
替换为 [^\W_]
,因为 \w
也匹配 _
.
var inputValue = "01084700088763891719050010BM2120";
var regexpr = /(01\d{14})(17\d{6})(10[A-Za-z0-9]{1,20})(21[A -Za-z0-9]{1,20})/;
inputValue.replace(regexpr, "$1 $2 $3 $4");
输出将是:
"0108470008876389 17190500 10BM 2120"
var inputValue = "01084700069811461719010010285322921DA192089940088";
var regexpr = /(01\d{14})(17\d{6})(10[A-Za-z0-9]{1,20})(21[A -Za-z0-9]{1,20})/;
inputValue.replace(regexpr, "$1 $2 $3 $4");
输出将是:
"0108470006981146 17190100 102853229 21DA192089940088"
我有这样的字符串
01084700069811461719010010285322921DA192089940088
01084700088763891719050010BM2120
这些字符串是datamatrix字符串,我必须这样拆分字符串
0108470006981146 17190100 102853229 21DA192089940088
0108470008876389 17190500 10BM2120
每个块以固定代码开头,后跟数字或字符
- 01 + 14 位
- 17 + 6 位数
- 10 + 1 到 20 个字符
- 21 + 1 到 20 个字符
我试着用正则表达式来做这个,对于前两个块我没有问题,因为长度是固定的。我对第三个(and/or第四个)块有问题。
我创建了这个正则表达式
/^(01\d{14})(?:(17\d{6}))*(?:(10\w*))*(?:(21\w*))*$/
对于这个字符串是正确的
01084700088763891719050010BM2120
Group 1. 0108470008876389 (ok)
Group 2. 17190500 (ok)
Group 3. 10BM2120 (ok)
但对于另一个字符串
01084700069811461719010010285322921DA192089940088
正则表达式匹配
Group 1. 0108470006981146 (ok)
Group 2. 17190100 (ok)
Group 3. 10285322921DA192089940088 (no)
我无法创建能够正确匹配第三个和第四个块的正则表达式,因为没有固定长度的字符并且因为在第三个块中可能有字符串“21” " 这也是下一个区块的起始码。
可以创建一个正确匹配字符串所有部分的正则表达式。
感谢大家
您可以使用
^(01\d{14})(17\d{6})?(10\w{1,20})?(21\w{1,20})?$
请注意,如果您打算量化它们,则不必将捕获组与非捕获组一起包装,您可以直接量化捕获组。
此外,要使组可选,使用 ?
量词就足够了,因为 *
匹配 0 次或多次出现。
图案详情
^
- 字符串开头(01\d{14})
- 第 1 组:01
和 24 位数字(17\d{6})?
- 第 2 组(可选):17
和 6 位数字(10\w{1,20})?
- 第 3 组(可选):10
和 1 到 20 个字符(21\w{1,20})?
- 第 4 组(可选):21
和 1 到 20 个字符$
- 字符串结尾。
请注意,要仅匹配字母数字字符,您需要将 \w
替换为 [^\W_]
,因为 \w
也匹配 _
.
var inputValue = "01084700088763891719050010BM2120";
var regexpr = /(01\d{14})(17\d{6})(10[A-Za-z0-9]{1,20})(21[A -Za-z0-9]{1,20})/;
inputValue.replace(regexpr, "$1 $2 $3 $4");
输出将是:
"0108470008876389 17190500 10BM 2120"
var inputValue = "01084700069811461719010010285322921DA192089940088";
var regexpr = /(01\d{14})(17\d{6})(10[A-Za-z0-9]{1,20})(21[A -Za-z0-9]{1,20})/;
inputValue.replace(regexpr, "$1 $2 $3 $4");
输出将是:
"0108470006981146 17190100 102853229 21DA192089940088"