QRegExp 仅解析以特定字符开头的字符串
QRegExp to parse only string starting with a specific character
我正在尝试使用正则表达式解析这些字符串,但我认为我的正则表达式语句不正确。
我得到一个字符串,每当它有换行符和回车符时 return,它们必须分成两个字符串。字符串具有以下格式
[CharSize][Inverted][Aligned]Data
例如,如果我得到这样的数据
QString s1 = "[6][1][0]Data1\n\r[5][0][1]Data2";
当我将它们分开时,将有两个 QString,我将取左括号和右括号内的数据。
另一个有效数据是这样的:
QString s2 = "[7][0][1]Data3"
无效数据是这样的:
QString s3 = "abc[8][1][1]Data4"
我在下面应用了以下 QRegExp:
QRegExp clrf("\n\r|\r\n|\n");
QStringList sp = str.split(clrf);
QRegexp clrf 可以很好地用换行符和回车符分隔数据 return,反向或只是换行符。注:s1,s2,s3这里处理的很好
问题出在这里:
QRegExp value("[^a-z]?\[([0-9a-z]+)\]\[([0-9a-z]+)\]\[([0-9a-z]+)\]([A-Za-z0-9\'\ \"]*)");
当我使用上面的代码时,s1、s2和s3都被处理了。 S3 不应该 被处理,因为它的第一个字符不是左括号。你能帮我更正我的 QRegExp 吗?
谢谢。
编辑:
完整代码:
void parseString(QString str)
{
QRegExp clrf("\n\r|\r\n|\n");
QRegExp value("\[([0-9a-z]+)\]\[([0-9a-z]+)\]\[([0-9a-z]+)\]([A-Za-z0-9\'\ \"]*)");
// QRegExp value("^\[(\d+)\]\[(\d+)\]\[(\d+)\](.*)$");
int p = 0, i = 0;
int res;
int cs = 0, inv = 0, al = 0;
QStringList sp = str.split(clrf);
XLineString ls;
for (i = 0; i < sp.size(); ++i) {
res = value.indexIn(sp[i], p);
while (res != -1) {
printf("Text=[%s]\n", value.cap(EData).toStdString().c_str());
printf("Digit cs[%d] ", value.cap(ECharSize).toInt());
printf("inv[%d] ", value.cap(EInvert).toInt());
printf("al[%d]\n", value.cap(EAlignment).toInt());
cs = value.cap(ECharSize).toInt();
if (value.cap(EInvert).toInt())
inv = 1;
else
inv = 0;
if (value.cap(EAlignment).toInt())
al = 1;
else
al = 0;
ls.addLine(value.cap(EData).toStdString().c_str(), cs, inv, al);
p += value.matchedLength();
res = value.indexIn(str, p);
}
}
}
int main()
{
QString str1[] = {
"[12][0][0]DATA1\n\r[78][0][1]DATA2",
"abc[1][1][1]THIS SHOULD NOT PASS",
};
for (int i = 0; i < sizeof(str1) / sizeof(str1[0]); ++i)
parseString(str1[i]);
}
为了回答您的问题,我已经使用 PyQt5 对此进行了测试(为简单起见)
import re
R = ["\[([0-9a-z]+)\]\[([0-9a-z]+)\]\[([0-9a-z]+)\]([A-Za-z0-9\'\ \"]*)", "^\[(\d+)\]\[(\d+)\]\[(\d+)\](.*)$"]
tests = ["[6][1][0]Data1\n\r[5][0][1]Data2", "[7][0][1]Data3", "abc[8][1][1]Data4"]
s = re.compile("\n\r|\r\n|\n") # emulate QRegExp split feature
for r in R:
r=QRegExp(r)
for T in tests:
for t in s.split(T):
print(r.indexIn(t))
结果:
0
0
0
3
0
0
0
-1
结论:如果您简单地测试 "indexIn" 等于 0 而不是不等于 -1,您的原始匹配也可以工作,而我的修改版本应该可以工作。
我认为最好的办法是简单地修改代码以确保索引等于 0。我可能还建议您使用 If 语句而不是 While 语句,否则您可能会重复匹配同一行。
我正在尝试使用正则表达式解析这些字符串,但我认为我的正则表达式语句不正确。
我得到一个字符串,每当它有换行符和回车符时 return,它们必须分成两个字符串。字符串具有以下格式
[CharSize][Inverted][Aligned]Data
例如,如果我得到这样的数据
QString s1 = "[6][1][0]Data1\n\r[5][0][1]Data2";
当我将它们分开时,将有两个 QString,我将取左括号和右括号内的数据。
另一个有效数据是这样的:
QString s2 = "[7][0][1]Data3"
无效数据是这样的:
QString s3 = "abc[8][1][1]Data4"
我在下面应用了以下 QRegExp:
QRegExp clrf("\n\r|\r\n|\n");
QStringList sp = str.split(clrf);
QRegexp clrf 可以很好地用换行符和回车符分隔数据 return,反向或只是换行符。注:s1,s2,s3这里处理的很好
问题出在这里:
QRegExp value("[^a-z]?\[([0-9a-z]+)\]\[([0-9a-z]+)\]\[([0-9a-z]+)\]([A-Za-z0-9\'\ \"]*)");
当我使用上面的代码时,s1、s2和s3都被处理了。 S3 不应该 被处理,因为它的第一个字符不是左括号。你能帮我更正我的 QRegExp 吗?
谢谢。
编辑: 完整代码:
void parseString(QString str)
{
QRegExp clrf("\n\r|\r\n|\n");
QRegExp value("\[([0-9a-z]+)\]\[([0-9a-z]+)\]\[([0-9a-z]+)\]([A-Za-z0-9\'\ \"]*)");
// QRegExp value("^\[(\d+)\]\[(\d+)\]\[(\d+)\](.*)$");
int p = 0, i = 0;
int res;
int cs = 0, inv = 0, al = 0;
QStringList sp = str.split(clrf);
XLineString ls;
for (i = 0; i < sp.size(); ++i) {
res = value.indexIn(sp[i], p);
while (res != -1) {
printf("Text=[%s]\n", value.cap(EData).toStdString().c_str());
printf("Digit cs[%d] ", value.cap(ECharSize).toInt());
printf("inv[%d] ", value.cap(EInvert).toInt());
printf("al[%d]\n", value.cap(EAlignment).toInt());
cs = value.cap(ECharSize).toInt();
if (value.cap(EInvert).toInt())
inv = 1;
else
inv = 0;
if (value.cap(EAlignment).toInt())
al = 1;
else
al = 0;
ls.addLine(value.cap(EData).toStdString().c_str(), cs, inv, al);
p += value.matchedLength();
res = value.indexIn(str, p);
}
}
}
int main()
{
QString str1[] = {
"[12][0][0]DATA1\n\r[78][0][1]DATA2",
"abc[1][1][1]THIS SHOULD NOT PASS",
};
for (int i = 0; i < sizeof(str1) / sizeof(str1[0]); ++i)
parseString(str1[i]);
}
为了回答您的问题,我已经使用 PyQt5 对此进行了测试(为简单起见)
import re
R = ["\[([0-9a-z]+)\]\[([0-9a-z]+)\]\[([0-9a-z]+)\]([A-Za-z0-9\'\ \"]*)", "^\[(\d+)\]\[(\d+)\]\[(\d+)\](.*)$"]
tests = ["[6][1][0]Data1\n\r[5][0][1]Data2", "[7][0][1]Data3", "abc[8][1][1]Data4"]
s = re.compile("\n\r|\r\n|\n") # emulate QRegExp split feature
for r in R:
r=QRegExp(r)
for T in tests:
for t in s.split(T):
print(r.indexIn(t))
结果:
0
0
0
3
0
0
0
-1
结论:如果您简单地测试 "indexIn" 等于 0 而不是不等于 -1,您的原始匹配也可以工作,而我的修改版本应该可以工作。
我认为最好的办法是简单地修改代码以确保索引等于 0。我可能还建议您使用 If 语句而不是 While 语句,否则您可能会重复匹配同一行。