从数学表达式中提取操作数的正则表达式
Regular Expression for Extracting Operands from Mathematical Expression
关于 SO 的问题没有解决我的特定问题。我对正则表达式知之甚少。为此,我正在使用 Regex Class 在 Java 中构建表达式解析器。我想从表达式中提取操作数、参数、运算符、符号和函数名称,然后保存到 ArrayList。目前我正在使用这个逻辑
String string = "2!+atan2(3+9,2+3)-2*PI+3/3-9-12%3*sin(9-9)+(2+6/2)" //This is just for testing purpose later on it will be provided by user
List<String> res = new ArrayList<>();
Pattern pattern = Pattern.compile((\Q^\E|\Q/\E|\Q-\E|\Q-\E|\Q+\E|\Q*\E|\Q)\E|\Q)\E|\Q(\E|\Q(\E|\Q%\E|\Q!\E)) //This string was build in a function where operator names were provided. Its mean that user can add custom operators and custom functions
Matcher m = pattern.matcher(string);
int pos = 0;
while (m.find())
{
if (pos != m.start())
{
res.add(string.substring(pos, m.start()))
}
res.add(m.group())
pos = m.end();
}
if (pos != string.length())
{
addToTokens(res, string.substring(pos));
}
for(String s : res)
{
System.out.println(s);
}
输出:
2
!
+
atan2
(
3
+
9
,
2
+
3
)
-
2
*
PI
+
3
/
3
-
9
-
12
%
3
*
sin
(
9
-
9
)
+
(
2
+
6
/
2
)
问题是现在表达式可以包含具有用户定义格式的矩阵。在函数的情况下,我想将每个矩阵都视为操作数或参数。
输入 1:
String input_1 = "2+3-9*[{2+3,2,6},{7,2+3,2+3i}]+9*6"
输出应该是:
2
+
3
-
9
*
[{2+3,2,6},{7,2+3,2+3i}]
+
9
*
6
输入 2:
String input_2 = "{[2,5][9/8,func(2+3)]}+9*8/5"
输出应该是:
{[2,5][9/8,func(2+3)]}
+
9
*
8
/
5
输入 3:
String input_3 = "<[2,9,2.36][2,3,2!]>*<[2,3,9][23+9*8/8,2,3]>"
输出应该是:
<[2,9,2.36][2,3,2!]>
*
<[2,3,9][23+9*8/8,2,3]>
我希望 ArrayList 现在应该在每个索引处包含每个操作数、运算符、参数、函数和符号。如何使用正则表达式实现我想要的输出。不需要表达式验证。
使用正则表达式,您不能匹配任何级别的嵌套平衡括号。
例如,在您的第二个示例中 {[2,5][9/8,func(2+3)]}
您需要将左大括号与右大括号匹配,但您需要跟踪有多少个左括号和右括号 braces/parens/etc。这不能用正则表达式来完成。
另一方面,如果您简化问题以消除任何平衡要求,那么您可能可以使用正则表达式来处理。
我想你可以试试这样的东西:
(?<matrix>(?:\[[^\]]+\])|(?:<[^>]+>)|(?:\{[^\}]+\}))|(?<function>\w+(?=\())|(\d+[eE][-+]\d+)|(?<operand>\w+)|(?<operator>[-+\/*%])|(?<symbol>.)
元素在命名的捕获组中被捕获。如果不需要,可以使用 short:
\[[^\]]+\]|<[^>]+>|\{[^\}]+\}|\d+[eE][-+]\d+|\w+(?=\()|\w+|[-+\/*%]|.
\[[^\]]+\]|<[^>]+>|\{[^\}]+\}
匹配左括号({
、[
或 <
)、非右括号字符和右括号(}
、]
、 >
) 所以如果没有嵌套的同类型括号是没有问题的。
在 Java 中实施:
public class Test {
public static void main(String[] args) {
String[] expressions = {"2!+atan2(3+9,2+3)-2*PI+3/3-9-12%3*sin(9-9)+(2+6/2)", "2+3-9*[{2+3,2,6},{7,2+3,2+3i}]+9*6",
"{[2,5][9/8,func(2+3)]}+9*8/5","<[2,9,2.36][2,3,2!]>*<[2,3,9][23 + 9 * 8 / 8, 2, 3]>"};
Pattern pattern = Pattern.compile("(?<matrix>(?:\[[^]]+])|(?:<[^>]+>)|(?:\{[^}]+}))|(?<function>\w+(?=\())|(?<operand>\w+)|(?<operator>[-+/*%])|(?<symbol>.)");
for(String expression : expressions) {
List<String> elements = new ArrayList<String>();
Matcher matcher = pattern.matcher(expression);
while (matcher.find()) {
elements.add(matcher.group());
}
for (String element : elements) {
System.out.println(element);
}
System.out.println("\n\n\n");
}
}
}
备选方案说明:
\[[^\]]+\]|<[^>]+>|\{[^\}]+\}
- 匹配给定的左括号
类型,不是该类型右括号的字符
(一切都不是右括号),以及那个的右括号
类型,
\d+[eE][-+]\d+
= 数字,后跟 e
或 E
,后跟运算符 +
或 -
,后跟数字,以捕获 2e+3
等元素
\w+(?=\()
- 匹配一个或多个单词字符 (A-Za-z0-9_)
如果是
后跟 (
用于匹配 sin
、 等函数
\w+
- 匹配一个或多个单词字符 (A-Za-z0-9_)
进行匹配
操作数,
[-+\/*%]
- 从字符class开始匹配一个字符,进行匹配
运算符
.
- 匹配任何其他字符,以匹配其他符号
选项的顺序非常重要,因为最后一个选项 .
将匹配任何字符,因此它必须是最后一个选项。与 \w+(?=\()
和 \w+
类似的情况,第二个将像前一个一样匹配所有内容,但是如果您不习惯区分函数和操作数,那么 \w+
就足够了他们中的。
在更长的例子中,每个备选方案中的 (?<name> ... )
部分是一个命名的捕获组,您可以在演示中看到,它如何将匹配的片段分组到组中,例如:操作数、运算符、函数等
关于 SO 的问题没有解决我的特定问题。我对正则表达式知之甚少。为此,我正在使用 Regex Class 在 Java 中构建表达式解析器。我想从表达式中提取操作数、参数、运算符、符号和函数名称,然后保存到 ArrayList。目前我正在使用这个逻辑
String string = "2!+atan2(3+9,2+3)-2*PI+3/3-9-12%3*sin(9-9)+(2+6/2)" //This is just for testing purpose later on it will be provided by user
List<String> res = new ArrayList<>();
Pattern pattern = Pattern.compile((\Q^\E|\Q/\E|\Q-\E|\Q-\E|\Q+\E|\Q*\E|\Q)\E|\Q)\E|\Q(\E|\Q(\E|\Q%\E|\Q!\E)) //This string was build in a function where operator names were provided. Its mean that user can add custom operators and custom functions
Matcher m = pattern.matcher(string);
int pos = 0;
while (m.find())
{
if (pos != m.start())
{
res.add(string.substring(pos, m.start()))
}
res.add(m.group())
pos = m.end();
}
if (pos != string.length())
{
addToTokens(res, string.substring(pos));
}
for(String s : res)
{
System.out.println(s);
}
输出:
2
!
+
atan2
(
3
+
9
,
2
+
3
)
-
2
*
PI
+
3
/
3
-
9
-
12
%
3
*
sin
(
9
-
9
)
+
(
2
+
6
/
2
)
问题是现在表达式可以包含具有用户定义格式的矩阵。在函数的情况下,我想将每个矩阵都视为操作数或参数。
输入 1:
String input_1 = "2+3-9*[{2+3,2,6},{7,2+3,2+3i}]+9*6"
输出应该是:
2
+
3
-
9
*
[{2+3,2,6},{7,2+3,2+3i}]
+
9
*
6
输入 2:
String input_2 = "{[2,5][9/8,func(2+3)]}+9*8/5"
输出应该是:
{[2,5][9/8,func(2+3)]}
+
9
*
8
/
5
输入 3:
String input_3 = "<[2,9,2.36][2,3,2!]>*<[2,3,9][23+9*8/8,2,3]>"
输出应该是:
<[2,9,2.36][2,3,2!]>
*
<[2,3,9][23+9*8/8,2,3]>
我希望 ArrayList 现在应该在每个索引处包含每个操作数、运算符、参数、函数和符号。如何使用正则表达式实现我想要的输出。不需要表达式验证。
使用正则表达式,您不能匹配任何级别的嵌套平衡括号。
例如,在您的第二个示例中 {[2,5][9/8,func(2+3)]}
您需要将左大括号与右大括号匹配,但您需要跟踪有多少个左括号和右括号 braces/parens/etc。这不能用正则表达式来完成。
另一方面,如果您简化问题以消除任何平衡要求,那么您可能可以使用正则表达式来处理。
我想你可以试试这样的东西:
(?<matrix>(?:\[[^\]]+\])|(?:<[^>]+>)|(?:\{[^\}]+\}))|(?<function>\w+(?=\())|(\d+[eE][-+]\d+)|(?<operand>\w+)|(?<operator>[-+\/*%])|(?<symbol>.)
元素在命名的捕获组中被捕获。如果不需要,可以使用 short:
\[[^\]]+\]|<[^>]+>|\{[^\}]+\}|\d+[eE][-+]\d+|\w+(?=\()|\w+|[-+\/*%]|.
\[[^\]]+\]|<[^>]+>|\{[^\}]+\}
匹配左括号({
、[
或 <
)、非右括号字符和右括号(}
、]
、 >
) 所以如果没有嵌套的同类型括号是没有问题的。
在 Java 中实施:
public class Test {
public static void main(String[] args) {
String[] expressions = {"2!+atan2(3+9,2+3)-2*PI+3/3-9-12%3*sin(9-9)+(2+6/2)", "2+3-9*[{2+3,2,6},{7,2+3,2+3i}]+9*6",
"{[2,5][9/8,func(2+3)]}+9*8/5","<[2,9,2.36][2,3,2!]>*<[2,3,9][23 + 9 * 8 / 8, 2, 3]>"};
Pattern pattern = Pattern.compile("(?<matrix>(?:\[[^]]+])|(?:<[^>]+>)|(?:\{[^}]+}))|(?<function>\w+(?=\())|(?<operand>\w+)|(?<operator>[-+/*%])|(?<symbol>.)");
for(String expression : expressions) {
List<String> elements = new ArrayList<String>();
Matcher matcher = pattern.matcher(expression);
while (matcher.find()) {
elements.add(matcher.group());
}
for (String element : elements) {
System.out.println(element);
}
System.out.println("\n\n\n");
}
}
}
备选方案说明:
\[[^\]]+\]|<[^>]+>|\{[^\}]+\}
- 匹配给定的左括号 类型,不是该类型右括号的字符 (一切都不是右括号),以及那个的右括号 类型,\d+[eE][-+]\d+
= 数字,后跟e
或E
,后跟运算符+
或-
,后跟数字,以捕获2e+3
等元素
\w+(?=\()
- 匹配一个或多个单词字符(A-Za-z0-9_)
如果是 后跟(
用于匹配sin
、 等函数
\w+
- 匹配一个或多个单词字符(A-Za-z0-9_)
进行匹配 操作数,[-+\/*%]
- 从字符class开始匹配一个字符,进行匹配 运算符.
- 匹配任何其他字符,以匹配其他符号
选项的顺序非常重要,因为最后一个选项 .
将匹配任何字符,因此它必须是最后一个选项。与 \w+(?=\()
和 \w+
类似的情况,第二个将像前一个一样匹配所有内容,但是如果您不习惯区分函数和操作数,那么 \w+
就足够了他们中的。
在更长的例子中,每个备选方案中的 (?<name> ... )
部分是一个命名的捕获组,您可以在演示中看到,它如何将匹配的片段分组到组中,例如:操作数、运算符、函数等