从数学表达式中提取操作数的正则表达式

Regular Expression for Extracting Operands from Mathematical Expression

关于 SO 的问题没有解决我的特定问题。我对正则表达式知之甚少。为此,我正在使用 Regex Class 在 Java 中构建表达式解析器。我想从表达式中提取操作数、参数、运算符、符号和函数名称,然后保存到 ArrayList。目前我正在使用这个逻辑

String string = "2!+atan2(3+9,2+3)-2*PI+3/3-9-12%3*sin(9-9)+(2+6/2)" //This is just for testing purpose later on it will be provided by user
List<String> res = new ArrayList<>();
Pattern pattern = Pattern.compile((\Q^\E|\Q/\E|\Q-\E|\Q-\E|\Q+\E|\Q*\E|\Q)\E|\Q)\E|\Q(\E|\Q(\E|\Q%\E|\Q!\E)) //This string was build in a function where operator names were provided. Its mean that user can add custom operators and custom functions 
Matcher m = pattern.matcher(string);
int pos = 0;
while (m.find()) 
{
    if (pos != m.start()) 
    {
        res.add(string.substring(pos, m.start()))
    }
    res.add(m.group())
    pos = m.end();
}
if (pos != string.length()) 
{
     addToTokens(res, string.substring(pos));
}
for(String s : res)
{
     System.out.println(s);
}

输出:

2
!
+
atan2
(
3
+
9
,
2
+
3
)
-
2
*
PI
+
3
/
3
-
9
-
12
%
3
*
sin
(
9
-
9
)
+
(
2
+
6
/
2
)

问题是现在表达式可以包含具有用户定义格式的矩阵。在函数的情况下,我想将每个矩阵都视为操作数或参数。

输入 1:

String input_1 = "2+3-9*[{2+3,2,6},{7,2+3,2+3i}]+9*6"

输出应该是:

2
+
3
-
9
*
[{2+3,2,6},{7,2+3,2+3i}]
+
9
*
6

输入 2:

String input_2 = "{[2,5][9/8,func(2+3)]}+9*8/5"

输出应该是:

{[2,5][9/8,func(2+3)]}
+
9
*
8
/
5

输入 3:

String input_3 = "<[2,9,2.36][2,3,2!]>*<[2,3,9][23+9*8/8,2,3]>"

输出应该是:

<[2,9,2.36][2,3,2!]>
*
<[2,3,9][23+9*8/8,2,3]>

我希望 ArrayList 现在应该在每个索引处包含每个操作数、运算符、参数、函数和符号。如何使用正则表达式实现我想要的输出。不需要表达式验证。

使用正则表达式,您不能匹配任何级别的嵌套平衡括号。

例如,在您的第二个示例中 {[2,5][9/8,func(2+3)]} 您需要将左大括号与右大括号匹配,但您需要跟踪有多少个左括号和右括号 braces/parens/etc。这不能用正则表达式来完成。

另一方面,如果您简化问题以消除任何平衡要求,那么您可能可以使用正则表达式来处理。

我想你可以试试这样的东西:

(?<matrix>(?:\[[^\]]+\])|(?:<[^>]+>)|(?:\{[^\}]+\}))|(?<function>\w+(?=\())|(\d+[eE][-+]\d+)|(?<operand>\w+)|(?<operator>[-+\/*%])|(?<symbol>.)

DEMO

元素在命名的捕获组中被捕获。如果不需要,可以使用 short:

\[[^\]]+\]|<[^>]+>|\{[^\}]+\}|\d+[eE][-+]\d+|\w+(?=\()|\w+|[-+\/*%]|.


\[[^\]]+\]|<[^>]+>|\{[^\}]+\} 匹配左括号({[<)、非右括号字符和右括号(}]>) 所以如果没有嵌套的同类型括号是没有问题的。 在 Java 中实施:

public class Test {
    public static void main(String[] args) {
        String[] expressions = {"2!+atan2(3+9,2+3)-2*PI+3/3-9-12%3*sin(9-9)+(2+6/2)", "2+3-9*[{2+3,2,6},{7,2+3,2+3i}]+9*6",
        "{[2,5][9/8,func(2+3)]}+9*8/5","<[2,9,2.36][2,3,2!]>*<[2,3,9][23 + 9 * 8 / 8, 2, 3]>"};
        Pattern pattern = Pattern.compile("(?<matrix>(?:\[[^]]+])|(?:<[^>]+>)|(?:\{[^}]+}))|(?<function>\w+(?=\())|(?<operand>\w+)|(?<operator>[-+/*%])|(?<symbol>.)");
        for(String expression : expressions) {
            List<String> elements = new ArrayList<String>();
            Matcher matcher = pattern.matcher(expression);
            while (matcher.find()) {
                elements.add(matcher.group());
            }
            for (String element : elements) {
                System.out.println(element);
            }
            System.out.println("\n\n\n");
        }
    }
}

备选方案说明:

  • \[[^\]]+\]|<[^>]+>|\{[^\}]+\} - 匹配给定的左括号 类型,不是该类型右括号的字符 (一切都不是右括号),以及那个的右括号 类型,
  • \d+[eE][-+]\d+ = 数字,后跟 eE,后跟运算符 +-,后跟数字,以捕获 2e+3
  • 等元素
  • \w+(?=\() - 匹配一个或多个单词字符 (A-Za-z0-9_) 如果是 后跟 ( 用于匹配 sin
  • 等函数
  • \w+ - 匹配一个或多个单词字符 (A-Za-z0-9_) 进行匹配 操作数,
  • [-+\/*%] - 从字符class开始匹配一个字符,进行匹配 运算符
  • . - 匹配任何其他字符,以匹配其他符号

选项的顺序非常重要,因为最后一个选项 . 将匹配任何字符,因此它必须是最后一个选项。与 \w+(?=\()\w+ 类似的情况,第二个将像前一个一样匹配所有内容,但是如果您不习惯区分函数和操作数,那么 \w+ 就足够了他们中的。

在更长的例子中,每个备选方案中的 (?<name> ... ) 部分是一个命名的捕获组,您可以在演示中看到,它如何将匹配的片段分组到组中,例如:操作数、运算符、函数等