Pyparsing:将 infixnotation 与 setResultsName 相结合
Pyparsing: combining infixnotation with setResultsName
我正在尝试使用 infixNotation
(以前是 operatorPrecedence
)编写语法,但我不知道如何使用 setResultsName
。
我尝试这样做的原因是我在 searchparser 之上构建了一个用于布尔搜索查询的语法,但它遇到了 RecursionError: maximum recursion depth exceeded in comparison
用于非常长的表达式。
所以似乎通过使用 infixNotation(searchparser 没有),我可以避免 运行 进入这个错误。
所以我正在尝试使语法适应 infixNotation,但我的评估在很大程度上依赖于在结构化解析结果中包含每个运算符的名称,特别是能够轻松访问运算符的参数。
我从 pyparsing 书中给出的例子开始:
and_ = CaselessLiteral("and")
or_ = CaselessLiteral("or")
not_ = CaselessLiteral("not")
searchTerm = Word(alphanums) | quotedString.setParseAction( removeQuotes )
searchExpr = infixNotation( searchTerm,
[
(not_, 1, opAssoc.RIGHT),
(and_, 2, opAssoc.LEFT),
(or_, 2, opAssoc.LEFT),
])
那么,如何在此处设置 ParseResultName?
如果我尝试将其设置为运算符:
or_ = CaselessLiteral("or").setResultsName("OR")
此字符串 ('term1 OR term2 OR term3') 的结果 parseResult 将如下所示:
<ITEM>
<word>
<word>
<ITEM>term1</ITEM>
</word>
<OR>or</OR>
<word>
<ITEM>term2</ITEM>
</word>
<OR>or</OR>
<word>
<ITEM>term3</ITEM>
</word>
</word>
</ITEM>
这意味着所有术语和运算符都处于同一级别,而我想要这样的东西,其中术语被排列为运算符的参数:
<OR>
<OR>
<word>
<ITEM>term1</ITEM>
</word>
<OR>
<word>
<ITEM>term2</ITEM>
</word>
<word>
<ITEM>term3</ITEM>
</word>
</OR>
</OR>
</OR>
在我以前的语法中,我曾经通过这样的方式实现这一点:
operatorOr << (Group(
operatorAnd + Suppress(Keyword("OR", caseless=True)) + operatorOr
).setResultsName("OR") | operatorAnd)
但我不知道如何将结果名称设置为由运算符及其两个参数组成的组?
我鼓励您考虑使用 类 作为解析操作,以构建操作节点树,而不是使用结果名称。
在下面的代码中,我将 UnOp 和 BinOp 类 附加到每个 infixNotation 运算符级别,这会返回具有 operator
和 operands
属性的那些 类 的实例正确分配:
class OpNode:
def __repr__(self):
return "{}({}):{!r}".format(self.__class__.__name__,
self.operator, self.operands)
class UnOp(OpNode):
def __init__(self, tokens):
self.operator = tokens[0][0]
self.operands = [tokens[0][1]]
class BinOp(OpNode):
def __init__(self, tokens):
self.operator = tokens[0][1]
self.operands = tokens[0][::2]
and_ = CaselessLiteral("and")
or_ = CaselessLiteral("or")
not_ = CaselessLiteral("not")
searchTerm = Word(alphanums) | quotedString.setParseAction(removeQuotes)
searchExpr = infixNotation(searchTerm,
[
(not_, 1, opAssoc.RIGHT, UnOp),
(and_, 2, opAssoc.LEFT, BinOp),
(or_, 2, opAssoc.LEFT, BinOp),
])
下面是一个示例字符串,显示如何返回这些节点:
test = "term1 or term2 or term3 and term4 and not term5"
print(searchExpr.parseString(test))
给出:
[BinOp(or):['term1', 'term2', BinOp(and):['term3', 'term4', UnOp(not):['term5']]]]
您可以浏览此已解析的树并根据节点类型和运算符评估不同的节点。
此外,asXML()
不是转储已解析数据的最佳工具,您最好使用 dump()
方法。
我正在尝试使用 infixNotation
(以前是 operatorPrecedence
)编写语法,但我不知道如何使用 setResultsName
。
我尝试这样做的原因是我在 searchparser 之上构建了一个用于布尔搜索查询的语法,但它遇到了 RecursionError: maximum recursion depth exceeded in comparison
用于非常长的表达式。
所以似乎通过使用 infixNotation(searchparser 没有),我可以避免 运行 进入这个错误。 所以我正在尝试使语法适应 infixNotation,但我的评估在很大程度上依赖于在结构化解析结果中包含每个运算符的名称,特别是能够轻松访问运算符的参数。
我从 pyparsing 书中给出的例子开始:
and_ = CaselessLiteral("and")
or_ = CaselessLiteral("or")
not_ = CaselessLiteral("not")
searchTerm = Word(alphanums) | quotedString.setParseAction( removeQuotes )
searchExpr = infixNotation( searchTerm,
[
(not_, 1, opAssoc.RIGHT),
(and_, 2, opAssoc.LEFT),
(or_, 2, opAssoc.LEFT),
])
那么,如何在此处设置 ParseResultName?
如果我尝试将其设置为运算符:
or_ = CaselessLiteral("or").setResultsName("OR")
此字符串 ('term1 OR term2 OR term3') 的结果 parseResult 将如下所示:
<ITEM>
<word>
<word>
<ITEM>term1</ITEM>
</word>
<OR>or</OR>
<word>
<ITEM>term2</ITEM>
</word>
<OR>or</OR>
<word>
<ITEM>term3</ITEM>
</word>
</word>
</ITEM>
这意味着所有术语和运算符都处于同一级别,而我想要这样的东西,其中术语被排列为运算符的参数:
<OR>
<OR>
<word>
<ITEM>term1</ITEM>
</word>
<OR>
<word>
<ITEM>term2</ITEM>
</word>
<word>
<ITEM>term3</ITEM>
</word>
</OR>
</OR>
</OR>
在我以前的语法中,我曾经通过这样的方式实现这一点:
operatorOr << (Group(
operatorAnd + Suppress(Keyword("OR", caseless=True)) + operatorOr
).setResultsName("OR") | operatorAnd)
但我不知道如何将结果名称设置为由运算符及其两个参数组成的组?
我鼓励您考虑使用 类 作为解析操作,以构建操作节点树,而不是使用结果名称。
在下面的代码中,我将 UnOp 和 BinOp 类 附加到每个 infixNotation 运算符级别,这会返回具有 operator
和 operands
属性的那些 类 的实例正确分配:
class OpNode:
def __repr__(self):
return "{}({}):{!r}".format(self.__class__.__name__,
self.operator, self.operands)
class UnOp(OpNode):
def __init__(self, tokens):
self.operator = tokens[0][0]
self.operands = [tokens[0][1]]
class BinOp(OpNode):
def __init__(self, tokens):
self.operator = tokens[0][1]
self.operands = tokens[0][::2]
and_ = CaselessLiteral("and")
or_ = CaselessLiteral("or")
not_ = CaselessLiteral("not")
searchTerm = Word(alphanums) | quotedString.setParseAction(removeQuotes)
searchExpr = infixNotation(searchTerm,
[
(not_, 1, opAssoc.RIGHT, UnOp),
(and_, 2, opAssoc.LEFT, BinOp),
(or_, 2, opAssoc.LEFT, BinOp),
])
下面是一个示例字符串,显示如何返回这些节点:
test = "term1 or term2 or term3 and term4 and not term5"
print(searchExpr.parseString(test))
给出:
[BinOp(or):['term1', 'term2', BinOp(and):['term3', 'term4', UnOp(not):['term5']]]]
您可以浏览此已解析的树并根据节点类型和运算符评估不同的节点。
此外,asXML()
不是转储已解析数据的最佳工具,您最好使用 dump()
方法。