为什么 Parsimonious 以 IncompleteParseError 拒绝我的输入?
Why is Parsimonious rejecting my input with an IncompleteParseError?
我一直在尝试为我一直在设计的语言制定基本框架,我正在 尝试 使用 Parsimonious 来完成为我解析。截至目前,我已经声明了以下语法:
grammar = Grammar(
"""
program = expr*
expr = _ "{" lvalue (rvalue / expr)* "}" _
lvalue = _ ~"[a-z0-9\-]+" _
rvalue = _ ~".+" _
_ = ~"[\n\s]*"
"""
)
当我尝试输出像 "{ do-something some-argument }"
:
这样的简单输入字符串的结果 AST
print(grammar.parse("{ do-something some-argument }"))
Parsimonious 决定断然拒绝它,然后给我这个有点神秘的错误:
Traceback (most recent call last):
File "tests.py", line 13, in <module>
print(grammar.parse("{ do-something some-argument }"))
File "/usr/local/lib/python2.7/dist-packages/parsimonious/grammar.py", line 112, in parse
return self.default_rule.parse(text, pos=pos)
File "/usr/local/lib/python2.7/dist-packages/parsimonious/expressions.py", line 109, in parse
raise IncompleteParseError(text, node.end, self)
parsimonious.exceptions.IncompleteParseError: Rule 'program' matched in its entirety, but it didn't consume all the text. The non-matching portion of the text begins with '{ do-something some-' (line 1, column 1).
起初我认为这可能是与我的空白规则有关的问题,_
,但在尝试删除某些地方的空白规则失败后,我仍然遇到同样的错误.
我试过在线搜索,但我发现的似乎是远程相关的是 this question,这对我没有任何帮助。
我的语法有问题吗?我没有以正确的方式解析输入吗?如果有人对此有可能的解决方案,将不胜感激。
我远不是 Parsimonious 方面的专家,但我认为问题在于 ~".+"
正在贪婪地匹配输入字符串的全部剩余部分,没有留下任何东西来匹配产生式的其余部分。我最初通过将 rvalue
的正则表达式更改为 ~"[a-z0-9\-]+"
来测试这个想法,与 lvalue
的正则表达式相同。现在它解析,并(令人惊叹地)通过上下文区分两个相同定义的标记 lvalue
和 rvalue
。
from parsimonious.grammar import Grammar
grammar = Grammar(
"""
program = expr*
expr = _ "{" lvalue (rvalue / expr)* "}" _
lvalue = _ ~"[a-z0-9\-]+" _
rvalue = _ ~"[a-z0-9\-]+" _
_ = ~"[\n\s]*"
"""
)
print(grammar.parse( "{ do-something some-argument }"))
如果你想让 rvalue
匹配任何非空白字符序列,你需要更像这样的东西:
rvalue = _ ~"[^\s\n]+" _
但是哎呀!
{ foo bar }
"}"
是一个右大括号,但它也是一个或多个非空白字符的序列。是 "}"
还是 rvalue
?语法说下一个标记可以是其中之一。其中一种解释是可解析的,而另一种则不是,但 Parsimonious 只是说它是菠菜,见鬼去吧。我不知道解析专家是否会认为这是解决歧义的合法方法(例如,这样的语法可能会导致 both 解析的两种可能解释的情况),或者如何切实可行。无论如何,Parsimonious 不会做出这样的决定。
所以我们需要在大括号问题上排斥寄宿生。我认为这个语法可以满足您的需求:
from parsimonious.grammar import Grammar
grammar = Grammar(
"""
program = expr*
expr = _ "{" lvalue (expr / rvalue)* "}" _
lvalue = _ ~"[a-z0-9\-]+" _
rvalue = _ ~"[^{}\n\s]+" _
_ = ~"[\n\s]*"
"""
)
print(grammar.match( "{ do-something some-argument 23423 {foo bar} &^%$ }"))
我也排除了左花括号,因为你希望这个字符串如何标记化?
{foo bar{baz poo}}
我希望
"{" "foo" "bar" "{" "baz" "poo" "}" "}"
...因为如果 "poo}"
预期标记为 "poo"
"}"
,并且 "{foo"
预期标记为 "{"
"foo"
,然后将 bar{baz
视为 "bar{baz"
或 "bar{"
"baz"
是 错乱 违反直觉的。
现在我记得我对 yacc 的强烈仇恨是如何驱使我对它着迷的。
我一直在尝试为我一直在设计的语言制定基本框架,我正在 尝试 使用 Parsimonious 来完成为我解析。截至目前,我已经声明了以下语法:
grammar = Grammar(
"""
program = expr*
expr = _ "{" lvalue (rvalue / expr)* "}" _
lvalue = _ ~"[a-z0-9\-]+" _
rvalue = _ ~".+" _
_ = ~"[\n\s]*"
"""
)
当我尝试输出像 "{ do-something some-argument }"
:
print(grammar.parse("{ do-something some-argument }"))
Parsimonious 决定断然拒绝它,然后给我这个有点神秘的错误:
Traceback (most recent call last): File "tests.py", line 13, in <module> print(grammar.parse("{ do-something some-argument }")) File "/usr/local/lib/python2.7/dist-packages/parsimonious/grammar.py", line 112, in parse return self.default_rule.parse(text, pos=pos) File "/usr/local/lib/python2.7/dist-packages/parsimonious/expressions.py", line 109, in parse raise IncompleteParseError(text, node.end, self) parsimonious.exceptions.IncompleteParseError: Rule 'program' matched in its entirety, but it didn't consume all the text. The non-matching portion of the text begins with '{ do-something some-' (line 1, column 1).
起初我认为这可能是与我的空白规则有关的问题,_
,但在尝试删除某些地方的空白规则失败后,我仍然遇到同样的错误.
我试过在线搜索,但我发现的似乎是远程相关的是 this question,这对我没有任何帮助。
我的语法有问题吗?我没有以正确的方式解析输入吗?如果有人对此有可能的解决方案,将不胜感激。
我远不是 Parsimonious 方面的专家,但我认为问题在于 ~".+"
正在贪婪地匹配输入字符串的全部剩余部分,没有留下任何东西来匹配产生式的其余部分。我最初通过将 rvalue
的正则表达式更改为 ~"[a-z0-9\-]+"
来测试这个想法,与 lvalue
的正则表达式相同。现在它解析,并(令人惊叹地)通过上下文区分两个相同定义的标记 lvalue
和 rvalue
。
from parsimonious.grammar import Grammar
grammar = Grammar(
"""
program = expr*
expr = _ "{" lvalue (rvalue / expr)* "}" _
lvalue = _ ~"[a-z0-9\-]+" _
rvalue = _ ~"[a-z0-9\-]+" _
_ = ~"[\n\s]*"
"""
)
print(grammar.parse( "{ do-something some-argument }"))
如果你想让 rvalue
匹配任何非空白字符序列,你需要更像这样的东西:
rvalue = _ ~"[^\s\n]+" _
但是哎呀!
{ foo bar }
"}"
是一个右大括号,但它也是一个或多个非空白字符的序列。是 "}"
还是 rvalue
?语法说下一个标记可以是其中之一。其中一种解释是可解析的,而另一种则不是,但 Parsimonious 只是说它是菠菜,见鬼去吧。我不知道解析专家是否会认为这是解决歧义的合法方法(例如,这样的语法可能会导致 both 解析的两种可能解释的情况),或者如何切实可行。无论如何,Parsimonious 不会做出这样的决定。
所以我们需要在大括号问题上排斥寄宿生。我认为这个语法可以满足您的需求:
from parsimonious.grammar import Grammar
grammar = Grammar(
"""
program = expr*
expr = _ "{" lvalue (expr / rvalue)* "}" _
lvalue = _ ~"[a-z0-9\-]+" _
rvalue = _ ~"[^{}\n\s]+" _
_ = ~"[\n\s]*"
"""
)
print(grammar.match( "{ do-something some-argument 23423 {foo bar} &^%$ }"))
我也排除了左花括号,因为你希望这个字符串如何标记化?
{foo bar{baz poo}}
我希望
"{" "foo" "bar" "{" "baz" "poo" "}" "}"
...因为如果 "poo}"
预期标记为 "poo"
"}"
,并且 "{foo"
预期标记为 "{"
"foo"
,然后将 bar{baz
视为 "bar{baz"
或 "bar{"
"baz"
是 错乱 违反直觉的。
现在我记得我对 yacc 的强烈仇恨是如何驱使我对它着迷的。