Pyparsing - 规则歧义

Pyparsing - Rule Ambiguity

我正在编写一个 Pyparsing 语法来将 Creole markup 转换为 HTML。我被卡住了,因为在尝试解析这两个结构时存在一些冲突:

图片link:{{image.jpg|标题}}
忽略格式:{{{text}}}

我解析图像 link 的方式如下(请注意,这种转换非常好):

def parse_image(s, l, t):
    try:
        link, title = t[0].split("|")
    except ValueError:
        raise ParseFatalException(s,l,"invalid image link reference: " + t[0])
    return '<img src="{0}" alt="{1}" />'.format(link, title)

image = QuotedString("{{", endQuoteChar="}}")
image.setParseAction(parse_image)

接下来,我写了一个规则,这样当遇到{{{text}}}时,只需return左括号和右括号之间的内容而不格式化它:

n = QuotedString("{{{", endQuoteChar="}}}")
n.setParseAction(lambda x: x[0])

但是,当我尝试 运行 以下测试用例时:

text = italic | bold | hr | newline | image | n
print text.transformString("{{{ //ignore formatting// }}}")

我得到以下堆栈跟踪:

Traceback (most recent call last):
File "C:\Users\User\py\kreyol\parser.py", line 36, in <module>
print text.transformString("{{{ //ignore formatting// }}}")
File "C:\Python27\lib\site-packages\pyparsing.py", line 1210, in transformString
raise exc
pyparsing.ParseFatalException: invalid image link reference: { //ignore formatting//  (at char 0), (line:1, col:1)

据我了解,解析器首先遇到 {{ 并尝试将文本解析为图像而不是没有格式化的文本。我该如何解决这个歧义?

这个表达式有问题:

text = italic | bold | hr | newline | image | n

Pyparsing 严格按照从左到右的顺序工作,没有前瞻性。使用“|”运算符,你构造一个 pyparsing MatchFirst 表达式,它将匹配所有备选方案的 first 匹配,即使后面的匹配更好。

您可以通过使用“^”运算符来更改评估以使用 "longest match":

text = italic ^ bold ^ hr ^ newline ^ image ^ n

这会降低性能,因为每个表达式都会被测试,即使不可能有更好的匹配。

一个更简单的解决方案是重新排序备选列表中的表达式:在 image 之前测试 n:

text = italic | bold | hr | newline | n | image

现在,在评估备选方案时,它会在 image 的前导 {{ 之前寻找 n 的前导 {{{

当人们定义数字术语时经常会出现这种情况,并且不小心定义了如下内容:

integer = Word(nums)
realnumber = Combine(Word(nums) + '.' + Word(nums))
number = integer | realnumber

在这种情况下,number 永远不会匹配 realnumber,因为前导整数部分将被解析为整数。与您的情况一样,解决方法是使用“^”运算符,或者只是重新排序:

number = realnumber | integer