Token 前的空格和规则拆分

Question

感谢这里关于堆栈溢出的回答和几个小时的工作；），我的语法终于按预期工作了。只是有些小问题或乱七八糟的情况。

这是我的词法分析器定义：

lexer grammar dnpMDAuslagernLexer;

/*@members {
    public static final int COMMENTS = 1;
}*/

NL
    : [\r\n]
    ;

SUBHEADLINE
    : '##' (~[\r\n])+? '##'
    ;

HEADLINE
    : '#' ('\#'|~[\r\n])+? '#'
    ;

LEAD
    : '###' (~[\r\n])+? '###'
    ;

SUBHEADING
    : '####' (~[\r\n])+? '####'
    ;

CAPTION
    : '#####' (~[\r\n])+? '#####'
    ;

LISTING
    : '~~~~~' .+? '~~~~~'
    ;

ELEMENTPATH
    : '[[[[[' (~[\r\n])+? ']]]]]'
    ;

LABELREF
    : '{##' (~[\r\n])+? '##}'
    ;

LABEL
    : '{#' (~[\r\n])+? '#}'
    ;

ITALIC
    : '*' (~[\r\n])+? '*'
    ;

SINGLE_COMMENT
    : '//' (~[\r\n])+ -> channel(1)
    ;

MULTI_COMMENT
    : '/*' .*? '*/' -> channel(1)
    ;

STAR
    : '*'
    ;

BRACE_OPEN
    : '{'
    ;

TEXT
    : (~[\r\n*{])+
    ;

下面是解析器的定义：

parser grammar dnpMDAuslagernParser;

options { tokenVocab=dnpMDAuslagernLexer; }

dnpMD
    : head body
    ;

head
    : subheadline headline lead
    ;

subheadline
    : SUBHEADLINE NL+
    ;

headline
    : HEADLINE NL+
    ;

lead
    : LEAD
    ;

subheading
    : SUBHEADING
    ;

caption
    : CAPTION
    ;

listing
    : LISTING (NL listingPath)? (NL label)? NL caption
    ;

image
    : caption (NL label)? (NL imagePath)?
    ;

listingPath
    : ELEMENTPATH
    ;

imagePath
    : ELEMENTPATH
    ;

labelRef
    : LABELREF
    ;

label
    : LABEL
    ;

italic
    : ITALIC
    ;

singleComment
    : SINGLE_COMMENT
    ;

multiComment
    : MULTI_COMMENT
    ;

paragraph
    : TEXT? italic TEXT?
    | TEXT? STAR TEXT?
    | TEXT? labelRef TEXT?
    | TEXT? BRACE_OPEN TEXT?
    | TEXT? LABEL TEXT?
    | ELEMENTPATH
    | TEXT
    ;

newlines
    : NL+
    ;

body
    : bodyElements+
    ;

bodyElements
    : singleComment
    | multiComment
    | paragraph
    | subheading
    | listing
    | image
    | newlines
    ;

看起来词法分析器文件开头的成员定义在带有 ANTLR4 插件的 IntelliJ IDEA 中不起作用？或者我是否遗漏了定义中的某些内容。

在标题的定义中，我试图允许以白色开头 space。但无论我尝试什么，解析过程都会失败。我添加了一个 WS 令牌 [ \t]+ 但是当我将 WS 令牌添加到规则时它被忽略了。不太确定到底是什么失败了。

但更大的问题是段落规则。有很多子规则，它们试图匹配段落的元素。例如文本或其他一些东西。

我想将此段落用作一个块，以便我知道在解析过程之后，我可以在该段落周围添加一个 div 或其他内容。因为这一段里的一切都是一组文字。段落本身用换行符分隔。效果很好。

但在 IntelliJ IDEA 树视图中，我可以在树中看到不同的段落条目。例如paragraph:1、paragraph:2等。那是因为规则不同。

有没有一种方法可以让解析器树中有一个段落条目并且所有条目都包含在它下面的文本中？只是按换行符分开？

我尝试将另一条规则作为段落的顶部规则，但它不起作用。 :(

Answer 1

可以使用以下规则避免不同的段落条目：

paragraph
    : (TEXT? italic TEXT?
    | TEXT? STAR TEXT?
    | TEXT? labelRef TEXT?
    | TEXT? BRACE_OPEN TEXT?
    | TEXT? LABEL TEXT?
    | ELEMENTPATH
    | TEXT
    )+
    ;

我想用于不同频道的成员定义不应该那样做。新频道定义更好：

channels {
    COMMENTS
}

这与语言无关并且效果很好。

Token 前的空格和规则拆分

Whitespace in front of a Token and rule splitting

parsing

antlr4