打印字符串的标记化

Print tokenization of a string

我目前将研究编程语言作为一种爱好。如果可以让 ocamllex 在找到它们时打印出它匹配的标记,这将使词法分析错误更容易调试,我偶尔只是手动将打印语句添加到我的规则中,但应该有更简单的方法来做到这一点。

所以我要问的是,给定一个 .mll 文件和一些输入,是否有自动查看相应标记的方法?

我不认为有内置的方法可以让词法分析器打印它的标记。

如果您使用 ocamlyacc,您可以在 OCAMLRUNPARAM 中设置 p 选项以查看解析器操作的踪迹。 Section 12.5 of the OCaml manual. See Section 10.2 中描述了 OCAMLRUNPARAM

如果您不介意粗略的破解,我只是写了一个小脚本 lext,它向 ocamllex 生成的输出添加跟踪:

#!/bin/sh
#
echo '
    let my_engine a b lexbuf =
        let res = Lexing.engine a b lexbuf in
        Printf.printf "Saw token [%s]'\\'n" (Lexing.lexeme lexbuf);
        res
'
sed 's/Lexing\.engine/my_engine/g' "$@"

它是这样工作的:

$ cat ab.mll
rule token = parse
    [' ' '\t'] { token lexbuf }
  | '\n'       { 1 }
  | '+'        { 2 }
  | _          { 3 }
{
    let lexbuf = Lexing.from_channel stdin in
    try
        while true do
            ignore (token lexbuf)
        done
    with _ -> exit 0
}
$ ocamllex ab.mll
5 states, 257 transitions, table size 1058 bytes
$ lext ab.ml > abtraced.ml
$ ocamlopt -o abtraced abtraced.ml
$ echo 'a+b' | abtraced
Saw token []
Saw token [a]
Saw token [+]
Saw token [b]
Saw token [
]
Saw token []