如何为自定义文件格式定义 ctag 解析器

How to define ctag parser for custom file format

我经常使用没有 Ctags 解析器的文件格式。我想为它写一个解析器,但我不确定如何。文件格式不像计算机语言那样有关键字,而是您在文件中的位置取决于文件中每一行的最后 10 列的内容。 (抱歉,ENDF format 创建于 1960 年代。)

如何创建依赖于特定列内容的新解析器?

这是该文件的一个简短示例,但它仍然包含足够的信息来了解我正在尝试做的事情的要点:

                                                                  MMMMFFTTT
                               33        856        176          17434 1451
                               34          2        155          17434 1451
                               34         51        115          17434 1451
 0.000000+0 0.000000+0          0          0          0          07434 1  0
 0.000000+0 0.000000+0          0          0          0          07434 0  0
 7.418300+4 1.813790+2          0          0          1          07434 2151
 7.418300+4 1.000000+0          0          0          2          07434 2151
 1.000000-5 5.000000+3          1          7          0          17434 2151
 0.000000+0 0.000000+0          0          3          5          07434 2151
 0.000000+0 0.000000+0          2          0         24          47434 2151
 7.418300+4 1.813790+2          0          0          0          07434 3 28
-7.222000+6-7.222000+6          0          0          1         397434 3 28
         39          2                                            7434 3 28
 7.261820+6 0.000000+0 9.300000+6 0.000000+0 9.600000+6 2.18585-137434 3 28
 1.000000+7 5.01372-13 1.050000+7 1.32071-11 1.100000+7 8.70475-107434 3 28
 0.000000+0 0.000000+0          0          0          0          07434 3  0
 7.418300+4 1.813790+2          0          0          0          07434 3 37
-2.093600+7-2.093600+7          0          0          1         207434 3 37
 2.105140+7 0.000000+0 2.200000+7 7.150990-5 2.400000+7 2.707920-27434 3 37
 1.300000+8 5.411910-2 1.500000+8 3.895580-2                      7434 3 37
 0.000000+0 0.000000+0          0          0          0          07434 3  0
 7.418300+4 1.813790+2          0          0          0          07434 3 41
-1.328500+7-1.328500+7          0          0          1         267434 3 41
         26          2                                            7434 3 41
 1.335820+7 0.000000+0 1.550000+7 0.000000+0 1.600000+7 2.56183-147434 3 41
 1.700000+7 9.60380-12 1.800000+7 3.02742-10 1.900000+7 1.474340-77434 3 41
 1.300000+8 1.582280-2 1.500000+8 1.154350-2                      7434 3 41

我已将列标记为 MMMMFFTT。当这些变化是当我需要一个“标签”(松散地使用这个术语)来告诉我它已经改变的时候。请注意,这是(某种程度上)嵌套的,每个 FF 中有许多 TT,每个 MMMM.

中有许多 FF

我不确定标签输出应该是什么样子。我从来没有看过标签输出;我一直依赖别人为我解析它们。请在我尝试学习时帮助这个新手。

几年前我为 Vim 编写了一个语法分析器,希望这可能是一个很好的补充。

我的回答假设您使用 Universal-ctags (https://ctags.io).

希望你了解ctags的基本概念:种类和字段。如果您不知道,请参阅 https://docs.ctags.io/en/latest/man/ctags.1.html#tag-entries

希望你知道ctags的输出格式。不知道的请看https://docs.ctags.io/en/latest/man/tags.5.html

有多种方法可以在 ctags 中实现解析器。在这种情况下,您可能希望用 line-oriented 方式用 C 语言编写解析器。

                    33        856        176          17434 1451
                    34          2        155          17434 1451
...

您可能认为第一行的 7434 被标记为 mmmm。 但是,您可能不会想到第二行的 7434。 解析器必须能够跟踪输入的状态;解析器不应制作名称已被标记的标记。 这意味着您不能使用正则表达式在 .ctags 中为语言定义解析器。你可能需要用 C 来写。

输入是面向行的。所以你可以使用 readLineFromInputFile 函数。它是面向行的解析器的核心。

https://github.com/masatake/ctags/commit/e8e0015393ae7a3b447ee886bd0884f45d11ced2 是说明如何使用 readLineFromInputFile 的可运行示例。

在示例中,ctags 发出以下标签输出:

$ ctags --options=NONE --list-kinds=ENDF
m  materials
f  material files
t  material subdivisions

$ ctags --options=NONE  --sort=no -o - input.endf 
434     input.endf  /^                               33        856        176          17434 1451$/;"   m
14  input.endf  /^                               33        856        176          17434 1451$/;"   f   mat:434 
51  input.endf  /^                               33        856        176          17434 1451$/;"   t   mf:434 14
...