如何为自定义文件格式定义 ctag 解析器
How to define ctag parser for custom file format
我经常使用没有 Ctags 解析器的文件格式。我想为它写一个解析器,但我不确定如何。文件格式不像计算机语言那样有关键字,而是您在文件中的位置取决于文件中每一行的最后 10 列的内容。 (抱歉,ENDF format 创建于 1960 年代。)
如何创建依赖于特定列内容的新解析器?
这是该文件的一个简短示例,但它仍然包含足够的信息来了解我正在尝试做的事情的要点:
MMMMFFTTT
33 856 176 17434 1451
34 2 155 17434 1451
34 51 115 17434 1451
0.000000+0 0.000000+0 0 0 0 07434 1 0
0.000000+0 0.000000+0 0 0 0 07434 0 0
7.418300+4 1.813790+2 0 0 1 07434 2151
7.418300+4 1.000000+0 0 0 2 07434 2151
1.000000-5 5.000000+3 1 7 0 17434 2151
0.000000+0 0.000000+0 0 3 5 07434 2151
0.000000+0 0.000000+0 2 0 24 47434 2151
7.418300+4 1.813790+2 0 0 0 07434 3 28
-7.222000+6-7.222000+6 0 0 1 397434 3 28
39 2 7434 3 28
7.261820+6 0.000000+0 9.300000+6 0.000000+0 9.600000+6 2.18585-137434 3 28
1.000000+7 5.01372-13 1.050000+7 1.32071-11 1.100000+7 8.70475-107434 3 28
0.000000+0 0.000000+0 0 0 0 07434 3 0
7.418300+4 1.813790+2 0 0 0 07434 3 37
-2.093600+7-2.093600+7 0 0 1 207434 3 37
2.105140+7 0.000000+0 2.200000+7 7.150990-5 2.400000+7 2.707920-27434 3 37
1.300000+8 5.411910-2 1.500000+8 3.895580-2 7434 3 37
0.000000+0 0.000000+0 0 0 0 07434 3 0
7.418300+4 1.813790+2 0 0 0 07434 3 41
-1.328500+7-1.328500+7 0 0 1 267434 3 41
26 2 7434 3 41
1.335820+7 0.000000+0 1.550000+7 0.000000+0 1.600000+7 2.56183-147434 3 41
1.700000+7 9.60380-12 1.800000+7 3.02742-10 1.900000+7 1.474340-77434 3 41
1.300000+8 1.582280-2 1.500000+8 1.154350-2 7434 3 41
我已将列标记为 MMMM
、FF
和 TT
。当这些变化是当我需要一个“标签”(松散地使用这个术语)来告诉我它已经改变的时候。请注意,这是(某种程度上)嵌套的,每个 FF
中有许多 TT
,每个 MMMM
.
中有许多 FF
我不确定标签输出应该是什么样子。我从来没有看过标签输出;我一直依赖别人为我解析它们。请在我尝试学习时帮助这个新手。
几年前我为 Vim 编写了一个语法分析器,希望这可能是一个很好的补充。
我的回答假设您使用 Universal-ctags (https://ctags.io).
希望你了解ctags的基本概念:种类和字段。如果您不知道,请参阅 https://docs.ctags.io/en/latest/man/ctags.1.html#tag-entries。
希望你知道ctags的输出格式。不知道的请看https://docs.ctags.io/en/latest/man/tags.5.html
有多种方法可以在 ctags 中实现解析器。在这种情况下,您可能希望用 line-oriented 方式用 C 语言编写解析器。
33 856 176 17434 1451
34 2 155 17434 1451
...
您可能认为第一行的 7434 被标记为 mmmm。
但是,您可能不会想到第二行的 7434。
解析器必须能够跟踪输入的状态;解析器不应制作名称已被标记的标记。
这意味着您不能使用正则表达式在 .ctags 中为语言定义解析器。你可能需要用 C 来写。
输入是面向行的。所以你可以使用 readLineFromInputFile 函数。它是面向行的解析器的核心。
https://github.com/masatake/ctags/commit/e8e0015393ae7a3b447ee886bd0884f45d11ced2 是说明如何使用 readLineFromInputFile 的可运行示例。
在示例中,ctags 发出以下标签输出:
$ ctags --options=NONE --list-kinds=ENDF
m materials
f material files
t material subdivisions
$ ctags --options=NONE --sort=no -o - input.endf
434 input.endf /^ 33 856 176 17434 1451$/;" m
14 input.endf /^ 33 856 176 17434 1451$/;" f mat:434
51 input.endf /^ 33 856 176 17434 1451$/;" t mf:434 14
...
我经常使用没有 Ctags 解析器的文件格式。我想为它写一个解析器,但我不确定如何。文件格式不像计算机语言那样有关键字,而是您在文件中的位置取决于文件中每一行的最后 10 列的内容。 (抱歉,ENDF format 创建于 1960 年代。)
如何创建依赖于特定列内容的新解析器?
这是该文件的一个简短示例,但它仍然包含足够的信息来了解我正在尝试做的事情的要点:
MMMMFFTTT
33 856 176 17434 1451
34 2 155 17434 1451
34 51 115 17434 1451
0.000000+0 0.000000+0 0 0 0 07434 1 0
0.000000+0 0.000000+0 0 0 0 07434 0 0
7.418300+4 1.813790+2 0 0 1 07434 2151
7.418300+4 1.000000+0 0 0 2 07434 2151
1.000000-5 5.000000+3 1 7 0 17434 2151
0.000000+0 0.000000+0 0 3 5 07434 2151
0.000000+0 0.000000+0 2 0 24 47434 2151
7.418300+4 1.813790+2 0 0 0 07434 3 28
-7.222000+6-7.222000+6 0 0 1 397434 3 28
39 2 7434 3 28
7.261820+6 0.000000+0 9.300000+6 0.000000+0 9.600000+6 2.18585-137434 3 28
1.000000+7 5.01372-13 1.050000+7 1.32071-11 1.100000+7 8.70475-107434 3 28
0.000000+0 0.000000+0 0 0 0 07434 3 0
7.418300+4 1.813790+2 0 0 0 07434 3 37
-2.093600+7-2.093600+7 0 0 1 207434 3 37
2.105140+7 0.000000+0 2.200000+7 7.150990-5 2.400000+7 2.707920-27434 3 37
1.300000+8 5.411910-2 1.500000+8 3.895580-2 7434 3 37
0.000000+0 0.000000+0 0 0 0 07434 3 0
7.418300+4 1.813790+2 0 0 0 07434 3 41
-1.328500+7-1.328500+7 0 0 1 267434 3 41
26 2 7434 3 41
1.335820+7 0.000000+0 1.550000+7 0.000000+0 1.600000+7 2.56183-147434 3 41
1.700000+7 9.60380-12 1.800000+7 3.02742-10 1.900000+7 1.474340-77434 3 41
1.300000+8 1.582280-2 1.500000+8 1.154350-2 7434 3 41
我已将列标记为 MMMM
、FF
和 TT
。当这些变化是当我需要一个“标签”(松散地使用这个术语)来告诉我它已经改变的时候。请注意,这是(某种程度上)嵌套的,每个 FF
中有许多 TT
,每个 MMMM
.
FF
我不确定标签输出应该是什么样子。我从来没有看过标签输出;我一直依赖别人为我解析它们。请在我尝试学习时帮助这个新手。
几年前我为 Vim 编写了一个语法分析器,希望这可能是一个很好的补充。
我的回答假设您使用 Universal-ctags (https://ctags.io).
希望你了解ctags的基本概念:种类和字段。如果您不知道,请参阅 https://docs.ctags.io/en/latest/man/ctags.1.html#tag-entries。
希望你知道ctags的输出格式。不知道的请看https://docs.ctags.io/en/latest/man/tags.5.html
有多种方法可以在 ctags 中实现解析器。在这种情况下,您可能希望用 line-oriented 方式用 C 语言编写解析器。
33 856 176 17434 1451
34 2 155 17434 1451
...
您可能认为第一行的 7434 被标记为 mmmm。 但是,您可能不会想到第二行的 7434。 解析器必须能够跟踪输入的状态;解析器不应制作名称已被标记的标记。 这意味着您不能使用正则表达式在 .ctags 中为语言定义解析器。你可能需要用 C 来写。
输入是面向行的。所以你可以使用 readLineFromInputFile 函数。它是面向行的解析器的核心。
https://github.com/masatake/ctags/commit/e8e0015393ae7a3b447ee886bd0884f45d11ced2 是说明如何使用 readLineFromInputFile 的可运行示例。
在示例中,ctags 发出以下标签输出:
$ ctags --options=NONE --list-kinds=ENDF
m materials
f material files
t material subdivisions
$ ctags --options=NONE --sort=no -o - input.endf
434 input.endf /^ 33 856 176 17434 1451$/;" m
14 input.endf /^ 33 856 176 17434 1451$/;" f mat:434
51 input.endf /^ 33 856 176 17434 1451$/;" t mf:434 14
...