如何使用 clang 从源文件中提取 headers?

How to extract headers from source file using clang?

我正在使用 clang ast matcher 从源文件中提取一些信息。现在,我还想知道源文件正在使用的 header 和依赖项 header 的列表。例如,源文件 abc.c 具有以下 header:

#include <def.h>
//#include <def_private.h>

在 clang 匹配器期间,我需要确保 clang 知道 def.h,它位于同一目录中。 def.h 包括以下 header:

#include <iostream.h>
#include <string.h>
#include <float.h>
#include <math.h>
/*#include <boost>
* #inclde <fstream>*/

我使用 ast 匹配器从 abc.c 中提取或识别信息。现在,我想提取所有 header 或包含。这应该包括所有这些:

#include <def.h>
#include <iostream.h>
#include <string.h>
#include <float.h>
#include <math.h>

我做了一些在线研究来做到这一点,不幸的是所有这些都涉及正则表达式 () or how to do in visual studio (Displaying the #include hierarchy for a C++ file in Visual Studio)。

我想知道是否可以使用 clang。另外,请让我知道是否有任何其他方法以编程方式提取 headers 而不仅仅是使用正则表达式。

OP 说 以编程方式提取 header 的任何其他方法不仅仅是使用正则表达式。 ....没有 clang 就可以了.

我们都同意正则表达式根本无法做到这一点。您需要将源文本解析为树,并在树中显式显示 #include 指令。

我不是 Clang 专家。我怀疑它的内部树反映了预处理的源代码,所以 #include 结构已经消失了。那么问题就是坚持预处理源文本来解析它。

我们的 DMS Software Reengineering Toolkit with its C++17 capable parser 可以在不扩展指令的情况下处理此类解析。它可以通过两种方式做到这一点:a) 在预处理器指令相对于源代码 "well structured" 的情况下,C++ 前端可以配置为捕获解析树,指令也在适当的位置被解析为树;这在实践中非常有效,但有时不得不 hand-patch 一个特别丑陋的条件或宏调用以使其“结构良好,或者 b) 解析捕获以(几乎)任意方式放置的预处理器指令;这捕获这些指令有时会以自动复制少量代码为代价,从而在本质上导致案例 a 所喜欢的良好重组)。

无论哪种情况,#include 指令现在都明确出现在 AST 中,包含的文件几乎构建为表示包含文件的辅助树。通过寻找此类显式包含节点的树遍历很容易找到此类树节点。 DMS 的 ASTInterface 提供 ScanTree 来遍历节点并在某些提供的谓词对节点为真时采取行动;检查#include 节点很容易。值得注意的是,因为条件指令也被保留,通过从 #include onr 向上走树可以构造实际包含该包含文件的条件。

当然,header 文件本身也被解析,生成一棵树。任何包含它已出现在其树 body 中。必须对这些树中的每一棵树进行 运行 ScanTree 才能收集所有包含项。

OP 没有说他想用#includes 做什么。 DMS 提供了很多解析之外的功能来帮助 OP 实现她的目的,包括符号 table 构造、控制和数据流分析、树模式匹配、用源语言 (C++) 语法表示的 tree-to-tree 转换,最后从修改后的语法树(重新)生成源代码。