典型的 C++ 编译器处理哪些工作?
What jobs does a typical C++ compiler handle?
在对编译器及其工作原理进行了一些研究之后,我了解到该过程通常分为 4 个步骤:预处理器、编译器、汇编器和链接器。我设想这些步骤的方式是每个步骤都是它自己的独立程序;预处理器程序、编译程序、汇编程序和链接程序。然而,您了解到有时创建汇编代码和生成目标文件的过程全部由编译器程序处理,有时则不是。它似乎在很大程度上取决于所使用的上下文和编程语言。那么我的问题是,将 C++ 源代码翻译成机器代码的典型翻译过程是如何分解的?
- 预处理器是一个独立于编译器的程序吗?或者该过程通常是编译器程序的一部分?
- 编译器通常负责什么?生成汇编代码然后转换为机器代码?
- 链接器是编译器完成后 运行 自己的独立程序吗?
旁注:我的问题与其他 C++ 编译器线程不同,因为我不仅要问编译器如何工作,还要问某些其他进程(例如链接)是否有自己的可执行程序,或者它们是否通常内置于一个编译器程序。
所有现代编译器(至少是 gcc 和 clang,但我怀疑其他编译器有很大不同)都将预处理和编译器作为一个可执行文件。这主要是因为编译器希望能够生成良好的错误消息[指向正确的行和列,当涉及到宏时,可以说 "Called from macro FOO(x)"],理解 "what file we're in" 更容易编译器具有要查看的实际源代码,而不是预处理代码。
linker 通常是一个单独的程序,汇编程序仅用于内联汇编代码[通常作为编译器的一个集成部分] - 否则,编译器将直接生成机器码而不使用汇编程序 [至少在 LLVM 中是这样,这是我最了解的编译器]。因此,编译器会生成一个完整的目标文件。
如果您有正确的选项,将调用 linker,但它是一个单独的可执行文件,它将 link 目标文件连同运行时库和启动代码 "before main"(全局对象构造,类似的还有"preparing to call main")。这将生成可执行文件。
使用其他选项时,编译器将只生成一个目标文件,或者以符号形式生成的机器代码的反汇编(-S
选项)。
负责代码生成的编译器后端部分通常还处理优化和各种代码转换以帮助优化阶段——例如 Clang + LLVM 将产生 "uniform" 循环,无论您使用 while
、for
还是 goto
进行循环。
这有助于更高级的阶段不必识别许多不同形式的循环,并允许编译器生成 "good" 代码,而不管程序员如何形成循环。 [当然,如果你让它足够复杂,编译器可能不会完全弄清楚你的循环是如何工作的,也不会优化得很好,但是对于基本形式之间的直接转换,它会做同样的最终代码生成,不管来源的样子]。
在对编译器及其工作原理进行了一些研究之后,我了解到该过程通常分为 4 个步骤:预处理器、编译器、汇编器和链接器。我设想这些步骤的方式是每个步骤都是它自己的独立程序;预处理器程序、编译程序、汇编程序和链接程序。然而,您了解到有时创建汇编代码和生成目标文件的过程全部由编译器程序处理,有时则不是。它似乎在很大程度上取决于所使用的上下文和编程语言。那么我的问题是,将 C++ 源代码翻译成机器代码的典型翻译过程是如何分解的?
- 预处理器是一个独立于编译器的程序吗?或者该过程通常是编译器程序的一部分?
- 编译器通常负责什么?生成汇编代码然后转换为机器代码?
- 链接器是编译器完成后 运行 自己的独立程序吗?
旁注:我的问题与其他 C++ 编译器线程不同,因为我不仅要问编译器如何工作,还要问某些其他进程(例如链接)是否有自己的可执行程序,或者它们是否通常内置于一个编译器程序。
所有现代编译器(至少是 gcc 和 clang,但我怀疑其他编译器有很大不同)都将预处理和编译器作为一个可执行文件。这主要是因为编译器希望能够生成良好的错误消息[指向正确的行和列,当涉及到宏时,可以说 "Called from macro FOO(x)"],理解 "what file we're in" 更容易编译器具有要查看的实际源代码,而不是预处理代码。
linker 通常是一个单独的程序,汇编程序仅用于内联汇编代码[通常作为编译器的一个集成部分] - 否则,编译器将直接生成机器码而不使用汇编程序 [至少在 LLVM 中是这样,这是我最了解的编译器]。因此,编译器会生成一个完整的目标文件。
如果您有正确的选项,将调用 linker,但它是一个单独的可执行文件,它将 link 目标文件连同运行时库和启动代码 "before main"(全局对象构造,类似的还有"preparing to call main")。这将生成可执行文件。
使用其他选项时,编译器将只生成一个目标文件,或者以符号形式生成的机器代码的反汇编(-S
选项)。
负责代码生成的编译器后端部分通常还处理优化和各种代码转换以帮助优化阶段——例如 Clang + LLVM 将产生 "uniform" 循环,无论您使用 while
、for
还是 goto
进行循环。
这有助于更高级的阶段不必识别许多不同形式的循环,并允许编译器生成 "good" 代码,而不管程序员如何形成循环。 [当然,如果你让它足够复杂,编译器可能不会完全弄清楚你的循环是如何工作的,也不会优化得很好,但是对于基本形式之间的直接转换,它会做同样的最终代码生成,不管来源的样子]。