这是中间表示吗?

Is this an intermediate representation?

我正在研究 v8 编译器的工作原理。我读了一篇文章,其中指出源代码被标记化、解析、构造 AST,然后生成字节码 (https://medium.com/dailyjs/understanding-v8s-bytecode-317d46c94775)

这个字节码是中间表示吗?

简短回答:不。通常人们使用术语 "bytecode" 和 "intermediate representation" 表示两个不同的事物。

长答案:这有点取决于您的定义(但对于大多数定义,"no" 仍然是正确答案)。

"Bytecode" 在 V8 等虚拟机中指的是用作解释器输入的表示。您链接到的文章给出了很好的描述。

"Intermediate representation" 或 IR 通常是指编译器在内部使用的数据,作为其输入(通常是 AST = 抽象语法树,即源文本的解析版本)之间的中间步骤(因此得名) ) 及其输出(通常是机器代码或字节代码,但它可以是任何东西,如在源到源编译器中)。

所以在传统设置中,您有:

source --(parser)--> AST --(compiler front-end)--> IR --(compiler back-end)--> machine code

编译器在最终生成机器代码之前,通常会多次修改 IR,因为编译器会对它执行各种优化。也可以有几个不同的 IR;例如 V8 早期的优化编译器 ("Crankshaft") 有两个:高级 IR "Hydrogen" 和低级 IR "Lithium",而 V8 当前的优化编译器 ("Turbofan") 甚至有三:"JavaScript-level nodes"、"Simplified nodes" 和 "Machine-level nodes"。

现在,如果您想在系统的白板图中以不同的方式绘制方框,那么您可以处理源代码和机器代码之间的所有内容,而不是 "parser" 和 "compiler"作为一个大 "compiler"(作为第一步解析源代码)。在这种情况下,AST 将是一种中间表示形式。但是,如上所述,通常当人们使用术语 IR 时,他们指的是 "compiler IR",而不是 AST。

在像V8这样的虚拟机中,整个执行流水线比上面描述的要复杂。开头为:

source --(parser)--> AST --(bytecode generator)--> bytecode

此字节码主要用作 V8 解释器的输入。 作为一种优化,当 V8 决定通过优化编译器 运行 函数时,它不会再次从源代码和解析器开始,而是优化编译器使用字节码作为其输入。图表形式:

字节码--(解释器)-->程序执行

字节码--(编译器前端)-->IR--(编译器后端)-->机器码--(CPU)-->程序执行

现在这是您的观点所在的部分:因为 V8 中的字节码不仅用作解释器的输入,而且用作优化编译器的输入,并且这种感觉是从源文本到机器代码的一步,如果你想称它为一种特殊形式的中间表示,你在技术上不会错。不过,这将是一个不寻常的术语定义。当编译器理论教科书谈到"intermediate representation"时,它并不意味着"bytecode"。