了解 CPU 流水线阶段与指令吞吐量
Understanding CPU pipeline stages vs. Instruction throughput
我缺少一些基本的东西。 CPU 流水线:在基本层面上,为什么指令需要不同数量的时钟周期才能完成,为什么有些指令在多级中只需要 1 个周期 CPU?
除了显而易见的 "different instructions require a different amount of work to complete",听我说完...
考虑具有大约 14 级流水线的 i7。这需要 14 个时钟周期才能完成 运行-through。 AFAIK,这应该意味着整个流水线有 14 个时钟的延迟。然而事实并非如此。
XOR 在 1 个周期内完成并有 1 个周期的延迟,表明它没有经过所有 14 个阶段。 BSR 有 3 个周期的延迟,但每个周期有 1 个吞吐量。 AAM 的延迟为 20 个周期(多于阶段数),吞吐量为 8(在 Ivy Bridge 上)。
有些指令不能每个时钟都发出,但只需不到 14 个时钟即可完成。
我知道多个执行单元。我不明白延迟和吞吐量方面的指令长度与管道阶段数有何关系。
I'm missing something fundamental re. CPU pipelines: at a basic level, why do instructions take differing numbers of clock cycles to complete and how come some instructions only take 1 cycle in a multi-stage CPU?
因为我们感兴趣的是指令之间的速度,而不是单个指令的开始到结束时间。
Besides the obvious of "different instructions require a different amount of work to complete", hear me out...
嗯,这就是为什么不同指令具有不同延迟的关键答案。
Consider an i7 with an approx 14 stage pipeline. That takes 14 clock cycles to complete a run-through. AFAIK, that should mean the entire pipeline has a latency of 14 clocks. Yet this isn't the case.
这是正确的,尽管这不是一个特别有意义的数字。例如,为什么我们关心 CPU 完全完成一条指令需要多长时间?那基本没有效果。
An XOR completes in 1 cycle and has a latency of 1 cycle, indicating it doesn't go through all 14 stages. BSR has a latency of 3 cycles, but a throughput of 1 per cycle. AAM has a latency of 20 cycles (more that the stage count) and a throughput of 8 (on an Ivy Bridge).
这只是一堆误会。 XOR 将一个延迟周期引入依赖链。也就是说,如果我执行 12 条指令,每条指令都修改前一条指令的值,然后添加一个 XOR 作为第 13 条指令,那么它将多花费一个周期。这就是延迟的意思。
Some instructions cannot be issued every clock, yet take less than 14 clocks to complete.
没错。那么?
I know about the multiple execution units. I don't understand how the length of instructions in terms of latency and throughput relate to the number of pipline stages.
他们没有。为什么要有任何联系?假设在流水线的开头有 14 个额外的阶段。为什么这会影响延迟或吞吐量?这只是意味着一切都在 14 个时钟周期后发生,但仍以相同的速率发生。 (尽管它可能会影响错误预测分支和其他事情的成本。)
我认为现有答案中缺少的是 "bypass" 或 "forwarding" 数据路径的存在。为简单起见,让我们坚持使用 MIPS 5 级流水线。每条指令从诞生到死亡需要 5 个周期——获取、解码、执行、存储、写回。这就是处理一条指令所需要的时间。
您想知道一条指令将其结果传递给从属指令需要多长时间。假设您有两个连续的 ADD 指令,并且存在通过 R1 的依赖关系:
ADD R1, R2, R3
ADD R4, R1, R5
如果没有转发路径,我们必须将第二条指令暂停多个周期(2 或 3 取决于回写的工作方式),以便第一条指令可以在执行之前将其结果存储到寄存器文件中第二个读取它作为解码阶段的输入。
但是,存在允许从管道中挑选出有效结果(但尚未写回的结果)的转发路径。因此,假设第一个 ADD 在解码中从寄存器文件中获取所有输入。第二个将从寄存器文件中取出 R5,但它会在执行阶段后从流水线寄存器中取出 R1。换句话说,我们在一个周期后将 ALU 的输出路由回其输入。
无序处理器无处不在地使用转发。他们将有许多不同的功能单元,这些单元有很多不同的延迟。例如,ADD 和 AND 通常需要一个周期(做数学运算,抛开之前和之后的所有流水线阶段),MUL 大约需要 4 个周期,浮点运算需要很多周期,内存访问具有可变延迟(由于缓存未命中)等
通过使用转发,我们可以将指令的关键路径限制为仅执行单元的延迟,而其他所有内容(获取、解码、退出)都在关键路径之外。指令被解码并转储到指令队列中,等待其他执行指令产生它们的输入。当一条指令的依赖性得到满足时,它就可以开始执行了。
让我们考虑这个例子
MUL R1,R5,R6
ADD R2,R1,R3
AND R7,R2,R8
我将尝试绘制一条时间线,显示这些指令在管道中的流动。
MUL FDIXXXXWR
ADD FDIIIIXWR
AND FDIIIIXWR
键:
F - Fetch
D - Decode
I - Instruction queue (IQ)
X - execute
W - writeback/forward/bypass
R - retire
因此,如您所见,乘法指令的总生命周期为 9 个周期。但是 MUL 和 ADD 的执行有重叠,因为处理器是流水线的。当 ADD 进入 IQ 时,它必须等待其输入 (R1),同样依赖于 ADD 结果的 AND (R2) 也是如此。我们关心的不是 MUL 总共存活了多长时间,而是任何依赖指令必须等待多长时间。这是它的有效延迟,即 4 个周期。正如您所看到的,一旦 ADD 执行,依赖的 AND 就可以在下一个循环中执行,再次由于转发。
我缺少一些基本的东西。 CPU 流水线:在基本层面上,为什么指令需要不同数量的时钟周期才能完成,为什么有些指令在多级中只需要 1 个周期 CPU?
除了显而易见的 "different instructions require a different amount of work to complete",听我说完...
考虑具有大约 14 级流水线的 i7。这需要 14 个时钟周期才能完成 运行-through。 AFAIK,这应该意味着整个流水线有 14 个时钟的延迟。然而事实并非如此。
XOR 在 1 个周期内完成并有 1 个周期的延迟,表明它没有经过所有 14 个阶段。 BSR 有 3 个周期的延迟,但每个周期有 1 个吞吐量。 AAM 的延迟为 20 个周期(多于阶段数),吞吐量为 8(在 Ivy Bridge 上)。
有些指令不能每个时钟都发出,但只需不到 14 个时钟即可完成。
我知道多个执行单元。我不明白延迟和吞吐量方面的指令长度与管道阶段数有何关系。
I'm missing something fundamental re. CPU pipelines: at a basic level, why do instructions take differing numbers of clock cycles to complete and how come some instructions only take 1 cycle in a multi-stage CPU?
因为我们感兴趣的是指令之间的速度,而不是单个指令的开始到结束时间。
Besides the obvious of "different instructions require a different amount of work to complete", hear me out...
嗯,这就是为什么不同指令具有不同延迟的关键答案。
Consider an i7 with an approx 14 stage pipeline. That takes 14 clock cycles to complete a run-through. AFAIK, that should mean the entire pipeline has a latency of 14 clocks. Yet this isn't the case.
这是正确的,尽管这不是一个特别有意义的数字。例如,为什么我们关心 CPU 完全完成一条指令需要多长时间?那基本没有效果。
An XOR completes in 1 cycle and has a latency of 1 cycle, indicating it doesn't go through all 14 stages. BSR has a latency of 3 cycles, but a throughput of 1 per cycle. AAM has a latency of 20 cycles (more that the stage count) and a throughput of 8 (on an Ivy Bridge).
这只是一堆误会。 XOR 将一个延迟周期引入依赖链。也就是说,如果我执行 12 条指令,每条指令都修改前一条指令的值,然后添加一个 XOR 作为第 13 条指令,那么它将多花费一个周期。这就是延迟的意思。
Some instructions cannot be issued every clock, yet take less than 14 clocks to complete.
没错。那么?
I know about the multiple execution units. I don't understand how the length of instructions in terms of latency and throughput relate to the number of pipline stages.
他们没有。为什么要有任何联系?假设在流水线的开头有 14 个额外的阶段。为什么这会影响延迟或吞吐量?这只是意味着一切都在 14 个时钟周期后发生,但仍以相同的速率发生。 (尽管它可能会影响错误预测分支和其他事情的成本。)
我认为现有答案中缺少的是 "bypass" 或 "forwarding" 数据路径的存在。为简单起见,让我们坚持使用 MIPS 5 级流水线。每条指令从诞生到死亡需要 5 个周期——获取、解码、执行、存储、写回。这就是处理一条指令所需要的时间。
您想知道一条指令将其结果传递给从属指令需要多长时间。假设您有两个连续的 ADD 指令,并且存在通过 R1 的依赖关系:
ADD R1, R2, R3
ADD R4, R1, R5
如果没有转发路径,我们必须将第二条指令暂停多个周期(2 或 3 取决于回写的工作方式),以便第一条指令可以在执行之前将其结果存储到寄存器文件中第二个读取它作为解码阶段的输入。
但是,存在允许从管道中挑选出有效结果(但尚未写回的结果)的转发路径。因此,假设第一个 ADD 在解码中从寄存器文件中获取所有输入。第二个将从寄存器文件中取出 R5,但它会在执行阶段后从流水线寄存器中取出 R1。换句话说,我们在一个周期后将 ALU 的输出路由回其输入。
无序处理器无处不在地使用转发。他们将有许多不同的功能单元,这些单元有很多不同的延迟。例如,ADD 和 AND 通常需要一个周期(做数学运算,抛开之前和之后的所有流水线阶段),MUL 大约需要 4 个周期,浮点运算需要很多周期,内存访问具有可变延迟(由于缓存未命中)等
通过使用转发,我们可以将指令的关键路径限制为仅执行单元的延迟,而其他所有内容(获取、解码、退出)都在关键路径之外。指令被解码并转储到指令队列中,等待其他执行指令产生它们的输入。当一条指令的依赖性得到满足时,它就可以开始执行了。
让我们考虑这个例子
MUL R1,R5,R6
ADD R2,R1,R3
AND R7,R2,R8
我将尝试绘制一条时间线,显示这些指令在管道中的流动。
MUL FDIXXXXWR
ADD FDIIIIXWR
AND FDIIIIXWR
键:
F - Fetch
D - Decode
I - Instruction queue (IQ)
X - execute
W - writeback/forward/bypass
R - retire
因此,如您所见,乘法指令的总生命周期为 9 个周期。但是 MUL 和 ADD 的执行有重叠,因为处理器是流水线的。当 ADD 进入 IQ 时,它必须等待其输入 (R1),同样依赖于 ADD 结果的 AND (R2) 也是如此。我们关心的不是 MUL 总共存活了多长时间,而是任何依赖指令必须等待多长时间。这是它的有效延迟,即 4 个周期。正如您所看到的,一旦 ADD 执行,依赖的 AND 就可以在下一个循环中执行,再次由于转发。