了解自动内联:编译器何时可以内联涉及私有变量和抽象方法的方法?
Understanding automatic inlining: when can the compiler inline methods involving private variables & abstract methods?
使用 C#,但我认为这个问题也与其他(大多数与 C 相关的)语言相关。 考虑这个...
private float radius = 0.0f; // Set somewhere else
public float GetDiameter() {
return radius * 2.0f;
}
如果在其他 classes 中调用,编译器会内联吗?我认为答案当然是肯定的,但这里很混乱:radius 是私有的。所以从手动编程的角度来看,我们不可能内联这个方法,因为 radius 是私有的。
那么编译器是做什么的呢?我认为它无论如何都可以内联它,因为如果我没记错的话 'private' 'public' 等等。修饰符只影响人类编写的代码,如果需要,汇编语言可以访问它自己程序的任何部分?
好的,但是抽象呢? 考虑这个...
public abstract class Animal {
abstract public bool CanFly();
}
public class Hawk : Animal {
...
override public bool CanFly() {
if (age < 1.0f) return false; // Baby hawks can't fly yet
return true;
}
}
public class Dog : Animal {
...
override public bool CanFly() {
return false;
}
}
非动物class:
...
Animal a = GetNextAnimal();
if (a.CanFly()) {
...
这可以内联吗?我几乎可以肯定不会,因为编译器不知道使用的是哪种动物。但是如果我这样做了会怎样...
...
Animal a = new Hawk();
if (a.CanFly()) {
...
这有区别吗?如果不是,这个肯定可以吧?:
...
Hawk a = new Hawk();
if (a.CanFly()) {
...
如果我不使用上面的 bool 方法,有什么改变吗:
float animalAge = a.GetAge();
一般来说,过多的抽象 getter 和 setter 会导致性能下降吗?如果达到重要的程度,最好的解决方案是什么?
通常没有简单的方法可以预先预测一个方法是否会被内联。您必须实际编写程序并查看为其生成的机器代码。这在 C 程序中很容易做到,您可以要求编译器生成汇编代码清单(如 MSVC 的 /FA,GCC 的 -S)。
由于实时编译代码的抖动,在 .NET 中更加复杂。从技术上讲,优化器的源代码可从 CoreCLR 项目获得,但很难弄清楚它的作用,许多非常坚不可摧的 C++ 代码。您必须利用 Visual Studio 中的 "visual" 并使用调试器。
这需要一些准备工作以确保您获得实际的优化代码,它通常会禁用优化器以使调试变得容易。切换到 Release 配置并使用 Tools > Options > Debugging > General > 取消勾选 "Suppress JIT optimization" 复选框。如果你想要最佳的浮点代码,那么你总是,总是想要 64 位代码,所以使用 Project > Properties > Build 选项卡,取消勾选 "Prefer 32-bit".
并编写一个小测试程序来练习该方法。这可能很棘手,您可能很容易以根本没有代码而告终。在这种情况下很容易,Console.WriteLine() 是强制使用此方法的好方法,它不能被优化掉。所以:
class Program {
static void Main(string[] args) {
var obj = new Example();
Console.WriteLine(obj.GetDiameter());
}
}
class Example {
private float radius = 0.0f;
public float GetDiameter() {
return radius * 2.0f;
}
}
在 Main() 上设置断点并按 F5。然后使用 Debug > Windows > Disassembly 查看机器码。在我的带有 Haswell 内核(支持 AVX)的机器上,我得到:
00007FFEB9D50480 sub rsp,28h ; setup stack frame
00007FFEB9D50484 mov rcx,7FFEB9C45A78h ; rcx = typeof(Example)
00007FFEB9D5048E call 00007FFF19362530 ; rax = new Example()
00007FFEB9D50493 vmovss xmm0,dword ptr [rax+8] ; xmm0 = Example.field
00007FFEB9D50499 vmulss xmm0,xmm0,dword ptr [7FFEB9D504B0h] ; xmm0 *= 2.0
00007FFEB9D504A2 call 00007FFF01647BB0 ; Console.WriteLine()
00007FFEB9D504A7 nop ; alignment
00007FFEB9D504A8 add rsp,28h ; tear down stack frame
00007FFEB9D504AC ret
我对代码进行了注释以帮助理解它,如果您以前从未看过它可能会很神秘。但毫无疑问,您可以看出该方法已内联。没有 CALL 指令,它被内联到两条指令(VMOVSS 和 VMULSS)。
如你所料。可访问性在内联决策中没有任何作用,它是一种简单的代码提升技巧,不会改变程序的逻辑操作。它首先对 C# 编译器很重要,其次是抖动中内置的验证器,但随后作为代码生成器和优化器的关注点消失了。
对摘要做完全相同的事情 class。您会看到该方法 而不是 得到内联,需要间接 CALL 指令。即使该方法完全是空的。一些语言编译器在知道对象的类型时可以将虚拟方法调用转换为非虚拟调用,但 C# 编译器不是其中之一。抖动优化器也没有。编辑:recent work 是在去虚拟化调用上完成的。
没有内联方法还有其他原因,移动目标很难记录。但粗略地说,具有太多 MSIL、try/catch/throw、循环、CAS 要求、一些退化的结构案例、MarshalByRefObject 基类的方法将不会被内联。一定要查看实际的机器代码。
[MethodImpl(MethodImplOptions.AgressiveInlining)] 属性可以强制优化器重新考虑 MSIL 限制。 MethodImplOptions.Noinlining 有助于禁用内联,您可能希望通过这种方式获得更好的异常堆栈跟踪或减缓抖动,因为程序集可能未部署。
有关 this post 中抖动优化器执行的优化的更多信息。
使用 C#,但我认为这个问题也与其他(大多数与 C 相关的)语言相关。 考虑这个...
private float radius = 0.0f; // Set somewhere else
public float GetDiameter() {
return radius * 2.0f;
}
如果在其他 classes 中调用,编译器会内联吗?我认为答案当然是肯定的,但这里很混乱:radius 是私有的。所以从手动编程的角度来看,我们不可能内联这个方法,因为 radius 是私有的。
那么编译器是做什么的呢?我认为它无论如何都可以内联它,因为如果我没记错的话 'private' 'public' 等等。修饰符只影响人类编写的代码,如果需要,汇编语言可以访问它自己程序的任何部分?
好的,但是抽象呢? 考虑这个...
public abstract class Animal {
abstract public bool CanFly();
}
public class Hawk : Animal {
...
override public bool CanFly() {
if (age < 1.0f) return false; // Baby hawks can't fly yet
return true;
}
}
public class Dog : Animal {
...
override public bool CanFly() {
return false;
}
}
非动物class:
...
Animal a = GetNextAnimal();
if (a.CanFly()) {
...
这可以内联吗?我几乎可以肯定不会,因为编译器不知道使用的是哪种动物。但是如果我这样做了会怎样...
...
Animal a = new Hawk();
if (a.CanFly()) {
...
这有区别吗?如果不是,这个肯定可以吧?:
...
Hawk a = new Hawk();
if (a.CanFly()) {
...
如果我不使用上面的 bool 方法,有什么改变吗:
float animalAge = a.GetAge();
一般来说,过多的抽象 getter 和 setter 会导致性能下降吗?如果达到重要的程度,最好的解决方案是什么?
通常没有简单的方法可以预先预测一个方法是否会被内联。您必须实际编写程序并查看为其生成的机器代码。这在 C 程序中很容易做到,您可以要求编译器生成汇编代码清单(如 MSVC 的 /FA,GCC 的 -S)。
由于实时编译代码的抖动,在 .NET 中更加复杂。从技术上讲,优化器的源代码可从 CoreCLR 项目获得,但很难弄清楚它的作用,许多非常坚不可摧的 C++ 代码。您必须利用 Visual Studio 中的 "visual" 并使用调试器。
这需要一些准备工作以确保您获得实际的优化代码,它通常会禁用优化器以使调试变得容易。切换到 Release 配置并使用 Tools > Options > Debugging > General > 取消勾选 "Suppress JIT optimization" 复选框。如果你想要最佳的浮点代码,那么你总是,总是想要 64 位代码,所以使用 Project > Properties > Build 选项卡,取消勾选 "Prefer 32-bit".
并编写一个小测试程序来练习该方法。这可能很棘手,您可能很容易以根本没有代码而告终。在这种情况下很容易,Console.WriteLine() 是强制使用此方法的好方法,它不能被优化掉。所以:
class Program {
static void Main(string[] args) {
var obj = new Example();
Console.WriteLine(obj.GetDiameter());
}
}
class Example {
private float radius = 0.0f;
public float GetDiameter() {
return radius * 2.0f;
}
}
在 Main() 上设置断点并按 F5。然后使用 Debug > Windows > Disassembly 查看机器码。在我的带有 Haswell 内核(支持 AVX)的机器上,我得到:
00007FFEB9D50480 sub rsp,28h ; setup stack frame
00007FFEB9D50484 mov rcx,7FFEB9C45A78h ; rcx = typeof(Example)
00007FFEB9D5048E call 00007FFF19362530 ; rax = new Example()
00007FFEB9D50493 vmovss xmm0,dword ptr [rax+8] ; xmm0 = Example.field
00007FFEB9D50499 vmulss xmm0,xmm0,dword ptr [7FFEB9D504B0h] ; xmm0 *= 2.0
00007FFEB9D504A2 call 00007FFF01647BB0 ; Console.WriteLine()
00007FFEB9D504A7 nop ; alignment
00007FFEB9D504A8 add rsp,28h ; tear down stack frame
00007FFEB9D504AC ret
我对代码进行了注释以帮助理解它,如果您以前从未看过它可能会很神秘。但毫无疑问,您可以看出该方法已内联。没有 CALL 指令,它被内联到两条指令(VMOVSS 和 VMULSS)。
如你所料。可访问性在内联决策中没有任何作用,它是一种简单的代码提升技巧,不会改变程序的逻辑操作。它首先对 C# 编译器很重要,其次是抖动中内置的验证器,但随后作为代码生成器和优化器的关注点消失了。
对摘要做完全相同的事情 class。您会看到该方法 而不是 得到内联,需要间接 CALL 指令。即使该方法完全是空的。一些语言编译器在知道对象的类型时可以将虚拟方法调用转换为非虚拟调用,但 C# 编译器不是其中之一。抖动优化器也没有。编辑:recent work 是在去虚拟化调用上完成的。
没有内联方法还有其他原因,移动目标很难记录。但粗略地说,具有太多 MSIL、try/catch/throw、循环、CAS 要求、一些退化的结构案例、MarshalByRefObject 基类的方法将不会被内联。一定要查看实际的机器代码。
[MethodImpl(MethodImplOptions.AgressiveInlining)] 属性可以强制优化器重新考虑 MSIL 限制。 MethodImplOptions.Noinlining 有助于禁用内联,您可能希望通过这种方式获得更好的异常堆栈跟踪或减缓抖动,因为程序集可能未部署。
有关 this post 中抖动优化器执行的优化的更多信息。