我可以在 Raspberry Pi 4 上使用 .NET SIMD 吗?
Can I use .NET SIMD on Raspberry Pi 4?
我正在编写代码,将减去两个数组中的相应字节并计算超过给定阈值的结果字节数。 AFAIU,它真的会受益于 .NET SIMD,但是当我在 Raspberry Pi 4.
上编译 C# 时 System.Numerics.Vector.IsHardwareAccelerated
returns false
我的dotnet
版本是3.1.406,我添加了
<PropertyGroup>
<Optimize>true</Optimize>
</PropertyGroup>
到 csproj 和 运行 release
配置。
有什么方法可以在 Raspberry Pi 4 上利用 .NET 中的 SIMD 支持?也许使用 .NET 5?
更新
我安装了 .NET 5 并尝试了 .NET Intrinsics,但支持 none:
Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported); //false
我使用的是 32 位 Raspbian(Debian 衍生版本),我是否需要 64 位版本才能运行?
P.S。澄清一下,在普通 C# 中,algorhytm 看起来像这样:
public static int ScalarTest(byte[] lhs, byte[] rhs)
{
var result = 0;
for (int index = 0; index < lhs.Length; index++)
{
var a = lhs[index];
var b = rhs[index];
if (b > a)
{
(b, a) = (a, b);
}
result += ((a - b) >= 16) ? 1 : 0;
}
return result;
}
尽管 API 已经完成甚至记录在案,但缺少实施。 Take a look. 几十年来,8 字节 SIMD 向量一直是 NEON ISA 的重要组成部分(于 2005 年引入),但 .NET 运行时仅在为 ARM64(2013 年发布)编译时才实现它们。
我不在 Microsoft 工作,也不知道他们是如何编译他们的二进制文件的,但源代码告诉他们在为 ARM64 目标构建时至少对 NEON 有一些支持。如果你想在 .NET 中使用这些内在函数,你可以尝试 64 位 OS.
有一个解决方法 — 在 C++ 中实现性能关键部分,为 Linux 编译一个共享库,然后使用 [DllImport]
从 .NET 使用这些函数。我已经构建了非平凡的 Linux 软件(example),使用以下 gcc 标志构建 DLL:-march=native -mfpu=neon-fp16 -mfp16-format=ieee -ffast-math -O3 -fPIC
这样它将适用于 32 位 OS,并且不需要 .NET 运行时的任何特殊功能,我已经使用 .NET Core 2.1 进行了测试。
按照@Soonts 的回答,在切换到 64 位后 Raspbian,这是我在 NET 5 中得到的。我正在寻找的大部分指令都得到支持。
Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.OSDescription);
//Linux 5.4.51-v8+ #1333 SMP PREEMPT Mon Aug 10 16:58:35 BST 2020
Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.ProcessArchitecture);
//Arm64
Console.WriteLine(System.Environment.Is64BitOperatingSystem); //true
Console.WriteLine(System.Numerics.Vector.IsHardwareAccelerated); //true
Console.WriteLine(Vector<byte>.Count); //16
Console.WriteLine(Vector<sbyte>.Count); //16
Console.WriteLine(Vector<short>.Count); //8
Console.WriteLine(Vector<ushort>.Count); //8
Console.WriteLine(Vector<int>.Count); //4
Console.WriteLine(Vector<uint>.Count); //4
Console.WriteLine(Vector<long>.Count); //2
Console.WriteLine(Vector<ulong>.Count); //2
Console.WriteLine(Vector<float>.Count); //4
Console.WriteLine(Vector<double>.Count); //2
Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported); //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported); //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported); //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported); //false
在实现比较两个字节数组的元素与 abs 的算法之后。差异超过特定阈值,在我的 Pi 4 上我得到了以下基准测量值(3 次运行的平均值 post 预热):
C# 循环:
59 毫秒
System.Numerics.Vector
:
21 毫秒
System.Runtime.Intrinsics.Arm.AdvSimd
:
17 毫秒
System.Runtime.Intrinsics.Arm.AdvSimd
优化向量创建来自
https://gist.github.com/IKoshelev/325f0e10bee0806d7bb2c9d63d09ba9e
2ms !!!
我正在编写代码,将减去两个数组中的相应字节并计算超过给定阈值的结果字节数。 AFAIU,它真的会受益于 .NET SIMD,但是当我在 Raspberry Pi 4.
上编译 C# 时System.Numerics.Vector.IsHardwareAccelerated
returns false
我的dotnet
版本是3.1.406,我添加了
<PropertyGroup>
<Optimize>true</Optimize>
</PropertyGroup>
到 csproj 和 运行 release
配置。
有什么方法可以在 Raspberry Pi 4 上利用 .NET 中的 SIMD 支持?也许使用 .NET 5?
更新 我安装了 .NET 5 并尝试了 .NET Intrinsics,但支持 none:
Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported); //false
我使用的是 32 位 Raspbian(Debian 衍生版本),我是否需要 64 位版本才能运行?
P.S。澄清一下,在普通 C# 中,algorhytm 看起来像这样:
public static int ScalarTest(byte[] lhs, byte[] rhs)
{
var result = 0;
for (int index = 0; index < lhs.Length; index++)
{
var a = lhs[index];
var b = rhs[index];
if (b > a)
{
(b, a) = (a, b);
}
result += ((a - b) >= 16) ? 1 : 0;
}
return result;
}
尽管 API 已经完成甚至记录在案,但缺少实施。 Take a look. 几十年来,8 字节 SIMD 向量一直是 NEON ISA 的重要组成部分(于 2005 年引入),但 .NET 运行时仅在为 ARM64(2013 年发布)编译时才实现它们。
我不在 Microsoft 工作,也不知道他们是如何编译他们的二进制文件的,但源代码告诉他们在为 ARM64 目标构建时至少对 NEON 有一些支持。如果你想在 .NET 中使用这些内在函数,你可以尝试 64 位 OS.
有一个解决方法 — 在 C++ 中实现性能关键部分,为 Linux 编译一个共享库,然后使用 [DllImport]
从 .NET 使用这些函数。我已经构建了非平凡的 Linux 软件(example),使用以下 gcc 标志构建 DLL:-march=native -mfpu=neon-fp16 -mfp16-format=ieee -ffast-math -O3 -fPIC
这样它将适用于 32 位 OS,并且不需要 .NET 运行时的任何特殊功能,我已经使用 .NET Core 2.1 进行了测试。
按照@Soonts 的回答,在切换到 64 位后 Raspbian,这是我在 NET 5 中得到的。我正在寻找的大部分指令都得到支持。
Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.OSDescription);
//Linux 5.4.51-v8+ #1333 SMP PREEMPT Mon Aug 10 16:58:35 BST 2020
Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.ProcessArchitecture);
//Arm64
Console.WriteLine(System.Environment.Is64BitOperatingSystem); //true
Console.WriteLine(System.Numerics.Vector.IsHardwareAccelerated); //true
Console.WriteLine(Vector<byte>.Count); //16
Console.WriteLine(Vector<sbyte>.Count); //16
Console.WriteLine(Vector<short>.Count); //8
Console.WriteLine(Vector<ushort>.Count); //8
Console.WriteLine(Vector<int>.Count); //4
Console.WriteLine(Vector<uint>.Count); //4
Console.WriteLine(Vector<long>.Count); //2
Console.WriteLine(Vector<ulong>.Count); //2
Console.WriteLine(Vector<float>.Count); //4
Console.WriteLine(Vector<double>.Count); //2
Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported); //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported); //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported); //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported); //false
在实现比较两个字节数组的元素与 abs 的算法之后。差异超过特定阈值,在我的 Pi 4 上我得到了以下基准测量值(3 次运行的平均值 post 预热):
C# 循环:
59 毫秒
System.Numerics.Vector
:
21 毫秒
System.Runtime.Intrinsics.Arm.AdvSimd
:
17 毫秒
System.Runtime.Intrinsics.Arm.AdvSimd
优化向量创建来自
https://gist.github.com/IKoshelev/325f0e10bee0806d7bb2c9d63d09ba9e
2ms !!!