我可以在 Raspberry Pi 4 上使用 .NET SIMD 吗?

Can I use .NET SIMD on Raspberry Pi 4?

我正在编写代码,将减去两个数组中的相应字节并计算超过给定阈值的结果字节数。 AFAIU,它真的会受益于 .NET SIMD,但是当我在 Raspberry Pi 4.

上编译 C# 时 System.Numerics.Vector.IsHardwareAccelerated returns false

我的dotnet版本是3.1.406,我添加了

  <PropertyGroup>
    <Optimize>true</Optimize>
  </PropertyGroup>

到 csproj 和 运行 release 配置。

有什么方法可以在 Raspberry Pi 4 上利用 .NET 中的 SIMD 支持?也许使用 .NET 5?

更新 我安装了 .NET 5 并尝试了 .NET Intrinsics,但支持 none:

Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported);  //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported); //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported); //false

我使用的是 32 位 Raspbian(Debian 衍生版本),我是否需要 64 位版本才能运行?

P.S。澄清一下,在普通 C# 中,algorhytm 看起来像这样:

        public static int ScalarTest(byte[] lhs, byte[] rhs)
        {
            var result = 0;

            for (int index = 0; index < lhs.Length; index++)
            {
                var a = lhs[index];
                var b = rhs[index];
                if (b > a)
                {
                    (b, a) = (a, b);
                }
                result += ((a - b) >= 16) ? 1 : 0;
            }

            return result;
        }

尽管 API 已经完成甚至记录在案,但缺少实施。 Take a look. 几十年来,8 字节 SIMD 向量一直是 NEON ISA 的重要组成部分(于 2005 年引入),但 .NET 运行时仅在为 ARM64(2013 年发布)编译时才实现它们。

我不在 Microsoft 工作,也不知道他们是如何编译他们的二进制文件的,但源代码告诉他们在为 ARM64 目标构建时至少对 NEON 有一些支持。如果你想在 .NET 中使用这些内在函数,你可以尝试 64 位 OS.

有一个解决方法 — 在 C++ 中实现性能关键部分,为 Linux 编译一个共享库,然后使用 [DllImport] 从 .NET 使用这些函数。我已经构建了非平凡的 Linux 软件(example),使用以下 gcc 标志构建 DLL:-march=native -mfpu=neon-fp16 -mfp16-format=ieee -ffast-math -O3 -fPIC 这样它将适用于 32 位 OS,并且不需要 .NET 运行时的任何特殊功能,我已经使用 .NET Core 2.1 进行了测试。

按照@Soonts 的回答,在切换到 64 位后 Raspbian,这是我在 NET 5 中得到的。我正在寻找的大部分指令都得到支持。

Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.OSDescription);
//Linux 5.4.51-v8+ #1333 SMP PREEMPT Mon Aug 10 16:58:35 BST 2020

Console.WriteLine(System.Runtime.InteropServices.RuntimeInformation.ProcessArchitecture);
//Arm64

Console.WriteLine(System.Environment.Is64BitOperatingSystem);           //true

Console.WriteLine(System.Numerics.Vector.IsHardwareAccelerated);        //true
Console.WriteLine(Vector<byte>.Count);                                  //16
Console.WriteLine(Vector<sbyte>.Count);                                 //16
Console.WriteLine(Vector<short>.Count);                                 //8
Console.WriteLine(Vector<ushort>.Count);                                //8
Console.WriteLine(Vector<int>.Count);                                   //4
Console.WriteLine(Vector<uint>.Count);                                  //4
Console.WriteLine(Vector<long>.Count);                                  //2
Console.WriteLine(Vector<ulong>.Count);                                 //2

Console.WriteLine(Vector<float>.Count);                                 //4
Console.WriteLine(Vector<double>.Count);                                //2

Console.WriteLine(System.Runtime.Intrinsics.Arm.AdvSimd.IsSupported);   //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Aes.IsSupported);       //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.ArmBase.IsSupported);   //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Crc32.IsSupported);     //true
Console.WriteLine(System.Runtime.Intrinsics.Arm.Dp.IsSupported);        //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Rdm.IsSupported);       //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha1.IsSupported);      //false
Console.WriteLine(System.Runtime.Intrinsics.Arm.Sha256.IsSupported);    //false

在实现比较两个字节数组的元素与 abs 的算法之后。差异超过特定阈值,在我的 Pi 4 上我得到了以下基准测量值(3 次运行的平均值 post 预热):

C# 循环:

59 毫秒

System.Numerics.Vector:

21 毫秒

System.Runtime.Intrinsics.Arm.AdvSimd:

17 毫秒

System.Runtime.Intrinsics.Arm.AdvSimd 优化向量创建来自 https://gist.github.com/IKoshelev/325f0e10bee0806d7bb2c9d63d09ba9e

2ms !!!