如何测试 CRC32C 是否为 "good" 随机生成器？

Question

我最近发现 _mm_crc32_* intel 内部指令可用于生成（伪）随机 32 位数字。

#include <nmmintrin.h> /* needs CRC32C instruction from SSE4.2 instruction set extension */

uint32_t rnd = 1; /* initialize with seed != 0 */

/* period length is 4,294,967,295 = 2^32-1 */
while (1) {
#if 0 // this was faster but worse than xorshift32 (fails more tests)
    // rnd = _mm_crc32_u8(rnd, rnd >> 3);
#else // this is faster and better than xorshift32 (fails fewer tests)
    rnd = _mm_crc32_u32(rnd, rnd << 18);
#endif
    printf("%08X\n", rnd);
}

此方法与 LCG 一样快，并且比 xorshift32 更快。维基百科说因为 xorshift 生成器 "fail a few statistical tests, they have been accused of being unreliable".

现在我想知道 CRC32C 方法是否通过了对随机数生成器进行的各种测试。我只是通过尝试使用 PAQ8 压缩器（失败）进行压缩来验证每一位，甚至是 LSB，都是 "random"。有人可以帮我做更好的测试吗？

编辑： 使用建议的 TestU01 套件中的测试，结果证明我之前使用的方法比 xorshift32 更糟糕。我已经更新了上面的源代码，以防有人有兴趣使用更好的版本。

Answer 1

这是一个有趣的问题。最终唯一重要的测试是 "does this rng yield correct results for the problem I'm working on"。您希望用 rng 做什么？

为了避免对每个不同的问题都回答那个问题，已经设计了各种测试。例如，参见 George Marsaglia 设计的 "Diehard" 测试。网络搜索 "marsaglia random number generator tests" 会出现几个有趣的链接。

我认为 Marsaglia 的作品此时已经有几十年的历史了。我不知道从那以后是否有更多关于这个主题的工作。我的猜测是，对于非加密目的，通过 Diehard 测试的 rng 可能就足够了。

Answer 2

视频游戏（尤其是单人游戏）与蒙特卡洛模拟对 PRNG 的要求有很大差异。小的偏差对于科学数值计算来说可能是个问题，但对于游戏来说通常不是，尤其是当来自相同 PRNG 的数字以不同方式使用时。

存在具有不同速度/质量权衡的不同 PRNG 是有原因的。

这个非常快，特别是如果种子/状态保留在寄存器中，在现代英特尔 CPU 上只需要 2 或 3 微指令。因此，如果它可以内联到循环中，那就太棒了。与相同速度的其他任何东西相比，它的质量可能更好。但与更大状态下只慢一点的东西相比，如果你关心统计质量，它可能是可悲的。

在带有 BMI2 的 x86 上，每个 RNG 步骤只需要 rorx edx, eax, 3 / crc32 eax, dl。在 Haswell/Skylake 上，这是 2 微指令，总延迟 = 1 + 循环携带依赖性的 3 个周期。 (http://agner.org/optimize/). Or 3 uops without BMI2, for mov edx, eax / shr edx,3 / crc32 eax, dl, but still only 4 cycles of latency on .

2 微指令在正常情况下对周围代码的影响可以忽略不计，在这种情况下，您对每个 PRNG 结果做了足够的工作，因此 4 周期依赖链不是瓶颈。（或者如果你的编译器 stores/reloads 循环内的 PRNG 状态而不是将其保存在寄存器中并在循环后将存储下沉到全局，则为 ~9 循环，这会花费你 2 个额外的 1-uop 指令）。

在 Ryzen 上，crc32 是 3 微指令，总延迟为 3 秒，因此对周围代码的影响更大，但如果您对 PRNG 结果做的太少而导致瓶颈，则每 4 个时钟瓶颈的影响相同那。

我怀疑您可能一直在对循环携带的依赖链瓶颈进行基准测试，而不是对真正的周围代码的影响，这些代码做了足够的工作来隐藏延迟。（几乎所有相关的 x86 CPUs 都是乱序执行。）使 RNG 比 xorshift128+ 甚至 xorshift128 更便宜，对于大多数用例来说可能可以忽略不计。 xorshift128+ 或 xorshift128* 速度很快，而且速度质量非常好。

如果您想要非常快地获得大量 PRNG 结果，请考虑使用 SIMD xorshift128+ 来运行两个或四个并行生成器（在 XMM 或 YMM 的不同元素中载体）。特别是如果您可以有用地使用 PRNG 结果的 __m256i 向量。参见 AVX/SSE version of xorshift128+, and also this answer where I used it。

将整个状态作为 RNG 结果返回通常是一件坏事，因为这意味着一个值可以准确地告诉您下一个值是什么。即 3 后面总是跟着 1897987234（假数字），而 3 后面永远不会跟着其他东西。大多数统计质量测试都应该解决这个问题，但这对于任何给定的用例来说可能是也可能不是问题。

请注意，https://en.wikipedia.org/wiki/Xorshift is saying that even xorshift128 fails a few statistical tests. I assume xorshift32 is significantly worse. CRC32c 也是基于 XOR 和移位（但在 Galois Field(2) 中也有位反射和模），因此有理由认为它在质量上可能相似或更好。

你说你选择的 crc32(rnd, rnd>>3) 给出了 2^32 的周期，这是你能用这么小的状态做的最好的。（当然 rnd++ 达到了同一时期，所以它不是唯一的质量衡量标准。）它可能至少和 an LCG 一样好，但那些是 而不是 被认为是高质量的，特别是如果模数是 2^32（所以你可以从固定宽度的整数数学中免费获得它）。

Answer 3

衡量 PRNG 优劣的一个指标是循环的长度。如果这对您的应用程序很重要，那么您正在使用的 CRC-32 将不是一个好的选择，因为周期只有 2³²。一个结果是，如果您使用的样本多于此，而这不会花费很长时间，您的结果将会重复。另一个是连续的 CRC-32 值之间存在相关性，其中只有一个可能值会跟随当前值。

更好的 PRNG 具有指数级更长的周期，并且返回的值小于状态中的位，因此连续值没有这种相关性。

您不需要使用 CRC-32C 指令来提高速度。您也不需要设计自己的 PRNG，它充满了隐藏的危险。最好把它留给专业人士。有关高质量、小型和快速随机数生成器的信息，请参阅 this work。

如何测试 CRC32C 是否为 "good" 随机生成器？

How can I test if CRC32C is a "good" random generator?

c

random

math

crc32

x86-64