random.choice 在 Python 2 和 3 上给出了不同的结果

random.choice gives different results on Python 2 and 3

背景

我想测试依赖于 random 模块的代码。

有问题的 PR 是 https://github.com/Axelrod-Python/Axelrod/pull/202 and code is here https://github.com/Axelrod-Python/Axelrod/blob/master/axelrod/strategies/qlearner.py

问题

由于 random 模块产生伪随机数,我总是将 random.seed(X) 设置为已知值 X。这适用于连续的测试运行。但是,Python 3 在使用 random.choice([D, C])

时似乎给出的数字与 Python 2 不同

以下代码段:

import random
random.seed(1)

for i in range(10):
    print(random.choice(['C', 'D']), end=', ')

Python 2 和 3

给出不同的结果
$ python2 test.py                                                                                                                                                     
C, D, D, C, C, C, D, D, C, C

$ python3 test.py
C, C, D, C, D, D, D, D, C, C

但是,random.random 方法在 2.x 和 3.x 上的效果相同:

import random
random.seed(1)

for i in range(10):
    print(random.random())

$ python3 test.py
0.13436424411240122
0.8474337369372327
0.763774618976614
0.2550690257394217
0.49543508709194095
0.4494910647887381
0.651592972722763
0.7887233511355132
0.0938595867742349
0.02834747652200631

$ python2 test.py
0.134364244112
0.847433736937
0.763774618977
0.255069025739
0.495435087092
0.449491064789
0.651592972723
0.788723351136
0.0938595867742
0.028347476522

解决方法

我可以 mock random.choice 的输出,这对简单的测试用例很有效。但是,对于相当复杂的测试用例,我无法模拟输出,因为我根本不知道它应该是什么样子。

问题

调用random.choice方法时我做错了吗?

每个版本中random.choice的实现完全不同。

Python 2.7:

def choice(self, seq):
    """Choose a random element from a non-empty sequence."""
    return seq[int(self.random() * len(seq))]  # raises IndexError if seq is empty

https://hg.python.org/cpython/file/2.7/Lib/random.py

Python 3.4:

def choice(self, seq):
    """Choose a random element from a non-empty sequence."""
    try:
        i = self._randbelow(len(seq))
    except ValueError:
        raise IndexError('Cannot choose from an empty sequence')
    return seq[i]

https://hg.python.org/cpython/file/3.4/Lib/random.py

_randbelow 方法可能会多次调用 random(),或者可能会调用 getrandbits,后者对 _urandom.

有不同的底层调用

根据https://docs.python.org/2/library/random.html,RNG 在Python 2.4 中发生了变化,可能会占用操作系统资源。基于这个问题和这个问题的另一个答案,期望 Random 在 Python 的两个不同版本、两个不同的操作系统,甚至两台不同的计算机上给出相同的结果是不合理的。众所周知,Python 的下一个版本可以实现使用系统麦克风生成随机序列的随机函数。

简短版本:你永远不应该依赖随机数生成器来给出确定性的结果。如果您需要已知序列来满足单元测试,则需要重新设计方法或单元测试。

您可以这样做的一种方法是将您的方法分成两部分:一部分生成随机数。第二部分消耗价值并对其进行操作。然后,您将编写两个单元测试:一个用于测试生成值的覆盖范围,另一个用于根据特定输入测试方法的输出。

另一种方法可能是更改您的方法,使其不仅输出结果,还输出创建该结果的随机数。您可以修改单元测试以比较两者并根据已知对的预期输出通过或失败测试。

或者您的单元测试可以简单地修改为 运行 测试 n 次并寻找确认某种随机性的分布。

我遇到了完全相同的问题,我对您指出错误的响应数量感到失望,因为随机函数的播种预计会在 [=19= 的各个版本中产生可靠一致的结果], 机器和操作系统。

痛苦的是,拥有自己的随机 class 并使用 Python 2.7.

中的逻辑重写相关方法似乎很有效
from random import Random

class MyRandom(Random):
    def sample(self, population, k):
        (code from Python 2.7.6 random module updated for Python 3 syntax)
    
    def choice...

my_random = MyRandom(0)
my_random.sample(['Apples', 'Bananas', 'Carrots'])

随机函数本身是不同的,因此具有相同种子结果的相同数字并不能解决许多拒绝 return 相同结果的随机函数。虽然使用较新的随机函数是有原因的,但这些原因对于已经依赖于较旧函数的现有代码库没有实际意义。

无论如何,我希望这可以帮助其他人解决这个问题。