scikit-learn 中独立于平台的随机状态 train_test_split

Platform-independent random state in scikit-learn train_test_split

使用 scikit-learn 拆分 train/test 数据集时设置特定的随机种子 (random_state) 是否会产生相同的随机数生成器初始化(即产生相同的伪随机数)在不同的平台上 - 例如,在不同的云计算实例上?

谢谢!

只要 random_state 在所有平台上都相同,并且它们都是 运行 相同版本的 numpy,你应该得到完全相同的拆分。

由于 random_state 是一个 numpy 实例,我认为所有 scikit-learn 的伪随机数生成器都被冻结了,因为 numpy 冻结了 RandomState.

您可以查看 random_state here, which as you can see is numpy.random.RandomState. You can check numpy's compatibility guarantee here 的文档。