什么是 Azure 机器学习中的随机种子？

Question

我正在学习 Azure 机器学习。我在某些步骤中经常遇到 Random Seed，

拆分数据
未经训练的算法模型为两个 Class 回归，多个 class 回归，树，森林，..

在教程中，他们选择随机种子为'123'；训练有素的模型具有很高的准确性，但是当我尝试选择其他随机整数（例如 245、256、12、321 等）时，效果并不理想。

问题

什么是随机种子整数？
如何从整数值范围内谨慎选择随机种子？选择它的关键或策略是什么？
为什么随机种子会显着影响训练模型的 ML 评分、预测和质量？

借口

我有 Iris-Sepal-Petal-Dataset 萼片（长和宽）和花瓣（长和宽）
数据集中的最后一列是 'Binomial ClassName'
我正在使用 Multiclass 决策森林算法训练数据集，并按顺序使用不同的随机种子 321、123 和 12345 拆分数据
它影响训练模型的最终质量。随机种子#123 是最好的预测概率得分：1.

观察结果

1.随机种子：321

2。随机种子：123

3。随机种子：12345

Answer 1

种子用于初始化Python中的伪随机数生成器。

随机模块使用种子值作为基数来生成随机数。如果种子值不存在，则需要系统当前时间。如果您在生成随机数据之前提供相同的种子值，它将产生相同的数据。参考 https://pynative.com/python-random-seed/ 了解更多详情。

示例：

import random
random.seed( 30 )
print ("first number  - ", random.randint(25,50))  

random.seed( 30 )
print ("Second number- ", random.randint(25,50))

Output:

first number - 42
Second  number - 42

Answer 2

What is a Random Seed Integer?

不会详细介绍一般情况下随机种子是什么；有大量 material 可通过简单的网络搜索获得（例如参见 [=21=]）。

随机种子仅用于初始化（伪）随机数生成器，主要是为了使 ML 示例可重现。

How to carefully choose a Random Seed from range of integer values? What is the key or strategy to choose it?

可以说这已经在上面隐含地回答了：您根本不应该选择任何特定的随机种子，并且您的结果在不同的随机种子中应该大致相同。

Why does Random Seed significantly affect the ML Scoring, Prediction and Quality of the trained model?

现在，进入您问题的核心。此处（即使用 iris 数据集）的答案是 small-sample 效果...

首先，您报告的不同随机种子的结果并没有的不同。尽管如此，我同意，乍一看，0.9 和 0.94 的 macro-average 精度差异可能似乎很大；但仔细观察就会发现，差异确实不是问题。为什么？

使用（仅）150 个样本数据集的 20% 使您的测试集中（执行评估的地方）只有 30 个样本；这是分层的，即每个 class 大约有 10 个样本。现在，对于小的数据集，不难想象 的正确 class 化仅相差 1-2 示例在报告的性能指标中可能存在这种明显差异。

让我们尝试使用决策树classifier 在scikit-learn 中验证这一点（问题的本质不取决于具体的框架或使用的 ML 算法）：

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=321, stratify=y)
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

结果：

[[10  0  0]
 [ 0  9  1]
 [ 0  0 10]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.90      0.95        10
           2       0.91      1.00      0.95        10

   micro avg       0.97      0.97      0.97        30
   macro avg       0.97      0.97      0.97        30
weighted avg       0.97      0.97      0.97        30

让我们重复上面的代码，只更改 train_test_split 中的 random_state 参数；对于 random_state=123，我们得到：

[[10  0  0]
 [ 0  7  3]
 [ 0  2  8]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       0.78      0.70      0.74        10
           2       0.73      0.80      0.76        10

   micro avg       0.83      0.83      0.83        30
   macro avg       0.84      0.83      0.83        30
weighted avg       0.84      0.83      0.83        30

而对于 random_state=12345 我们得到：

[[10  0  0]
 [ 0  8  2]
 [ 0  0 10]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.80      0.89        10
           2       0.83      1.00      0.91        10

   micro avg       0.93      0.93      0.93        30
   macro avg       0.94      0.93      0.93        30
weighted avg       0.94      0.93      0.93        30

查看 3 个混淆矩阵的绝对值（在小样本中，百分比可能具有误导性)，你应该能够说服自己差异并没有那么大，并且可以通过整个过程中固有的随机元素来证明它们是合理的（这里是将数据集精确地划分为训练和测试）。

如果您的测试集大得多，这些差异几乎可以忽略不计...

最后通知；我使用了与您完全相同的种子编号，但这实际上没有任何意义，因为通常随机数生成器跨平台和语言是不一样的，因此相应的种子是实际上不兼容。请参阅中自己的答案以进行演示。

什么是 Azure 机器学习中的随机种子？

What is Random seed in Azure Machine Learning?

machine-learning

random-seed

azure-machine-learning-studio

iris-dataset