什么是 Azure 机器学习中的随机种子?
What is Random seed in Azure Machine Learning?
我正在学习 Azure 机器学习。我在某些步骤中经常遇到 Random Seed,
- 拆分数据
- 未经训练的算法模型为两个 Class 回归,多个 class 回归,树,森林,..
在教程中,他们选择随机种子为'123';训练有素的模型具有很高的准确性,但是当我尝试选择其他随机整数(例如 245、256、12、321 等)时,效果并不理想。
问题
- 什么是随机种子整数?
- 如何从整数值范围内谨慎选择随机种子?选择它的关键或策略是什么?
- 为什么随机种子会显着影响训练模型的 ML 评分、预测和质量?
借口
- 我有 Iris-Sepal-Petal-Dataset 萼片(长和宽)和花瓣(长和宽)
- 数据集中的最后一列是 'Binomial ClassName'
- 我正在使用 Multiclass 决策森林算法训练数据集,并按顺序使用不同的随机种子 321、123 和 12345 拆分数据
- 它影响训练模型的最终质量。随机种子#123 是最好的预测概率得分:1.
观察结果
1.随机种子:321
2。随机种子:123
3。随机种子:12345
种子用于初始化Python中的伪随机数生成器。
随机模块使用种子值作为基数来生成随机数。如果种子值不存在,则需要系统当前时间。如果您在生成随机数据之前提供相同的种子值,它将产生相同的数据。参考 https://pynative.com/python-random-seed/ 了解更多详情。
示例:
import random
random.seed( 30 )
print ("first number - ", random.randint(25,50))
random.seed( 30 )
print ("Second number- ", random.randint(25,50))
Output:
first number - 42
Second number - 42
What is a Random Seed Integer?
不会详细介绍一般情况下随机种子是什么;有大量 material 可通过简单的网络搜索获得(例如参见 [=21=])。
随机种子仅用于初始化(伪)随机数生成器,主要是为了使 ML 示例可重现。
How to carefully choose a Random Seed from range of integer values? What is the key or strategy to choose it?
可以说这已经在上面隐含地回答了:您根本不应该选择任何特定的随机种子,并且您的结果在不同的随机种子中应该大致相同。
Why does Random Seed significantly affect the ML Scoring, Prediction and Quality of the trained model?
现在,进入您问题的核心。 此处(即使用 iris 数据集)的答案是 small-sample 效果...
首先,您报告的不同随机种子的结果并没有 的不同。尽管如此,我同意,乍一看,0.9 和 0.94 的 macro-average 精度差异可能 似乎 很大;但仔细观察就会发现,差异确实不是问题。为什么?
使用(仅)150 个样本数据集的 20% 使您的测试集中(执行评估的地方)只有 30 个样本;这是分层的,即每个 class 大约有 10 个样本。现在,对于 小的数据集,不难想象 的正确 class 化仅相差 1-2 示例在报告的性能指标中可能存在这种明显差异。
让我们尝试使用决策树classifier 在scikit-learn 中验证这一点(问题的本质不取决于具体的框架或使用的 ML 算法):
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=321, stratify=y)
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))
结果:
[[10 0 0]
[ 0 9 1]
[ 0 0 10]]
precision recall f1-score support
0 1.00 1.00 1.00 10
1 1.00 0.90 0.95 10
2 0.91 1.00 0.95 10
micro avg 0.97 0.97 0.97 30
macro avg 0.97 0.97 0.97 30
weighted avg 0.97 0.97 0.97 30
让我们重复上面的代码,只更改 train_test_split
中的 random_state
参数;对于 random_state=123
,我们得到:
[[10 0 0]
[ 0 7 3]
[ 0 2 8]]
precision recall f1-score support
0 1.00 1.00 1.00 10
1 0.78 0.70 0.74 10
2 0.73 0.80 0.76 10
micro avg 0.83 0.83 0.83 30
macro avg 0.84 0.83 0.83 30
weighted avg 0.84 0.83 0.83 30
而对于 random_state=12345
我们得到:
[[10 0 0]
[ 0 8 2]
[ 0 0 10]]
precision recall f1-score support
0 1.00 1.00 1.00 10
1 1.00 0.80 0.89 10
2 0.83 1.00 0.91 10
micro avg 0.93 0.93 0.93 30
macro avg 0.94 0.93 0.93 30
weighted avg 0.94 0.93 0.93 30
查看 3 个混淆矩阵的绝对值(在小样本中,百分比可能具有误导性),你应该能够说服自己差异并没有那么大,并且可以通过整个过程中固有的随机元素来证明它们是合理的(这里是将数据集精确地划分为训练和测试)。
如果您的测试集大得多,这些差异几乎可以忽略不计...
最后通知;我使用了与您完全相同的种子编号,但这实际上没有任何意义,因为通常随机数生成器 跨 平台和语言是不一样的,因此相应的种子是实际上不兼容。请参阅 中自己的答案以进行演示。
我正在学习 Azure 机器学习。我在某些步骤中经常遇到 Random Seed,
- 拆分数据
- 未经训练的算法模型为两个 Class 回归,多个 class 回归,树,森林,..
在教程中,他们选择随机种子为'123';训练有素的模型具有很高的准确性,但是当我尝试选择其他随机整数(例如 245、256、12、321 等)时,效果并不理想。
问题
- 什么是随机种子整数?
- 如何从整数值范围内谨慎选择随机种子?选择它的关键或策略是什么?
- 为什么随机种子会显着影响训练模型的 ML 评分、预测和质量?
借口
- 我有 Iris-Sepal-Petal-Dataset 萼片(长和宽)和花瓣(长和宽)
- 数据集中的最后一列是 'Binomial ClassName'
- 我正在使用 Multiclass 决策森林算法训练数据集,并按顺序使用不同的随机种子 321、123 和 12345 拆分数据
- 它影响训练模型的最终质量。随机种子#123 是最好的预测概率得分:1.
观察结果
1.随机种子:321
2。随机种子:123
3。随机种子:12345
种子用于初始化Python中的伪随机数生成器。
随机模块使用种子值作为基数来生成随机数。如果种子值不存在,则需要系统当前时间。如果您在生成随机数据之前提供相同的种子值,它将产生相同的数据。参考 https://pynative.com/python-random-seed/ 了解更多详情。
示例:
import random
random.seed( 30 )
print ("first number - ", random.randint(25,50))
random.seed( 30 )
print ("Second number- ", random.randint(25,50))
Output:
first number - 42
Second number - 42
What is a Random Seed Integer?
不会详细介绍一般情况下随机种子是什么;有大量 material 可通过简单的网络搜索获得(例如参见 [=21=])。
随机种子仅用于初始化(伪)随机数生成器,主要是为了使 ML 示例可重现。
How to carefully choose a Random Seed from range of integer values? What is the key or strategy to choose it?
可以说这已经在上面隐含地回答了:您根本不应该选择任何特定的随机种子,并且您的结果在不同的随机种子中应该大致相同。
Why does Random Seed significantly affect the ML Scoring, Prediction and Quality of the trained model?
现在,进入您问题的核心。 此处(即使用 iris 数据集)的答案是 small-sample 效果...
首先,您报告的不同随机种子的结果并没有 的不同。尽管如此,我同意,乍一看,0.9 和 0.94 的 macro-average 精度差异可能 似乎 很大;但仔细观察就会发现,差异确实不是问题。为什么?
使用(仅)150 个样本数据集的 20% 使您的测试集中(执行评估的地方)只有 30 个样本;这是分层的,即每个 class 大约有 10 个样本。现在,对于 小的数据集,不难想象 的正确 class 化仅相差 1-2 示例在报告的性能指标中可能存在这种明显差异。
让我们尝试使用决策树classifier 在scikit-learn 中验证这一点(问题的本质不取决于具体的框架或使用的 ML 算法):
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=321, stratify=y)
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))
结果:
[[10 0 0]
[ 0 9 1]
[ 0 0 10]]
precision recall f1-score support
0 1.00 1.00 1.00 10
1 1.00 0.90 0.95 10
2 0.91 1.00 0.95 10
micro avg 0.97 0.97 0.97 30
macro avg 0.97 0.97 0.97 30
weighted avg 0.97 0.97 0.97 30
让我们重复上面的代码,只更改 train_test_split
中的 random_state
参数;对于 random_state=123
,我们得到:
[[10 0 0]
[ 0 7 3]
[ 0 2 8]]
precision recall f1-score support
0 1.00 1.00 1.00 10
1 0.78 0.70 0.74 10
2 0.73 0.80 0.76 10
micro avg 0.83 0.83 0.83 30
macro avg 0.84 0.83 0.83 30
weighted avg 0.84 0.83 0.83 30
而对于 random_state=12345
我们得到:
[[10 0 0]
[ 0 8 2]
[ 0 0 10]]
precision recall f1-score support
0 1.00 1.00 1.00 10
1 1.00 0.80 0.89 10
2 0.83 1.00 0.91 10
micro avg 0.93 0.93 0.93 30
macro avg 0.94 0.93 0.93 30
weighted avg 0.94 0.93 0.93 30
查看 3 个混淆矩阵的绝对值(在小样本中,百分比可能具有误导性),你应该能够说服自己差异并没有那么大,并且可以通过整个过程中固有的随机元素来证明它们是合理的(这里是将数据集精确地划分为训练和测试)。
如果您的测试集大得多,这些差异几乎可以忽略不计...
最后通知;我使用了与您完全相同的种子编号,但这实际上没有任何意义,因为通常随机数生成器 跨 平台和语言是不一样的,因此相应的种子是实际上不兼容。请参阅