使用特征训练和测试拆分数据
Train and test split data with features
从 sklearn 加载 Iris 数据集。将数据集拆分为训练和测试部分。从 4 个特征中选择 2 个。
我写这段代码:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
X, y = iris.data, iris.target
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.33,random_state=42)
但我没看懂“从 4 个功能中选择 2 个”。这是否意味着 test_size 和 random_state?还是有什么不同?
测试大小是一个比率。例如,如果 test_size = 0.33
,则 33% 的数据将是测试数据,其余 67% 将是训练数据。
随机状态是为了从整个数据集中随机抽取测试和训练数据而产生的种子(当需要确保可重复性时,使用像42
这样的固定值)。您可以详细研究从计算机科学中的种子产生随机数的随机数背后的理论。
鸢尾数据集有花瓣长度、花瓣宽度、萼片长度、萼片宽度4个特征。
从 4 个特征中选择 2 个意味着在你的训练模型中使用这 4 个特征中的两个。
我不知道你为什么要这样做,因为使用所有四个功能可以使模型更准确
从 sklearn 加载 Iris 数据集。将数据集拆分为训练和测试部分。从 4 个特征中选择 2 个。 我写这段代码:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
X, y = iris.data, iris.target
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.33,random_state=42)
但我没看懂“从 4 个功能中选择 2 个”。这是否意味着 test_size 和 random_state?还是有什么不同?
测试大小是一个比率。例如,如果 test_size = 0.33
,则 33% 的数据将是测试数据,其余 67% 将是训练数据。
随机状态是为了从整个数据集中随机抽取测试和训练数据而产生的种子(当需要确保可重复性时,使用像42
这样的固定值)。您可以详细研究从计算机科学中的种子产生随机数的随机数背后的理论。
鸢尾数据集有花瓣长度、花瓣宽度、萼片长度、萼片宽度4个特征。 从 4 个特征中选择 2 个意味着在你的训练模型中使用这 4 个特征中的两个。 我不知道你为什么要这样做,因为使用所有四个功能可以使模型更准确