split_train_test()函数的一些问题
Some questions about split_train_test() function
我目前正在尝试使用 Python 的 linearregression() 模型来描述两个变量 X 和 Y 之间的关系。给定一个具有 8 列和 1000 行的数据集,我想将此数据集拆分为使用 split_train_test 的训练和测试集。
我的问题:我想知道 train_test_split(dataset, test_size, random_test = int) 和 train_test_split(数据集,test_size)。另外,第二个(没有设置random_test=int)每次重新运行时都会给我不同的测试集和训练集吗?程序?另外,每次我重新 运行 我的程序时,第一个是否给我相同的测试集和训练集?例如,设置 random_test=42 与 random_test=43 之间有什么区别?
在 python scikit-learn train_test_split 中会将您的输入数据分成两组 i) 训练和 ii) 测试。它有参数 random_state 允许你随机分割数据。
如果未提及该参数,它将以分层方式对数据进行分类,这将为您提供相同数据集的相同拆分。
假设您想要随机拆分数据,以便您可以通过不同的拆分来衡量对相同数据的回归性能。您可以使用 random_state 来实现它。每个随机状态都会给你初始数据的伪随机分割。为了跟踪性能并稍后在相同数据上重现它,您将使用 random_state 参数和之前使用的值。
它对 cross validation
机器学习技术很有用。
我目前正在尝试使用 Python 的 linearregression() 模型来描述两个变量 X 和 Y 之间的关系。给定一个具有 8 列和 1000 行的数据集,我想将此数据集拆分为使用 split_train_test 的训练和测试集。
我的问题:我想知道 train_test_split(dataset, test_size, random_test = int) 和 train_test_split(数据集,test_size)。另外,第二个(没有设置random_test=int)每次重新运行时都会给我不同的测试集和训练集吗?程序?另外,每次我重新 运行 我的程序时,第一个是否给我相同的测试集和训练集?例如,设置 random_test=42 与 random_test=43 之间有什么区别?
在 python scikit-learn train_test_split 中会将您的输入数据分成两组 i) 训练和 ii) 测试。它有参数 random_state 允许你随机分割数据。
如果未提及该参数,它将以分层方式对数据进行分类,这将为您提供相同数据集的相同拆分。
假设您想要随机拆分数据,以便您可以通过不同的拆分来衡量对相同数据的回归性能。您可以使用 random_state 来实现它。每个随机状态都会给你初始数据的伪随机分割。为了跟踪性能并稍后在相同数据上重现它,您将使用 random_state 参数和之前使用的值。
它对 cross validation
机器学习技术很有用。