发现样本数量不一致的输入变量:[799996, 199999]

Found input variables with inconsistent numbers of samples: [799996, 199999]

我正在拆分单个 df 那么为什么它在 X_train、X_test 中给出不一致的样本数(如果这是错误的意思)?

X_train, X_test = train_test_split(df[categorical_cols+ numeric_cols], test_size=0.2, random_state=4)
regression = LinearRegression().fit(X_train, X_test)
regression.score(X)

在您的示例中,该方法将执行大致相当于以下内容的操作:

  1. 为每条记录生成一个0到1之间的随机数

  2. 将随机数低于 .2 的记录放入测试集中

  3. 把剩下的放到训练集中

实际放入 train/test 组的数量存在一定的随机性,因为 .2 以下的随机数并不总是正好是 20%。