运行训练-测试拆分并获得不同数据集的模型精度

Question

我想运行 train_test_split 来自 sklearn 包，使用相同的目标变量 y，但三个不同的自变量数据帧。然后，我想使用随机森林分类器进行拟合和预测并获得准确性。这里的目标是获得三个不同数据帧的准确性，以便我可以比较它们并相应地 select 我的变量。到目前为止，我有以下内容，但没有用。

df = [X1, X2, X3]   # 3 different independent variable (features) DataFrames. 

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier as RandomForest
from sklearn import metrics
rf_accuracy = []

for index, z in enumerate(df):
  train_X, test_X, train_y, test_y = train_test_split(z, y,train_size=0.5,test_size=0.5, random_state=2)
  rf = RandomForest(random_state=99)
  rf.fit(train_X, train_y.ravel())
  pred_y = rf.predict(test_X)
  rf_accuracy = rf_accuracy.append(metrics.accuracy_score(test_y, pred_y))

print(rf_accuracy)

当我打印 rf_accuracy 时，我应该分别使用三个不同的特征空间 X1, X2, X3 得到一个具有三个精度的列表。

例如，rf_accuracy 将输出 [0.9765, 0.9645, 0.9212]

Answer 1

我猜你的数据是这样的

assert df.shape == (n_samples, 3)   # each column for a variable/features
assert y.shape == (n_samples, )

并且您正在尝试分别在三个不同的 variables/features 上训练三个 RF clfs。

现在，你可以试试这个

for _, z in df.iteritems():
  train_X, test_X, train_y, test_y = train_test_split(
z.values.reshape(-1, 1), y, train_size=0.5, test_size=0.5, random_state=2)
  rf = RandomForest(random_state=99)
  rf.fit(train_X, train_y.ravel())
  pred_y = rf.predict(test_X)
  rf_accuracy = rf_accuracy.append(metrics.accuracy_score(test_y, pred_y))

print(rf_accuracy)

我成功地处理了鸢尾花数据集。

新： my modification

运行训练-测试拆分并获得不同数据集的模型精度

Running train-test split and obtaining model accuracies for different datasets

python-3.x

scikit-learn

sklearn-pandas

运行 训练-测试拆分并获得不同数据集的模型精度

Running train-test split and obtaining model accuracies for different datasets

python-3.x

scikit-learn

sklearn-pandas

运行训练-测试拆分并获得不同数据集的模型精度