如何为 test_train_split 选择数据框中的数据列和目标列?
How to choose data columns and target columns in a dataframe for test_train_split?
我正在尝试将我从 csv 读取到 pandas 数据帧的数据设置为 test_train_split
。我正在阅读的书说我应该将 x_train
作为数据和 y_train
作为目标,但是如何定义目标列和数据列?到目前为止我有以下
import pandas as pd
from sklearn.model_selection import train_test_split
Data = pd.read_csv("Data.csv")
我已经阅读过以下列方式进行拆分,但是下面使用的是已经定义了 data
和 target
的一堆:
X_train, X_test, y_train, y_test = train_test_split(businessleisure_data['data'],
iris_dataset['target'], random_state=0)
你可以这样做:
Data = pd.read_csv("Data.csv")
X = Data.drop(['name of the target column'],axis=1).values
y = Data['name of the target column'].values
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
在大多数情况下,目标变量是数据集的最后一列,因此您也可以尝试这样做:
Data = pd.read_csv("Data.csv")
X = Data.iloc[:,:-1]
y = Data.iloc[:,-1]
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
我正在尝试将我从 csv 读取到 pandas 数据帧的数据设置为 test_train_split
。我正在阅读的书说我应该将 x_train
作为数据和 y_train
作为目标,但是如何定义目标列和数据列?到目前为止我有以下
import pandas as pd
from sklearn.model_selection import train_test_split
Data = pd.read_csv("Data.csv")
我已经阅读过以下列方式进行拆分,但是下面使用的是已经定义了 data
和 target
的一堆:
X_train, X_test, y_train, y_test = train_test_split(businessleisure_data['data'],
iris_dataset['target'], random_state=0)
你可以这样做:
Data = pd.read_csv("Data.csv")
X = Data.drop(['name of the target column'],axis=1).values
y = Data['name of the target column'].values
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
在大多数情况下,目标变量是数据集的最后一列,因此您也可以尝试这样做:
Data = pd.read_csv("Data.csv")
X = Data.iloc[:,:-1]
y = Data.iloc[:,-1]
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)