使用归一化数据 pima indians 数据集的完美准确性
Perfect accuracy using normalized data pima indians dataset
我正在处理 sklearn
中使用 SVC
分类器的奇怪性能。我决定在 pima indians 数据集中使用 kfold cross validation
。因为我想尝试 SVC 分类器,所以我使用 MinMaxScaler(feature_range=(0, 1))
对数据进行归一化,以获得介于 0 和 1 之间的特征值。但是当我 运行 模型时,我在每次折叠中获得 100% 的准确度,这显然是不可能的.我在代码中寻找任何错误,但没有发现任何奇怪的东西。这是我的代码。对这种行为有什么建议吗?
PD:我显然加载了所有需要的库。我从这里 https://gist.github.com/ktisha/c21e73a1bd1700294ef790c56c8aec1f 下载数据集并对其进行解析,以便以后进行操作。我错过了一步吗?
col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
pima = pd.read_csv("pima dataset.txt",names = col_names)
X = pima[col_names].as_matrix()
y = pima.label.as_matrix()
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
# summarize transformed data
np.set_printoptions(precision=3)
#check transformations
print(rescaledX[0:5,:])
X_train, X_test, y_train, y_test = train_test_split(rescaledX,y, test_size = 0.2, random_state =42)
from sklearn.svm import SVC
import random
clf_1 = SVC(random_state = 42) #create a default model
clf_1.fit(X_train, y_train) #fitting the model
r_svc = [random.randrange(1,1000) for i in range(3)] #create a random seed for the 3 simulations.
scores_matrix_clf_1 = []
for i in r_svc:
kf = KFold(n_splits=10, shuffle = True, random_state = i)
kf.get_n_splits(X)
scores = cross_val_score(clf_1, X_train, y_train, cv=kf, n_jobs=-1, scoring = "accuracy")
print(' SCORES FOR EACH RANDOM THREE SEEDS',i)
print('-----------------------------SCORES----------------------------------------')
print(scores, scores.mean())
scores_matrix_clf_1.append(scores)
我得到的输出是这样的:
SCORES FOR EACH RANDOM THREE SEEDS 617
-----------------------------SCORES----------------------------------------
[ 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 1.0
SCORES FOR EACH RANDOM THREE SEEDS 764
-----------------------------SCORES----------------------------------------
[ 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 1.0
SCORES FOR EACH RANDOM THREE SEEDS 395
-----------------------------SCORES----------------------------------------
[ 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 1.0
您的 X
(输入数据集)包含您要预测的 label
列。这称为 data leakage,几乎总能达到 100% 的准确率,因为您在一列(特征)中为估算器提供了您想要预测的答案。
示例:
假设您有一个包含以下特征的数据集:
- 人类身高
- 人体重量
- 人脚尺寸
并且您想预测 sex
。
因此,如果您将 height
、weight
、foot size
和 sex
作为输入数据提供给您的模型将 sex
(再次)设置为输出向量,它将识别出最后一个特征 sex
具有最高的系数(权重),因为它总是 "predicts" 正确的性别。
我正在处理 sklearn
中使用 SVC
分类器的奇怪性能。我决定在 pima indians 数据集中使用 kfold cross validation
。因为我想尝试 SVC 分类器,所以我使用 MinMaxScaler(feature_range=(0, 1))
对数据进行归一化,以获得介于 0 和 1 之间的特征值。但是当我 运行 模型时,我在每次折叠中获得 100% 的准确度,这显然是不可能的.我在代码中寻找任何错误,但没有发现任何奇怪的东西。这是我的代码。对这种行为有什么建议吗?
PD:我显然加载了所有需要的库。我从这里 https://gist.github.com/ktisha/c21e73a1bd1700294ef790c56c8aec1f 下载数据集并对其进行解析,以便以后进行操作。我错过了一步吗?
col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
pima = pd.read_csv("pima dataset.txt",names = col_names)
X = pima[col_names].as_matrix()
y = pima.label.as_matrix()
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
# summarize transformed data
np.set_printoptions(precision=3)
#check transformations
print(rescaledX[0:5,:])
X_train, X_test, y_train, y_test = train_test_split(rescaledX,y, test_size = 0.2, random_state =42)
from sklearn.svm import SVC
import random
clf_1 = SVC(random_state = 42) #create a default model
clf_1.fit(X_train, y_train) #fitting the model
r_svc = [random.randrange(1,1000) for i in range(3)] #create a random seed for the 3 simulations.
scores_matrix_clf_1 = []
for i in r_svc:
kf = KFold(n_splits=10, shuffle = True, random_state = i)
kf.get_n_splits(X)
scores = cross_val_score(clf_1, X_train, y_train, cv=kf, n_jobs=-1, scoring = "accuracy")
print(' SCORES FOR EACH RANDOM THREE SEEDS',i)
print('-----------------------------SCORES----------------------------------------')
print(scores, scores.mean())
scores_matrix_clf_1.append(scores)
我得到的输出是这样的:
SCORES FOR EACH RANDOM THREE SEEDS 617
-----------------------------SCORES----------------------------------------
[ 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 1.0
SCORES FOR EACH RANDOM THREE SEEDS 764
-----------------------------SCORES----------------------------------------
[ 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 1.0
SCORES FOR EACH RANDOM THREE SEEDS 395
-----------------------------SCORES----------------------------------------
[ 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.] 1.0
您的 X
(输入数据集)包含您要预测的 label
列。这称为 data leakage,几乎总能达到 100% 的准确率,因为您在一列(特征)中为估算器提供了您想要预测的答案。
示例:
假设您有一个包含以下特征的数据集:
- 人类身高
- 人体重量
- 人脚尺寸
并且您想预测 sex
。
因此,如果您将 height
、weight
、foot size
和 sex
作为输入数据提供给您的模型将 sex
(再次)设置为输出向量,它将识别出最后一个特征 sex
具有最高的系数(权重),因为它总是 "predicts" 正确的性别。