预处理 csv 文件以与 tflearn 一起使用
Preprocessing csv files to use with tflearn
我的问题是关于在将 csv 文件输入神经网络之前对其进行预处理。
我想在 python 3.
中使用 tflearn 为著名的鸢尾花数据集构建一个深度神经网络
数据集:http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
我正在使用 tflearn 加载 csv 文件。但是,我的数据集的 类 列有 iris-setosa、iris-versicolor、iris-virginica 等词。
神经网络只能处理数字。所以,我必须找到一种方法将 类 从单词更改为数字。由于它是一个非常小的数据集,我可以使用 Excel/text 编辑器手动完成。我为不同的 类.
手动分配了编号
但是,我不可能对我使用的每个数据集都这样做。因此,我尝试使用 pandas 执行一次热编码。
preprocess_data = pd.read_csv("F:\Gautam\.....\Dataset\iris_data.csv")
preprocess_data = pd.get_dummies(preprocess_data)
但是现在,我无法使用这段代码:
data, labels = load_csv('filepath', categorical_labels=True,
n_classes=3)
'filepath' 应该只是 csv 文件的目录,而不是像 preprocess_data.
这样的任何变量
原始数据集:
Sepal Length Sepal Width Petal Length Petal Width Class
89 5.5 2.5 4.0 1.3 iris-versicolor
85 6.0 3.4 4.5 1.6 iris-versicolor
31 5.4 3.4 1.5 0.4 iris-setosa
52 6.9 3.1 4.9 1.5 iris-versicolor
111 6.4 2.7 5.3 1.9 iris-virginica
手动修改的数据集:
Sepal Length Sepal Width Petal Length Petal Width Class
89 5.5 2.5 4.0 1.3 1
85 6.0 3.4 4.5 1.6 1
31 5.4 3.4 1.5 0.4 0
52 6.9 3.1 4.9 1.5 1
111 6.4 2.7 5.3 1.9 2
这是我的代码,运行完美,但是,我手动修改了数据集。
import numpy as np
import pandas as pd
import tflearn
from tflearn.layers.core import input_data, fully_connected
from tflearn.layers.estimator import regression
from tflearn.data_utils import load_csv
data_source = 'F:\Gautam\.....\Dataset\iris_data.csv'
data, labels = load_csv(data_source, categorical_labels=True,
n_classes=3)
network = input_data(shape=[None, 4], name='InputLayer')
network = fully_connected(network, 9, activation='sigmoid', name='Hidden_Layer_1')
network = fully_connected(network, 3, activation='softmax', name='Output_Layer')
network = regression(network, batch_size=1, optimizer='sgd', learning_rate=0.2)
model = tflearn.DNN(network)
model.fit(data, labels, show_metric=True, run_id='iris_dataset', validation_set=0.1, n_epoch=2000)
我想知道 tflearn(或任何其他模块)中是否有任何其他内置函数可用于将 类 的值从单词修改为数字。我不认为手动修改数据集会有成效。
我也是 tflearn 和神经网络的初学者。任何帮助,将不胜感激。谢谢。
最简单的解决方案是 map
乘以 dict
所有可能的值:
df['Class'] = df['Class'].map({'iris-versicolor': 1, 'iris-setosa': 0, 'iris-virginica': 2})
print (df)
Sepal Length Sepal Width Petal Length Petal Width Class
0 89 5.5 2.5 4.0 1.3 1
1 85 6.0 3.4 4.5 1.6 1
2 31 5.4 3.4 1.5 0.4 0
3 52 6.9 3.1 4.9 1.5 1
4 111 6.4 2.7 5.3 1.9 2
如果要通过所有唯一值生成 dictionary
:
d = {v:k for k, v in enumerate(df['Class'].unique())}
print (d)
{'iris-versicolor': 0, 'iris-virginica': 2, 'iris-setosa': 1}
df['Class'] = df['Class'].map(d)
print (df)
Sepal Length Sepal Width Petal Length Petal Width Class
0 89 5.5 2.5 4.0 1.3 0
1 85 6.0 3.4 4.5 1.6 0
2 31 5.4 3.4 1.5 0.4 1
3 52 6.9 3.1 4.9 1.5 0
4 111 6.4 2.7 5.3 1.9 2
使用来自 sklearn
库的标签编码器:
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
df = pd.read_csv('iris_data.csv',header=None)
df.columns=[Sepal Length,Sepal Width,Petal Length,Petal Width,Class]
enc=LabelEncoder()
df['Class']=enc.fit_transform(df['Class'])
print df.head(5)
如果你想要 One-hot encoding
那么首先你需要 labelEncode 然后做 OneHotEncoding :
enc=LabelEncoder()
enc_1=OneHotEncoder()
df['Class']=enc.fit_transform(df['Class'])
df['Class']=enc_1.fit_transform([df['Class']]).toarray()
print df.head(5)
这些编码器首先按字母顺序对单词进行排序,然后为其分配标签。如果您想查看哪个标签分配给哪个 class,请执行:
for k in list(enc.classes_) :
print 'name ::{}, label ::{}'.format(k,enc.transform([k]))
如果要将此数据框保存为 csv 文件,请执行以下操作:
df.to_csv('Processed_Irisdataset.csv',sep=',')
我的问题是关于在将 csv 文件输入神经网络之前对其进行预处理。
我想在 python 3.
中使用 tflearn 为著名的鸢尾花数据集构建一个深度神经网络数据集:http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
我正在使用 tflearn 加载 csv 文件。但是,我的数据集的 类 列有 iris-setosa、iris-versicolor、iris-virginica 等词。
神经网络只能处理数字。所以,我必须找到一种方法将 类 从单词更改为数字。由于它是一个非常小的数据集,我可以使用 Excel/text 编辑器手动完成。我为不同的 类.
手动分配了编号但是,我不可能对我使用的每个数据集都这样做。因此,我尝试使用 pandas 执行一次热编码。
preprocess_data = pd.read_csv("F:\Gautam\.....\Dataset\iris_data.csv")
preprocess_data = pd.get_dummies(preprocess_data)
但是现在,我无法使用这段代码:
data, labels = load_csv('filepath', categorical_labels=True,
n_classes=3)
'filepath' 应该只是 csv 文件的目录,而不是像 preprocess_data.
这样的任何变量原始数据集:
Sepal Length Sepal Width Petal Length Petal Width Class
89 5.5 2.5 4.0 1.3 iris-versicolor
85 6.0 3.4 4.5 1.6 iris-versicolor
31 5.4 3.4 1.5 0.4 iris-setosa
52 6.9 3.1 4.9 1.5 iris-versicolor
111 6.4 2.7 5.3 1.9 iris-virginica
手动修改的数据集:
Sepal Length Sepal Width Petal Length Petal Width Class
89 5.5 2.5 4.0 1.3 1
85 6.0 3.4 4.5 1.6 1
31 5.4 3.4 1.5 0.4 0
52 6.9 3.1 4.9 1.5 1
111 6.4 2.7 5.3 1.9 2
这是我的代码,运行完美,但是,我手动修改了数据集。
import numpy as np
import pandas as pd
import tflearn
from tflearn.layers.core import input_data, fully_connected
from tflearn.layers.estimator import regression
from tflearn.data_utils import load_csv
data_source = 'F:\Gautam\.....\Dataset\iris_data.csv'
data, labels = load_csv(data_source, categorical_labels=True,
n_classes=3)
network = input_data(shape=[None, 4], name='InputLayer')
network = fully_connected(network, 9, activation='sigmoid', name='Hidden_Layer_1')
network = fully_connected(network, 3, activation='softmax', name='Output_Layer')
network = regression(network, batch_size=1, optimizer='sgd', learning_rate=0.2)
model = tflearn.DNN(network)
model.fit(data, labels, show_metric=True, run_id='iris_dataset', validation_set=0.1, n_epoch=2000)
我想知道 tflearn(或任何其他模块)中是否有任何其他内置函数可用于将 类 的值从单词修改为数字。我不认为手动修改数据集会有成效。
我也是 tflearn 和神经网络的初学者。任何帮助,将不胜感激。谢谢。
最简单的解决方案是 map
乘以 dict
所有可能的值:
df['Class'] = df['Class'].map({'iris-versicolor': 1, 'iris-setosa': 0, 'iris-virginica': 2})
print (df)
Sepal Length Sepal Width Petal Length Petal Width Class
0 89 5.5 2.5 4.0 1.3 1
1 85 6.0 3.4 4.5 1.6 1
2 31 5.4 3.4 1.5 0.4 0
3 52 6.9 3.1 4.9 1.5 1
4 111 6.4 2.7 5.3 1.9 2
如果要通过所有唯一值生成 dictionary
:
d = {v:k for k, v in enumerate(df['Class'].unique())}
print (d)
{'iris-versicolor': 0, 'iris-virginica': 2, 'iris-setosa': 1}
df['Class'] = df['Class'].map(d)
print (df)
Sepal Length Sepal Width Petal Length Petal Width Class
0 89 5.5 2.5 4.0 1.3 0
1 85 6.0 3.4 4.5 1.6 0
2 31 5.4 3.4 1.5 0.4 1
3 52 6.9 3.1 4.9 1.5 0
4 111 6.4 2.7 5.3 1.9 2
使用来自 sklearn
库的标签编码器:
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
df = pd.read_csv('iris_data.csv',header=None)
df.columns=[Sepal Length,Sepal Width,Petal Length,Petal Width,Class]
enc=LabelEncoder()
df['Class']=enc.fit_transform(df['Class'])
print df.head(5)
如果你想要 One-hot encoding
那么首先你需要 labelEncode 然后做 OneHotEncoding :
enc=LabelEncoder()
enc_1=OneHotEncoder()
df['Class']=enc.fit_transform(df['Class'])
df['Class']=enc_1.fit_transform([df['Class']]).toarray()
print df.head(5)
这些编码器首先按字母顺序对单词进行排序,然后为其分配标签。如果您想查看哪个标签分配给哪个 class,请执行:
for k in list(enc.classes_) :
print 'name ::{}, label ::{}'.format(k,enc.transform([k]))
如果要将此数据框保存为 csv 文件,请执行以下操作:
df.to_csv('Processed_Irisdataset.csv',sep=',')