使用 pandas 将分类值转换为二进制值
Converting categorical values to binary using pandas
我正在尝试使用 pandas 将分类值转换为二进制值。这个想法是将每个唯一的分类值视为一个特征(即一列),并根据特定对象(即行)是否分配给该类别来放置 1 或 0。以下是代码:
data = pd.read_csv('somedata.csv')
converted_val = data.T.to_dict().values()
vectorizer = DV( sparse = False )
vec_x = vectorizer.fit_transform( converted_val )
numpy.savetxt('out.csv',vec_x,fmt='%10.0f',delimiter=',')
我的问题是,如何使用列名保存转换后的数据?。在上面的代码中,我可以使用 numpy.savetxt
函数保存数据,但这只是保存了数组,列名丢失了。或者,有没有更有效的方法来执行上述操作?
您似乎正在使用 scikit-learn 的 DictVectorizer
将分类值转换为二进制值。在这种情况下,要将结果与新列名一起存储,您可以使用 vec_x
中的值和 DV.get_feature_names()
中的列构建一个新的 DataFrame。然后,将 DataFrame 存储到磁盘(例如使用 to_csv()
)而不是 numpy 数组。
或者,也可以使用pandas
直接用get_dummies
函数进行编码:
import pandas as pd
data = pd.DataFrame({'T': ['A', 'B', 'C', 'D', 'E']})
res = pd.get_dummies(data)
res.to_csv('output.csv')
print res
输出:
T_A T_B T_C T_D T_E
0 1 0 0 0 0
1 0 1 0 0 0
2 0 0 1 0 0
3 0 0 0 1 0
4 0 0 0 0 1
你是说"one-hot"编码?
假设您有以下数据集:
import pandas as pd
df = pd.DataFrame([
['green', 1, 10.1, 0],
['red', 2, 13.5, 1],
['blue', 3, 15.3, 0]])
df.columns = ['color', 'size', 'prize', 'class label']
df
现在,您有多种选择...
A) 乏味的方法
color_mapping = {
'green': (0,0,1),
'red': (0,1,0),
'blue': (1,0,0)}
df['color'] = df['color'].map(color_mapping)
df
import numpy as np
y = df['class label'].values
X = df.iloc[:, :-1].values
X = np.apply_along_axis(func1d= lambda x: np.array(list(x[0]) + list(x[1:])), axis=1, arr=X)
print('Class labels:', y)
print('\nFeatures:\n', X)
产量:
Class labels: [0 1 0]
Features:
[[ 0. 0. 1. 1. 10.1]
[ 0. 1. 0. 2. 13.5]
[ 1. 0. 0. 3. 15.3]]
B) Scikit-learn 的 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
dvec = DictVectorizer(sparse=False)
X = dvec.fit_transform(df.transpose().to_dict().values())
X
产量:
array([[ 0. , 0. , 1. , 0. , 10.1, 1. ],
[ 1. , 0. , 0. , 1. , 13.5, 2. ],
[ 0. , 1. , 0. , 0. , 15.3, 3. ]])
C) Pandas' get_dummies
pd.get_dummies(df)
我正在尝试使用 pandas 将分类值转换为二进制值。这个想法是将每个唯一的分类值视为一个特征(即一列),并根据特定对象(即行)是否分配给该类别来放置 1 或 0。以下是代码:
data = pd.read_csv('somedata.csv')
converted_val = data.T.to_dict().values()
vectorizer = DV( sparse = False )
vec_x = vectorizer.fit_transform( converted_val )
numpy.savetxt('out.csv',vec_x,fmt='%10.0f',delimiter=',')
我的问题是,如何使用列名保存转换后的数据?。在上面的代码中,我可以使用 numpy.savetxt
函数保存数据,但这只是保存了数组,列名丢失了。或者,有没有更有效的方法来执行上述操作?
您似乎正在使用 scikit-learn 的 DictVectorizer
将分类值转换为二进制值。在这种情况下,要将结果与新列名一起存储,您可以使用 vec_x
中的值和 DV.get_feature_names()
中的列构建一个新的 DataFrame。然后,将 DataFrame 存储到磁盘(例如使用 to_csv()
)而不是 numpy 数组。
或者,也可以使用pandas
直接用get_dummies
函数进行编码:
import pandas as pd
data = pd.DataFrame({'T': ['A', 'B', 'C', 'D', 'E']})
res = pd.get_dummies(data)
res.to_csv('output.csv')
print res
输出:
T_A T_B T_C T_D T_E
0 1 0 0 0 0
1 0 1 0 0 0
2 0 0 1 0 0
3 0 0 0 1 0
4 0 0 0 0 1
你是说"one-hot"编码?
假设您有以下数据集:
import pandas as pd
df = pd.DataFrame([
['green', 1, 10.1, 0],
['red', 2, 13.5, 1],
['blue', 3, 15.3, 0]])
df.columns = ['color', 'size', 'prize', 'class label']
df
现在,您有多种选择...
A) 乏味的方法
color_mapping = {
'green': (0,0,1),
'red': (0,1,0),
'blue': (1,0,0)}
df['color'] = df['color'].map(color_mapping)
df
import numpy as np
y = df['class label'].values
X = df.iloc[:, :-1].values
X = np.apply_along_axis(func1d= lambda x: np.array(list(x[0]) + list(x[1:])), axis=1, arr=X)
print('Class labels:', y)
print('\nFeatures:\n', X)
产量:
Class labels: [0 1 0]
Features:
[[ 0. 0. 1. 1. 10.1]
[ 0. 1. 0. 2. 13.5]
[ 1. 0. 0. 3. 15.3]]
B) Scikit-learn 的 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
dvec = DictVectorizer(sparse=False)
X = dvec.fit_transform(df.transpose().to_dict().values())
X
产量:
array([[ 0. , 0. , 1. , 0. , 10.1, 1. ],
[ 1. , 0. , 0. , 1. , 13.5, 2. ],
[ 0. , 1. , 0. , 0. , 15.3, 3. ]])
C) Pandas' get_dummies
pd.get_dummies(df)