one-hot编码和现有数据

one-hot encoding and existing data

我有一个 numpy 数组 (N,M),其中一些列应该是单热编码的。请帮助使用 numpy and/or tensorflow 进行一次性编码。

示例:

[
[ 0.993, 0, 0.88 ]
[ 0.234, 1, 1.00 ]
[ 0.235, 2, 1.01 ]
.....
]

此处的第 2 列(值为 3 和 2)应该是热编码的,我知道只有 3 个不同的值(0、1、2)。

生成的数组应如下所示:

[
[ 0.993, 0.88, 0, 0, 0 ]
[ 0.234, 1.00, 0, 1, 0 ]
[ 0.235, 1.01, 1, 0, 0 ]
.....
]

这样我就可以将这个数组输入到 tensorflow 中。 请注意,第二列已被删除,并且它的单热版本附加在每个子数组的末尾。

如有任何帮助,我们将不胜感激。 提前致谢。

更新:

这是我现在拥有的: 好吧,不完全是... 1. 我在数组中有超过 3 列......但我仍然想只用 2nd.. 2. 第一个数组是结构化的,即它的形状是(N,)

这是我的:

def one_hot(value, max_value):
    value = int(value)
    a = np.zeros(max_value, 'uint8')
    if value != 0:
        a[value] = 1
    return a

# data is structured array with the shape of (N,)
# it has strings, ints, floats inside..
# was get by np.genfromtxt(dtype=None)

unique_values = dict()
unique_values['categorical1'] = 1
unique_values['categorical2'] = 2
for row in data:
   row[col] = unique_values[row[col]]

codes = np.zeros((data.shape[0], len(unique_values)))

idx = 0
for row in data:
   codes[idx] = one_hot(row[col], len(unique_values))  # could be optimised by not creating new array every time
   idx += 1

data = np.c_[data[:, [range(0, col), range(col + 1, 32)]], codes[data[:, col].astype(int)]]

还尝试通过以下方式连接:

print data.shape # shape (5000,)
print codes.shape # shape (5000,3)
data = np.concatenate((data, codes), axis=1)

这是一种方法 -

In [384]: a # input array
Out[384]: 
array([[ 0.993,  0.   ,  0.88 ],
       [ 0.234,  1.   ,  1.   ],
       [ 0.235,  2.   ,  1.01 ]])

In [385]: codes = np.array([[0,0,0],[0,1,0],[1,0,0]]) # define codes here

In [387]: codes
Out[387]: 
array([[0, 0, 0],   # encoding for 0
       [0, 1, 0],   # encoding for 1
       [1, 0, 0]])  # encoding for 2

# Slice out the second column and append one-hot encoded array
In [386]: np.c_[a[:,[0,2]], codes[a[:,1].astype(int)]]
Out[386]: 
array([[ 0.993,  0.88 ,  0.   ,  0.   ,  0.   ],
       [ 0.234,  1.   ,  0.   ,  1.   ,  0.   ],
       [ 0.235,  1.01 ,  1.   ,  0.   ,  0.   ]])