一个热编码器:如何对同一类别的多个值进行编码?
one hot encoder: how to encode multible value of same category?
我要预测一部电影的票房。假设只有一个分类特征 "actors" 的值为 "A"、"B"、"C"。我将它们编码为 [1,0,0],[0,1,0],[0,0,1]
,如果电影有多个演员,例如 A 和 B,我应该将其编码为 [1,1,0]
还是 [1,0,0,0,1,0]
您应该将每个表示为整数,然后 or
将它们表示在一起
A=int("100",2)
B=int("010",2)
C=int("001",2)
print A,B,C
movie = A|B
print movie
print bin(movie)
我要预测一部电影的票房。假设只有一个分类特征 "actors" 的值为 "A"、"B"、"C"。我将它们编码为 [1,0,0],[0,1,0],[0,0,1]
,如果电影有多个演员,例如 A 和 B,我应该将其编码为 [1,1,0]
还是 [1,0,0,0,1,0]
您应该将每个表示为整数,然后 or
将它们表示在一起
A=int("100",2)
B=int("010",2)
C=int("001",2)
print A,B,C
movie = A|B
print movie
print bin(movie)