一个热编码器:如何对同一类别的多个值进行编码?

one hot encoder: how to encode multible value of same category?

我要预测一部电影的票房。假设只有一个分类特征 "actors" 的值为 "A"、"B"、"C"。我将它们编码为 [1,0,0],[0,1,0],[0,0,1],如果电影有多个演员,例如 A 和 B,我应该将其编码为 [1,1,0] 还是 [1,0,0,0,1,0]

您应该将每个表示为整数,然后 or 将它们表示在一起

A=int("100",2)
B=int("010",2)
C=int("001",2)
print A,B,C
movie = A|B
print movie
print bin(movie)