如何在 pandas 列中创建单词的二进制表示?
How to create binary representations of words in pandas column?
我有一列包含可变大小的列表。这些列表包含有限数量的短文本值。大约 60 个唯一值。
0 ["AC","BB"]
1 ["AD","CB", "FF"]
2 ["AA","CC"]
3 ["CA","BB"]
4 ["AA"]
我想在我的数据框中创建此值列,如果值在此行中,则此列的值为 1,否则为 0。
我知道我可以扩展列表,而不是调用 unique 并将它们设置为新列。但是之后就不知道怎么办了?
这是一种方法:
df = pd.get_dummies(df.explode('val')).sum(level = 0)
注意: 这里 (level=0)
有点像使用索引对内容进行分组的分组操作。所以,我更喜欢在分解数据框后使用它。
我有一列包含可变大小的列表。这些列表包含有限数量的短文本值。大约 60 个唯一值。
0 ["AC","BB"]
1 ["AD","CB", "FF"]
2 ["AA","CC"]
3 ["CA","BB"]
4 ["AA"]
我想在我的数据框中创建此值列,如果值在此行中,则此列的值为 1,否则为 0。
我知道我可以扩展列表,而不是调用 unique 并将它们设置为新列。但是之后就不知道怎么办了?
这是一种方法:
df = pd.get_dummies(df.explode('val')).sum(level = 0)
注意: 这里 (level=0)
有点像使用索引对内容进行分组的分组操作。所以,我更喜欢在分解数据框后使用它。