如何基于跨差异列的值创建特征列
How to create features columns based on values across diff columns
您好,我正在尝试在 Orange 中进行一次热编码,以便进行购物篮分析。
目前我的 CSV 中有如下交易数据:
C#
Items
C1
Apple
Orange
C2
Baby Milk
Apple
Orange
我想知道我可以执行哪些步骤来处理 orange 或其他软件中的数据,以便我能够为我的数据获取此状态
C#
Apple
Orange
Baby Milk
C1
1
1
0
C2
1
1
1
目前,当我尝试使用“连续离散变量 - 每行一个特征”预处理橙色数据时,我得到了单独的特征值列。
这并不完全简单,但您可以用逗号或分号连接您的产品,将其传递给语料库,根据您的连接字符(逗号、分号)和正则表达式应用标记化,然后使用词袋文字附加。我已经尝试使用 Associate 附加组件,它似乎有效。
您好,我正在尝试在 Orange 中进行一次热编码,以便进行购物篮分析。
目前我的 CSV 中有如下交易数据:
C# | Items | ||
---|---|---|---|
C1 | Apple | Orange | |
C2 | Baby Milk | Apple | Orange |
我想知道我可以执行哪些步骤来处理 orange 或其他软件中的数据,以便我能够为我的数据获取此状态
C# | Apple | Orange | Baby Milk |
---|---|---|---|
C1 | 1 | 1 | 0 |
C2 | 1 | 1 | 1 |
目前,当我尝试使用“连续离散变量 - 每行一个特征”预处理橙色数据时,我得到了单独的特征值列。
这并不完全简单,但您可以用逗号或分号连接您的产品,将其传递给语料库,根据您的连接字符(逗号、分号)和正则表达式应用标记化,然后使用词袋文字附加。我已经尝试使用 Associate 附加组件,它似乎有效。