如何在 MLBase 中将类别变量转换为 dummy/indicator 变量
How to transform category variable to dummy/indicator variable in MLBase
我正在尝试使用 MLBase 中的逻辑回归模型来预测广告的点击率。在我的数据集中,我有一些类别变量,我想将它们转换为用作模型输入的 dummy/indicator 变量。我的数据看起来像
"log_time","country","gender"
"2015-05-19","USA","M"
"2015-05-20","IND","F"
是否有一些解决方案可以在 MLBase 或 scala 中完成转换?
您要找的是one hot encoding。
Spark 的 MLlib has a one hot encoder 可以为您做到这一点。
我正在尝试使用 MLBase 中的逻辑回归模型来预测广告的点击率。在我的数据集中,我有一些类别变量,我想将它们转换为用作模型输入的 dummy/indicator 变量。我的数据看起来像
"log_time","country","gender"
"2015-05-19","USA","M"
"2015-05-20","IND","F"
是否有一些解决方案可以在 MLBase 或 scala 中完成转换?
您要找的是one hot encoding。
Spark 的 MLlib has a one hot encoder 可以为您做到这一点。