从混合数据集中选择特征
Feature Selection from Mixed dataset
我是数据科学领域的新手。
我有一个数据集,它既有数字也有字符串 data.The 有趣的是这两种类型的数据都对结果有意义。如何从数据集中选择相关特征?
我是否应该使用 LabelEncoder 并将数据从字符串转换为数字并继续关联?我走的路对吗?有没有更好的办法解决这场危机?
有点逃避,但您可以简单地使用随机森林并愉快地混合数值数据和分类数据。在 OneHotEncoding 上使用 LabelEncoder 进行编码将允许您使用更多种类的算法。
如果对可用值进行有意义的排序并确保在编码中保留排序,则可以使用标签编码对分类变量进行编码。有关示例,请参阅 here。
如果没有排序(或者解析一个有意义的排序是太多的工作),您可以使用单热编码。但是,这会根据数据集中特征的不同值按比例增加特征集。
如果 one-hot 产生非常大的特征集并且分类字符串数据是自然语言词,您可能需要使用预训练嵌入。
无论哪种方式,您都可以将编码的分类列连接到连续特征集,然后继续进行学习和特征选择。
我是数据科学领域的新手。
我有一个数据集,它既有数字也有字符串 data.The 有趣的是这两种类型的数据都对结果有意义。如何从数据集中选择相关特征?
我是否应该使用 LabelEncoder 并将数据从字符串转换为数字并继续关联?我走的路对吗?有没有更好的办法解决这场危机?
有点逃避,但您可以简单地使用随机森林并愉快地混合数值数据和分类数据。在 OneHotEncoding 上使用 LabelEncoder 进行编码将允许您使用更多种类的算法。
如果对可用值进行有意义的排序并确保在编码中保留排序,则可以使用标签编码对分类变量进行编码。有关示例,请参阅 here。
如果没有排序(或者解析一个有意义的排序是太多的工作),您可以使用单热编码。但是,这会根据数据集中特征的不同值按比例增加特征集。
如果 one-hot 产生非常大的特征集并且分类字符串数据是自然语言词,您可能需要使用预训练嵌入。
无论哪种方式,您都可以将编码的分类列连接到连续特征集,然后继续进行学习和特征选择。