如何 select 和使用不同数据类型的特征?

How to select and use features of varying datatypes?

我是机器学习的新手,虽然我的数据集上有一些 sci-kit 分类器 "working",但我不确定我是否正确使用了它们。我正在使用手标训练集进行监督学习。

问题是:我的数据集中的每一项都是一本字典,大约有。 80 个键,它们是我想用作特征的文本、布尔值或整数。我有大约 40,000 件物品,其中有大约 800 件是手工标记的。例如,我是想 select 只使用布尔特征,还是只使用整数?我是否需要对特征进行归一化(去除均值 + 尺度到单位方差)?我目前甚至不打算尝试分析文本,因此甚至不将这些功能提供给分类器可能是值得的。尝试各种 permutations/combinations 相同类型(整数)的特征是否愚蠢?也可能是我完全错误地接近我的数据集......它的形状是这样的:

[[a,b,c,...],[a,b,c,...],[a,b,c,...],...]

基本上我希望实现的是数据集中每个项目的二元分类,基本上只是 "Good" 或 "Bad" 根据我手工标记的内容。我读到一些分类器在不同的数据类型上工作得更好,比如伯努利朴素贝叶斯和 K 最近邻在 "decision boundary is very irregular".

时工作

最终,我想要比较几种不同算法的分类器准确性,此外还希望分离出一种对我的数据分类实际上准确的算法...

scikit-learn 中的所有分类器都需要数字数据。布尔特征很好,对于整数特征,这取决于它们编码的是分类数据、序数数据还是数字数据。

你需要做的预处理取决于特征的类型,而不是你是否要组合它们。将它们结合起来可能是个好主意。

您可以使用 CountVectorizer 或 TFIDFVectorizer 对文本数据进行简单的转换。