如何一起训练不同特征类型的分类器?像字符串、数字、分类、时间戳等

How train a classifier on different feature types together? Like String,numeric,Categorical, timestamp etc

我是机器学习领域的新手。我参加了 Udacity 的 "Introduction to Machine Learning" 课程。所以我知道 运行 使用 sklearn 和 python 的基本分类器。但是他们在课程中教授的所有分类器都是针对单一数据类型进行训练的。

我有一个问题,我想将代码提交分类为 "clean" 或 "buggy"。 我有一个功能集,其中包含字符串数据(如人名)、分类数据(比如 "clean" 与 "buggy")、数字数据(如提交次数)和时间戳数据(如提交时间).如何同时训练基于这三个特征的分类器。假设我计划使用朴素贝叶斯分类器和 sklearn。请帮忙!

我正在尝试实施 paper。任何帮助都将不胜感激。

逻辑回归、随机森林、决策树和 SVM 等许多机器学习分类器都可以很好地处理连续特征和分类特征。我的猜测是您有两条路可走。第一个是数据预处理。例如,将所有 string/cateogorical 数据(人名)转换为整数,或者您可以使用 集成学习 .

集成学习是指当您使用多数表决组合不同的分类器(每个分类器处理一种异构特征)时,例如,它们可以在分类中找到共识。希望对你有帮助。