哪种机器学习技术在这种情况下最有效?

Which Machine Learning technique is most valid in this scenario?

我是机器学习的新手,最近一直在研究一个新的分类问题,我将在下面给出 link。因为我对汽车感兴趣,所以我决定使用一个数据集来处理基于多个属性的汽车分类。

http://archive.ics.uci.edu/ml/datasets/Car+Evaluation

现在,我知道可能有多种方法可以处理这种特殊情况,但这里真正的问题是 - 哪种特定算法可能最有效?

我正在考虑回归、SVM、KNN 和隐马尔可夫模型。任何建议都将不胜感激。

您有 1728 个样本的多重 class class 化问题。特征分为 6 组:

buying       v-high, high, med, low
maint        v-high, high, med, low
doors        2, 3, 4, 5-more
persons      2, 4, more
lug_boot     small, med, big
safety       low, med, high

你需要为特征做的是创建这样的特征:

buying_v-high, buying-high, buying-med, buying-low, maint-v-high, ...

最后你会得到

4+4+4+3+3+3 = 21

特征。输出 classes 是:

class      N          N[%]
-----------------------------
unacc     1210     (70.023 %) 
acc        384     (22.222 %) 
good        69     ( 3.993 %) 
v-good      65     ( 3.762 %)  

您需要尝试几种 class化算法,看看哪一种效果更好。对于评估,您可以使用交叉验证,或者您可以放置​​ 728 或样本并对其进行评估。

对于 class化模型,您可以迭代机器学习库中可用的 10 种不同的 class化模型,并检查哪一个更好。为简单起见,我建议使用 scikit-learn。

您可以在 this script.

中的多个 classifier 上找到一个简单的迭代器

请记住,您需要为每个模型调整一些参数,而不应在测试集上调整它们。所以最好把你的样本分成1000(训练集)、350(开发集)、378(测试集)。使用开发集调整您的参数并选择性能最佳的模型,然后使用测试集在未见数据上评估该模型。