哪种机器学习技术在这种情况下最有效？

Question

我是机器学习的新手，最近一直在研究一个新的分类问题，我将在下面给出 link。因为我对汽车感兴趣，所以我决定使用一个数据集来处理基于多个属性的汽车分类。

http://archive.ics.uci.edu/ml/datasets/Car+Evaluation

现在，我知道可能有多种方法可以处理这种特殊情况，但这里真正的问题是 - 哪种特定算法可能最有效？

我正在考虑回归、SVM、KNN 和隐马尔可夫模型。任何建议都将不胜感激。

Answer 1

您有 1728 个样本的多重 class class 化问题。特征分为 6 组：

buying       v-high, high, med, low
maint        v-high, high, med, low
doors        2, 3, 4, 5-more
persons      2, 4, more
lug_boot     small, med, big
safety       low, med, high

你需要为特征做的是创建这样的特征：

buying_v-high, buying-high, buying-med, buying-low, maint-v-high, ...

最后你会得到

4+4+4+3+3+3 = 21

特征。输出 classes 是：

class      N          N[%]
-----------------------------
unacc     1210     (70.023 %) 
acc        384     (22.222 %) 
good        69     ( 3.993 %) 
v-good      65     ( 3.762 %)

您需要尝试几种 class化算法，看看哪一种效果更好。对于评估，您可以使用交叉验证，或者您可以放置 728 或样本并对其进行评估。

对于 class化模型，您可以迭代机器学习库中可用的 10 种不同的 class化模型，并检查哪一个更好。为简单起见，我建议使用 scikit-learn。

您可以在 this script.

中的多个 classifier 上找到一个简单的迭代器

请记住，您需要为每个模型调整一些参数，而不应在测试集上调整它们。所以最好把你的样本分成1000（训练集）、350（开发集）、378（测试集）。使用开发集调整您的参数并选择性能最佳的模型，然后使用测试集在未见数据上评估该模型。

哪种机器学习技术在这种情况下最有效？

Which Machine Learning technique is most valid in this scenario?

machine-learning

svm

linear-regression

hidden-markov-models

logistic-regression