哪种机器学习技术在这种情况下最有效?
Which Machine Learning technique is most valid in this scenario?
我是机器学习的新手,最近一直在研究一个新的分类问题,我将在下面给出 link。因为我对汽车感兴趣,所以我决定使用一个数据集来处理基于多个属性的汽车分类。
http://archive.ics.uci.edu/ml/datasets/Car+Evaluation
现在,我知道可能有多种方法可以处理这种特殊情况,但这里真正的问题是 - 哪种特定算法可能最有效?
我正在考虑回归、SVM、KNN 和隐马尔可夫模型。任何建议都将不胜感激。
您有 1728 个样本的多重 class class 化问题。特征分为 6 组:
buying v-high, high, med, low
maint v-high, high, med, low
doors 2, 3, 4, 5-more
persons 2, 4, more
lug_boot small, med, big
safety low, med, high
你需要为特征做的是创建这样的特征:
buying_v-high, buying-high, buying-med, buying-low, maint-v-high, ...
最后你会得到
4+4+4+3+3+3 = 21
特征。输出 classes 是:
class N N[%]
-----------------------------
unacc 1210 (70.023 %)
acc 384 (22.222 %)
good 69 ( 3.993 %)
v-good 65 ( 3.762 %)
您需要尝试几种 class化算法,看看哪一种效果更好。对于评估,您可以使用交叉验证,或者您可以放置 728 或样本并对其进行评估。
对于 class化模型,您可以迭代机器学习库中可用的 10 种不同的 class化模型,并检查哪一个更好。为简单起见,我建议使用 scikit-learn。
您可以在 this script.
中的多个 classifier 上找到一个简单的迭代器
请记住,您需要为每个模型调整一些参数,而不应在测试集上调整它们。所以最好把你的样本分成1000(训练集)、350(开发集)、378(测试集)。使用开发集调整您的参数并选择性能最佳的模型,然后使用测试集在未见数据上评估该模型。
我是机器学习的新手,最近一直在研究一个新的分类问题,我将在下面给出 link。因为我对汽车感兴趣,所以我决定使用一个数据集来处理基于多个属性的汽车分类。
http://archive.ics.uci.edu/ml/datasets/Car+Evaluation
现在,我知道可能有多种方法可以处理这种特殊情况,但这里真正的问题是 - 哪种特定算法可能最有效?
我正在考虑回归、SVM、KNN 和隐马尔可夫模型。任何建议都将不胜感激。
您有 1728 个样本的多重 class class 化问题。特征分为 6 组:
buying v-high, high, med, low
maint v-high, high, med, low
doors 2, 3, 4, 5-more
persons 2, 4, more
lug_boot small, med, big
safety low, med, high
你需要为特征做的是创建这样的特征:
buying_v-high, buying-high, buying-med, buying-low, maint-v-high, ...
最后你会得到
4+4+4+3+3+3 = 21
特征。输出 classes 是:
class N N[%]
-----------------------------
unacc 1210 (70.023 %)
acc 384 (22.222 %)
good 69 ( 3.993 %)
v-good 65 ( 3.762 %)
您需要尝试几种 class化算法,看看哪一种效果更好。对于评估,您可以使用交叉验证,或者您可以放置 728 或样本并对其进行评估。
对于 class化模型,您可以迭代机器学习库中可用的 10 种不同的 class化模型,并检查哪一个更好。为简单起见,我建议使用 scikit-learn。
您可以在 this script.
中的多个 classifier 上找到一个简单的迭代器请记住,您需要为每个模型调整一些参数,而不应在测试集上调整它们。所以最好把你的样本分成1000(训练集)、350(开发集)、378(测试集)。使用开发集调整您的参数并选择性能最佳的模型,然后使用测试集在未见数据上评估该模型。