使用我的汽车数据集进行机器学习

Machine learning with my car dataset

我对机器学习还很陌生。 我有一个数据集,其中包含 f1 比赛给我的数据。用户正在玩这个游戏并给我这个数据集。 通过机器学习,我必须处理这些数据,当用户(我知道他们是 10 岁)玩游戏时,我必须识别谁在玩。

数据由1/10秒频率出现的数据包组成,数据包包含以下内容Time, laptime, lapdistance, totaldistance, speed, car position, traction control, last lap time, fuel, gear,..

我想过使用以监督方式使用的 kmeans。 哪种算法可能更好?

这个问题比较宽泛,所以我会尽力而为

kmeans 是一种无监督算法,这意味着它会找到 类 本身,当你知道有多个 类 但你不知道它们到底是什么时最好使用它......使用它使用标记数据意味着您将计算新向量 v 与数据集中每个向量的距离,并选择给出最小距离的向量(或使用多数票的向量),这不被视为机器学习

在这种情况下,当您确实有标签时,监督方法会产生更好的结果

我建议先尝试random forest and logistic regression,这些是最基本和最常见的算法,它们给出了很好的结果

如果您没有达到所需的准确度,您可以使用深度学习并构建一个神经网络,其输入层与您的数据包的值一样大,输出层的数量为 类,您可以在两者之间使用具有不同节点的一个或多个隐藏层,但这是高级方法,你最好在学习之前先了解一些机器学习领域的经验

注意:数据是一个时间序列,意味着每个driver都有自己的驾驶行为,所以数据应该被认为是大量的点,这样你就可以应用模式匹配技术,也有几个神经网络正是为这些数据构建的(比如 RNN),但这远远先进并且更难实现

任务必须是多类分类。任何机器学习 activity 的第一步都是定义分数指标 (https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/)。这使您可以比较它们之间的模型并决定哪个更好。然后按照另一个答案中的建议使用随机森林 or/and 逻辑回归构建一个基础模型 - 它们开箱即用。然后尝试使用特征并了解它们中的哪些信息量更大。并且不要忘记可视化 - 它们为数据整理等提供了许多提示。