使用我的汽车数据集进行机器学习

Machine learning with my car dataset

我对机器学习还很陌生。我有一个数据集，其中包含 f1 比赛给我的数据。用户正在玩这个游戏并给我这个数据集。通过机器学习，我必须处理这些数据，当用户（我知道他们是 10 岁）玩游戏时，我必须识别谁在玩。

数据由1/10秒频率出现的数据包组成，数据包包含以下内容Time, laptime, lapdistance, totaldistance, speed, car position, traction control, last lap time, fuel, gear,..

我想过使用以监督方式使用的 kmeans。哪种算法可能更好？

这个问题比较宽泛，所以我会尽力而为

kmeans 是一种无监督算法，这意味着它会找到类本身，当你知道有多个类但你不知道它们到底是什么时最好使用它......使用它使用标记数据意味着您将计算新向量 v 与数据集中每个向量的距离，并选择给出最小距离的向量（或使用多数票的向量），这不被视为机器学习

在这种情况下，当您确实有标签时，监督方法会产生更好的结果

我建议先尝试random forest and logistic regression，这些是最基本和最常见的算法，它们给出了很好的结果

如果您没有达到所需的准确度，您可以使用深度学习并构建一个神经网络，其输入层与您的数据包的值一样大，输出层的数量为类，您可以在两者之间使用具有不同节点的一个或多个隐藏层，但这是高级方法，你最好在学习之前先了解一些机器学习领域的经验

注意：数据是一个时间序列，意味着每个driver都有自己的驾驶行为，所以数据应该被认为是大量的点，这样你就可以应用模式匹配技术，也有几个神经网络正是为这些数据构建的（比如 RNN），但这远远先进并且更难实现

任务必须是多类分类。任何机器学习 activity 的第一步都是定义分数指标 (https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/)。这使您可以比较它们之间的模型并决定哪个更好。然后按照另一个答案中的建议使用随机森林 or/and 逻辑回归构建一个基础模型 - 它们开箱即用。然后尝试使用特征并了解它们中的哪些信息量更大。并且不要忘记可视化 - 它们为数据整理等提供了许多提示。

使用我的汽车数据集进行机器学习

Machine learning with my car dataset

classification

machine-learning

machine-learning-model