使用模型的预测分数作为运动质量评估器

Using model's prediction score as movement quality evaluator

让我们以使用传感器数据(来自 iPhone 传感器的加速度计和陀螺仪数据)评估非常短的舞蹈动作(短语)的任务为例。如果模型对特定舞蹈短语的置信度为 100%,则不一定意味着用户完美地执行了该动作短语。

鉴于此任务包含非常短的动作(1-2 秒),鉴于正在处理非常高质量的数据集(传感器数据),鉴于模型在对这些动作短语进行分类时具有非常高的准确性(动作)假设这个动作分类器也可以作为运动评估器是否公平?

例如,我们可以设置 50% 的阈值并根据模型的置信度评估运动,即如果模型有 40% 的置信度认为该运动(我们事先知道地面实况)是 X,我们说用户没有正确执行动作,但如果模型有 90% 的置信度,我们就说动作执行正确。换句话说,我们根据模型的置信度向用户反馈他的表现。

或者它仍然没有关系,我们不能简单地得出结论,一个鲁棒的动作分类器可以被视为一个潜在的动作评估器?

或者,如果我提供某些数据定性特征(例如 25th50th75th 百分位数(某些尖峰在这些点弥补了我这种数据的质量)以及平均值和 S.D。对于每个传感器作为注意力模型的特征的推理,因为我将这些作为输入特征提供给模型,分类器的预测现在可能已经稍微微调到评估者的预测?

你自己说的; “并不一定意味着用户完美地执行了这个动作短语。”你的模型从短语中提取的特征集不一定是评估非常短的动作(子动作,如果你愿意的话)质量的良好候选者,除非你的模型经过训练以保持这些非常短的动作中的一致性。

您可以在损失函数中解决这个问题。而您实现这一目标的方式几乎完全取决于您的数据集。你提到你有一个高质量的数据集,所以我假设你的数据可能有足够的粒度来衡量你的子动作的质量。这些测量值可以作为辅助损失集成到一般损失函数中,以便可以优化您的模型以优先考虑子动作的质量。

这里有一些研究 (1)(2) 探索人群密度估计任务的类似可能性。