识别 "ding-dong" 种声音

Recognize "ding-dong" sound

我正在构建声音识别模型来检测 "ding-dong" 声音。

有两个过程，训练和测试。

训练数据是 "ding-dong" 设备生成的声音。

该模型可以检测到 "ding-dong" 同一设备发出的声音，效果很好。

但是，当第二个设备产生新的 "ding-dong" 声音时，性能会很差。

我知道这个问题的可能解决方案：记录第二台设备产生的 "ding-dong" 声音并将其添加到训练数据中。

但是，总会有新的设备，新的 "ding-dong" 声音。

我该怎么办？

您遇到过拟合问题。过度拟合意味着您的模型已经过训练，可以在特定情况下以最佳方式工作，这些情况是训练数据集。为了克服这个问题，你应该在许多设备上训练你的模型，然后在它们之间进行插值。您使用的模型可能会保证插值。

不过，之前的信息太笼统了。在您的情况下，您可能会发现更简单的方法。一切都取决于你如何定义 "ding-dong"。如果您能找到 "ding-dong" 的 siguntur，那就太好了。这个签名应该对所有不需要的特征都是不变的。

例如，"Diiiiing-doooooong"应该被接受吗？如果是，您应该找到一个对长度音频剪辑不变的签名。 "ding-dong" 更高的频率可以接受吗？如果是，你应该找到一个签名，它将频率作为彼此的分数而不是绝对值等等......

顺便说一句，我相信你可能会 google 这个并找到很多关于你的问题的论文，但它可能是关于 "dang-dong" 而不是 "ding-dong" 但你仍然可以从中受益它 ;)

所以你想从 "other sounds" 中识别出 "ding dong sounds"。

一种方法可能是训练数据以将 "other sounds" 识别为另一个 class。因此，与 "others-sounds" 相比，新的叮咚更容易与 "ding-dong sounds" 相关联。

这种方法的一个缺点可能是 "false alarms" 数量的增加，但这项任务总是导致精度和召回率之间的折衷。