识别 "ding-dong" 种声音
Recognize "ding-dong" sound
我正在构建声音识别模型来检测 "ding-dong" 声音。
有两个过程,训练和测试。
训练数据是 "ding-dong" 设备生成的声音。
该模型可以检测到 "ding-dong" 同一设备发出的声音,效果很好。
但是,当第二个设备产生新的 "ding-dong" 声音时,性能会很差。
我知道这个问题的可能解决方案:记录第二台设备产生的 "ding-dong" 声音并将其添加到训练数据中。
但是,总会有新的设备,新的 "ding-dong" 声音。
我该怎么办?
您遇到过拟合问题。过度拟合意味着您的模型已经过训练,可以在特定情况下以最佳方式工作,这些情况是训练数据集。为了克服这个问题,你应该在许多设备上训练你的模型,然后在它们之间进行插值。您使用的模型可能会保证插值。
不过,之前的信息太笼统了。在您的情况下,您可能会发现更简单的方法。一切都取决于你如何定义 "ding-dong"。如果您能找到 "ding-dong" 的 siguntur,那就太好了。这个签名应该对所有不需要的特征都是不变的。
例如,"Diiiiing-doooooong"应该被接受吗?如果是,您应该找到一个对长度音频剪辑不变的签名。 "ding-dong" 更高的频率可以接受吗?如果是,你应该找到一个签名,它将频率作为彼此的分数而不是绝对值等等......
顺便说一句,我相信你可能会 google 这个并找到很多关于你的问题的论文,但它可能是关于 "dang-dong" 而不是 "ding-dong" 但你仍然可以从中受益它 ;)
所以你想从 "other sounds" 中识别出 "ding dong sounds"。
一种方法可能是训练数据以将 "other sounds" 识别为另一个 class。因此,与 "others-sounds" 相比,新的叮咚更容易与 "ding-dong sounds" 相关联。
这种方法的一个缺点可能是 "false alarms" 数量的增加,但这项任务总是导致精度和召回率之间的折衷。
我正在构建声音识别模型来检测 "ding-dong" 声音。
有两个过程,训练和测试。
训练数据是 "ding-dong" 设备生成的声音。
该模型可以检测到 "ding-dong" 同一设备发出的声音,效果很好。
但是,当第二个设备产生新的 "ding-dong" 声音时,性能会很差。
我知道这个问题的可能解决方案:记录第二台设备产生的 "ding-dong" 声音并将其添加到训练数据中。
但是,总会有新的设备,新的 "ding-dong" 声音。
我该怎么办?
您遇到过拟合问题。过度拟合意味着您的模型已经过训练,可以在特定情况下以最佳方式工作,这些情况是训练数据集。为了克服这个问题,你应该在许多设备上训练你的模型,然后在它们之间进行插值。您使用的模型可能会保证插值。
不过,之前的信息太笼统了。在您的情况下,您可能会发现更简单的方法。一切都取决于你如何定义 "ding-dong"。如果您能找到 "ding-dong" 的 siguntur,那就太好了。这个签名应该对所有不需要的特征都是不变的。
例如,"Diiiiing-doooooong"应该被接受吗?如果是,您应该找到一个对长度音频剪辑不变的签名。 "ding-dong" 更高的频率可以接受吗?如果是,你应该找到一个签名,它将频率作为彼此的分数而不是绝对值等等......
顺便说一句,我相信你可能会 google 这个并找到很多关于你的问题的论文,但它可能是关于 "dang-dong" 而不是 "ding-dong" 但你仍然可以从中受益它 ;)
所以你想从 "other sounds" 中识别出 "ding dong sounds"。
一种方法可能是训练数据以将 "other sounds" 识别为另一个 class。因此,与 "others-sounds" 相比,新的叮咚更容易与 "ding-dong sounds" 相关联。
这种方法的一个缺点可能是 "false alarms" 数量的增加,但这项任务总是导致精度和召回率之间的折衷。