尝试提出从声波中提取的特征以供 AI 歌曲作曲家使用
Trying to come up with features to extract from sound waves to use for an AI song composer
我正计划制作一个 AI 歌曲作曲家,它将接受一种乐器的一堆歌曲,从声波中提取音符(如 ABCDEFG)和某些特征,预制机器学习(很可能通过循环神经网络网络),并输出一系列 ABCDEFG 音符(也就是生成自己的歌曲/音乐)。
我认为这将是一个无监督学习问题,但我不太确定。
我想我会使用递归神经网络,但我有几个关于如何处理这个问题的问题:
- 我应该从声波中提取哪些特征才能使输出音乐悦耳?
另外,我还有一些其他的问题
- 是否有可能使用递归神经网络输出序列音符向量 (ABCDEF)?
- 有什么聪明的方法可以输入声波的特征以及音符序列?
好吧,我做过一次类似的事情(在 matlab 上制作类似 shazam 的应用程序),我认为你可以使用 FFT(快速傅立叶变换)将其分解为组成频率及其相应的振幅。然后你可以使用将不同乐器的频率范围 select 从整群中分离出来并分类 .
我已经用 RNN(递归神经网络)尝试过类似的东西。尝试使用 LSTM 网络(长短期记忆),从我后来读到的内容来看,对于这种类型的数据处理,它们比 RNN 更好,因为它们不受 "vanishing gradient problem" 的影响。
Chris Thaliyath
所说的内容很好地提示了如何训练特征检测器。
我正计划制作一个 AI 歌曲作曲家,它将接受一种乐器的一堆歌曲,从声波中提取音符(如 ABCDEFG)和某些特征,预制机器学习(很可能通过循环神经网络网络),并输出一系列 ABCDEFG 音符(也就是生成自己的歌曲/音乐)。
我认为这将是一个无监督学习问题,但我不太确定。
我想我会使用递归神经网络,但我有几个关于如何处理这个问题的问题:
- 我应该从声波中提取哪些特征才能使输出音乐悦耳?
另外,我还有一些其他的问题
- 是否有可能使用递归神经网络输出序列音符向量 (ABCDEF)?
- 有什么聪明的方法可以输入声波的特征以及音符序列?
好吧,我做过一次类似的事情(在 matlab 上制作类似 shazam 的应用程序),我认为你可以使用 FFT(快速傅立叶变换)将其分解为组成频率及其相应的振幅。然后你可以使用将不同乐器的频率范围 select 从整群中分离出来并分类 .
我已经用 RNN(递归神经网络)尝试过类似的东西。尝试使用 LSTM 网络(长短期记忆),从我后来读到的内容来看,对于这种类型的数据处理,它们比 RNN 更好,因为它们不受 "vanishing gradient problem" 的影响。
Chris Thaliyath
所说的内容很好地提示了如何训练特征检测器。