如何使用音频输入创建和训练张量流模型?
How do i create and train tensorflow model with audio inputs?
我有音频文件说 "left.wav"、"right.wav" 等等,我想创建一个将音频作为输入和输出标签的模型 "left" 或 "right"等
问题
如何将原始音频输入神经网络?
scipy.io.wavfile.read()
函数将 return 采样率和 numpy 数组中的整个音频。
然后您可以将其提供给您的网络。
import scipy
rate, numpy_audio = scipy.io.wavfile.read( "left.wav" )
如果你想做语音识别,看看DeepSpeech,这是一个大项目,但你可能会在那里得到一些好的想法。
对于更简单的介绍,Tensorflow 有一个 Simple Audio Recognition 教程。
要生成音频,您可能需要考虑 WaveNet - this is one particular implementation。
我有音频文件说 "left.wav"、"right.wav" 等等,我想创建一个将音频作为输入和输出标签的模型 "left" 或 "right"等
问题
如何将原始音频输入神经网络?
scipy.io.wavfile.read()
函数将 return 采样率和 numpy 数组中的整个音频。
然后您可以将其提供给您的网络。
import scipy
rate, numpy_audio = scipy.io.wavfile.read( "left.wav" )
如果你想做语音识别,看看DeepSpeech,这是一个大项目,但你可能会在那里得到一些好的想法。
对于更简单的介绍,Tensorflow 有一个 Simple Audio Recognition 教程。
要生成音频,您可能需要考虑 WaveNet - this is one particular implementation。