Google 语音转文本如何工作?

How Google Speech to Text works?

我想知道,google 如何在他们的语音识别中将语音转换为文本 API。

他们是否存储了几乎所有的声音并在特定频率级别匹配它们,或者他们是否有一些不同的音频编码器和解码器算法来分析不同声音模式的声音,如 "A"、"The"、 "B"、"V"、"D"、"Hello"等,

也会很棒。如果有人可以分享音频是如何编码的以及存储的音频如何用所有不同的声音进行过滤,例如:-

有吉他、鼓和人声的音乐,我想在3个输出中分别过滤掉吉他声、鼓声、人声和进一步解码语音到文本。

任何文件 link 或大学研究论文都很好。

谢谢

Google 描述了语音识别器 here。要理解它,您可能需要阅读教科书 A​​utomatic Speech Recognition 首先是深度学习方法

通常用Non-Negative Matrix Factorization实现吉他和鼓的分离。