口音检测 API？

Accent detection API?

我一直在研究构建一个 mobile/web 应用程序的可行性，该应用程序允许用户说出一个短语并检测用户的口音（波士顿、纽约、加拿大等）。用户可以说大约 5 到 10 个预定义的短语。我熟悉一些可用的 Speech to Text API（Nuance、Bing、Google 等），但 none 似乎提供了额外的功能功能。我找到的最接近的示例是 Google Now 或 Microsoft 的 Speaker Recognition API:

http://www.androidauthority.com/google-now-accents-515684/

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

因为会有 5-10 个预定义短语，所以我正在考虑使用 Tensorflow 或 Wekinator 等机器学习软件。我会在每个口音中创建初始音频以用作初始数据。在我深入研究这条道路之前，我只是想获得一些关于这种方法的反馈，或者是否有更好的方法。如果我需要澄清任何事情，请告诉我。

你可以使用（这只是一个想法，你需要做很多实验）一个神经网络，它有尽可能多的输出，你有一个 softmax 输出层和交叉熵成本函数

没有publicAPI这样难得的任务。

作为语言检测的口音检测通常使用 i-vectors 实现。教程是 here. Implementation is available in Kaldi.

即使你的句子是固定的，你也需要大量的数据来训练系统。不关注您拥有的特定句子，可能更容易收集带口音的语音。

端到端的张量流实现也是可能的，但可能需要太多数据，因为您需要将说话人固有的事物与重音固有的事物分开（基本上像 i-vector 所做的那样执行因式分解）。您可以找到类似作品的描述，例如 this and this one.

口音检测 API？

Accent detection API?

speech-recognition

machine-learning

google-now

tensorflow