语速 Microsoft Bing 语音 API - 文字转语音
Speak Rate Microsoft Bing Speech API - Text to Speech
我按照示例应用程序使用以下 GitHub 存储库从文本生成语音。
https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/Samples-Http/CSharp
我的应用程序 运行 很好唯一的问题是语速或每个单词后 break/pause。
输入文字:y u 7 f s d 2 3 e
以下是我正在使用的示例 SSML:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-IN"><voice xml:lang="en-IN" name="Microsoft Server Speech Text to Speech Voice (en-IN, Ravi, Apollo)">y u 7 f s d 2 3 e</voice></speak>
我想在每个字母后暂停。因为我正在使用此音频以音频模式获取验证码文本。
请提出正确的方法。
P.S: 我不想通过复制粘贴来重复整个代码。 (使用 GIT 中的示例)
我什至关注了下面 link 的评论中的对话,但运气不佳。
https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home
这个 -> "y"。 "u"。 “7”。 "f"。 "s"。 "d"。 “2”。 “3”。 "e"。 <- 它适用于 bing 语音网页测试。
对你来说也应该没问题。
这是 SSML:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice xml:lang="en-US" name="Microsoft Server Speech Text to Speech Voice (en-US, ZiraRUS)">"y". "u". "7". "f". "s". "d". "2". "3". "e".
</voice>
</speak>
我按照示例应用程序使用以下 GitHub 存储库从文本生成语音。
https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/Samples-Http/CSharp
我的应用程序 运行 很好唯一的问题是语速或每个单词后 break/pause。
输入文字:y u 7 f s d 2 3 e
以下是我正在使用的示例 SSML:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-IN"><voice xml:lang="en-IN" name="Microsoft Server Speech Text to Speech Voice (en-IN, Ravi, Apollo)">y u 7 f s d 2 3 e</voice></speak>
我想在每个字母后暂停。因为我正在使用此音频以音频模式获取验证码文本。
请提出正确的方法。
P.S: 我不想通过复制粘贴来重复整个代码。 (使用 GIT 中的示例)
我什至关注了下面 link 的评论中的对话,但运气不佳。
https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home
这个 -> "y"。 "u"。 “7”。 "f"。 "s"。 "d"。 “2”。 “3”。 "e"。 <- 它适用于 bing 语音网页测试。 对你来说也应该没问题。 这是 SSML:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice xml:lang="en-US" name="Microsoft Server Speech Text to Speech Voice (en-US, ZiraRUS)">"y". "u". "7". "f". "s". "d". "2". "3". "e".
</voice>
</speak>