如何将 linear16 文本转语音转换为音频文件

Question

我刚开始玩 Google 文字转语音 API。我生成了一个 post 请求到：

https://texttospeech.googleapis.com/v1/text:synthesize?fields=audioContent&key={YOUR_API_KEY}

具有以下数据：

{
 "input": {
  "text": "Hola esto es una prueba"
},
 "voice": {
  "languageCode": "es-419"
 },
 "audioConfig": {
  "audioEncoding": "LINEAR16",
  "speakingRate": 1,
  "pitch": 0
 }
}

我收到了 200 条回复，内容为：

{
    "audioContent" : "UklGRn6iCwBXQVZFZm10I...(super long string)"
}

我假设这是编码的（或解码的，不确定命名），但我想真正听到那是什么 "audioContent"。

Answer 1

正如 Tanaike 指出的那样，响应确实是 Base64。为了实际收听音频，我将 base64 编码的字符串粘贴到一个文件中，然后运行:

base64 -d audio.txt > audio.wav

成功了。

如何将 linear16 文本转语音转换为音频文件

how to convert linear16 text-to-speech to audio file

audio

encoding

text-to-speech

google-text-to-speech