如何在Android上使用Google的Text-to-Speech汉字服务?

How to use Google's Text-to-Speech service for Chinese characters on Android?

我正在尝试从 google 的 text-to-speech 函数中提取音频文件。基本上,你把 link 扔进去,然后在它的末尾连接你想说的任何东西。我已经得到了下面的代码,可以很好地用于英语,所以我认为问题一定是中文字符在请求中的编码方式。这是我得到的:

String text = "text to be spoken";
public static final String AUDIO_CHINESE= "http://www.translate.google.com/translate_tts?tl=zh&q=";
public static final String AUDIO_ENGLISH = "http://www.translate.google.com/translate_tts?tl=en&q=";

URL url = new URL(AUDIO_ENGLISH + text);

urlConnection = (HttpURLConnection) url.openConnection();
urlConnection.setRequestMethod("GET");
urlConnection.setRequestProperty("Accept-Charset", Variables.UTF_8);

if (urlConnection.getResponseCode() ==200) {
     //get byte array in response
     in = new DataInputStream(urlConnection.getInputStream());
} else {
     in = new DataInputStream(urlConnection.getErrorStream());
}
//use commons io
byte[] bytes = IOUtils.toByteArray(in);

in.close();
urlConnection.disconnect();

return bytes;

不过,当我用汉字尝试这个时,它 return 是我无法在媒体播放器中播放的东西(我怀疑它不是一个合适的音频文件,因为绝大多数字节都是'85')。所以我都试过了

String chText = "你好";
URL url = new URL(AUDIO_CHINESE + URLEncoder.encode(chText, "UTF-8));

URL url = new URL(AUDIO_CHINESE + Uri.encode(chText, "UTF-8"));

然后添加

urlConnection.setRequestProperty("content-type", "application/x-www-form-urlencoded; charset=UTF-8");

请求header。不过,这只会让事情变得更糟,因为现在它甚至没有 return 200 代码,而是在 logcat.

中声明 "FileNotFound"

所以一时兴起,我回去用英文文本尝试了 URL/Uri 编码,现在英文也不会 return 有效结果。不确定这里发生了什么:如果我复制并粘贴到 Chrome,调试器中的原始 url 工作正常,但由于某种原因,urlConnection 无法正常工作。感觉好像遗漏了一些明显的东西。

编辑

再摆弄一下没有找到答案,只是更加困惑(和恼怒)。出于某种原因,当通过 httpurl 连接发送时,Google tts 机器将 utf-8 percent-encoded 文本读取为 utf-16,至少据我所知是这样。例如,字符“维”(wei2) 是 %E7%B6%AD,但如果您通过连接传递它,您将得到一个发音为 "see"(准确地说是“ç”)的文件。

事实证明,

ç 是 UTF-16 中的 0x00E7(它的 utf-8 percent-encoded 版本是 %C3%A7)。我不知道为什么它在 Java 中这样做,因为在任何浏览器中将适当的 % 放在 link 的末尾都可以正常工作。到目前为止,我已经尝试了各种尝试让 tts 阅读整个 %E7%B6%AD 的组合,但没有取得太大成功。

EDIT2

找到了我的问题的解决方案!请参阅下面的答案。问题不在于编码,而在于 Google 结束时的解析。相应地编辑了标题。干杯!

所以,事实证明,最后的问题根本不是编码问题;这是 Google 结束时的处理。要让服务正确识别 UTF-8,您需要使用这个 link http://www.translate.google.com/translate_tts?ie=utf-8&tl=zh-cn&q= 而不是上面的那个。请注意添加到参数中的 ie=utf-8。所以您可以 URLEncoder.encode("你好嗎", "UTF-8"),将其附加到 link,然后照常发送。哇!