如何在Android上使用Google的Text-to-Speech汉字服务?
How to use Google's Text-to-Speech service for Chinese characters on Android?
我正在尝试从 google 的 text-to-speech 函数中提取音频文件。基本上,你把 link 扔进去,然后在它的末尾连接你想说的任何东西。我已经得到了下面的代码,可以很好地用于英语,所以我认为问题一定是中文字符在请求中的编码方式。这是我得到的:
String text = "text to be spoken";
public static final String AUDIO_CHINESE= "http://www.translate.google.com/translate_tts?tl=zh&q=";
public static final String AUDIO_ENGLISH = "http://www.translate.google.com/translate_tts?tl=en&q=";
URL url = new URL(AUDIO_ENGLISH + text);
urlConnection = (HttpURLConnection) url.openConnection();
urlConnection.setRequestMethod("GET");
urlConnection.setRequestProperty("Accept-Charset", Variables.UTF_8);
if (urlConnection.getResponseCode() ==200) {
//get byte array in response
in = new DataInputStream(urlConnection.getInputStream());
} else {
in = new DataInputStream(urlConnection.getErrorStream());
}
//use commons io
byte[] bytes = IOUtils.toByteArray(in);
in.close();
urlConnection.disconnect();
return bytes;
不过,当我用汉字尝试这个时,它 return 是我无法在媒体播放器中播放的东西(我怀疑它不是一个合适的音频文件,因为绝大多数字节都是'85')。所以我都试过了
String chText = "你好";
URL url = new URL(AUDIO_CHINESE + URLEncoder.encode(chText, "UTF-8));
和
URL url = new URL(AUDIO_CHINESE + Uri.encode(chText, "UTF-8"));
然后添加
urlConnection.setRequestProperty("content-type", "application/x-www-form-urlencoded; charset=UTF-8");
请求header。不过,这只会让事情变得更糟,因为现在它甚至没有 return 200 代码,而是在 logcat.
中声明 "FileNotFound"
所以一时兴起,我回去用英文文本尝试了 URL/Uri 编码,现在英文也不会 return 有效结果。不确定这里发生了什么:如果我复制并粘贴到 Chrome,调试器中的原始 url 工作正常,但由于某种原因,urlConnection 无法正常工作。感觉好像遗漏了一些明显的东西。
编辑
再摆弄一下没有找到答案,只是更加困惑(和恼怒)。出于某种原因,当通过 httpurl 连接发送时,Google tts 机器将 utf-8 percent-encoded 文本读取为 utf-16,至少据我所知是这样。例如,字符“维”(wei2) 是 %E7%B6%AD
,但如果您通过连接传递它,您将得到一个发音为 "see"(准确地说是“ç”)的文件。
事实证明,ç 是 UTF-16 中的 0x00E7
(它的 utf-8 percent-encoded 版本是 %C3%A7
)。我不知道为什么它在 Java 中这样做,因为在任何浏览器中将适当的 % 放在 link 的末尾都可以正常工作。到目前为止,我已经尝试了各种尝试让 tts 阅读整个 %E7%B6%AD
的组合,但没有取得太大成功。
EDIT2
找到了我的问题的解决方案!请参阅下面的答案。问题不在于编码,而在于 Google 结束时的解析。相应地编辑了标题。干杯!
所以,事实证明,最后的问题根本不是编码问题;这是 Google 结束时的处理。要让服务正确识别 UTF-8,您需要使用这个 link http://www.translate.google.com/translate_tts?ie=utf-8&tl=zh-cn&q=
而不是上面的那个。请注意添加到参数中的 ie=utf-8
。所以您可以 URLEncoder.encode("你好嗎", "UTF-8")
,将其附加到 link,然后照常发送。哇!
我正在尝试从 google 的 text-to-speech 函数中提取音频文件。基本上,你把 link 扔进去,然后在它的末尾连接你想说的任何东西。我已经得到了下面的代码,可以很好地用于英语,所以我认为问题一定是中文字符在请求中的编码方式。这是我得到的:
String text = "text to be spoken";
public static final String AUDIO_CHINESE= "http://www.translate.google.com/translate_tts?tl=zh&q=";
public static final String AUDIO_ENGLISH = "http://www.translate.google.com/translate_tts?tl=en&q=";
URL url = new URL(AUDIO_ENGLISH + text);
urlConnection = (HttpURLConnection) url.openConnection();
urlConnection.setRequestMethod("GET");
urlConnection.setRequestProperty("Accept-Charset", Variables.UTF_8);
if (urlConnection.getResponseCode() ==200) {
//get byte array in response
in = new DataInputStream(urlConnection.getInputStream());
} else {
in = new DataInputStream(urlConnection.getErrorStream());
}
//use commons io
byte[] bytes = IOUtils.toByteArray(in);
in.close();
urlConnection.disconnect();
return bytes;
不过,当我用汉字尝试这个时,它 return 是我无法在媒体播放器中播放的东西(我怀疑它不是一个合适的音频文件,因为绝大多数字节都是'85')。所以我都试过了
String chText = "你好";
URL url = new URL(AUDIO_CHINESE + URLEncoder.encode(chText, "UTF-8));
和
URL url = new URL(AUDIO_CHINESE + Uri.encode(chText, "UTF-8"));
然后添加
urlConnection.setRequestProperty("content-type", "application/x-www-form-urlencoded; charset=UTF-8");
请求header。不过,这只会让事情变得更糟,因为现在它甚至没有 return 200 代码,而是在 logcat.
中声明 "FileNotFound"所以一时兴起,我回去用英文文本尝试了 URL/Uri 编码,现在英文也不会 return 有效结果。不确定这里发生了什么:如果我复制并粘贴到 Chrome,调试器中的原始 url 工作正常,但由于某种原因,urlConnection 无法正常工作。感觉好像遗漏了一些明显的东西。
编辑
再摆弄一下没有找到答案,只是更加困惑(和恼怒)。出于某种原因,当通过 httpurl 连接发送时,Google tts 机器将 utf-8 percent-encoded 文本读取为 utf-16,至少据我所知是这样。例如,字符“维”(wei2) 是 %E7%B6%AD
,但如果您通过连接传递它,您将得到一个发音为 "see"(准确地说是“ç”)的文件。
ç 是 UTF-16 中的 0x00E7
(它的 utf-8 percent-encoded 版本是 %C3%A7
)。我不知道为什么它在 Java 中这样做,因为在任何浏览器中将适当的 % 放在 link 的末尾都可以正常工作。到目前为止,我已经尝试了各种尝试让 tts 阅读整个 %E7%B6%AD
的组合,但没有取得太大成功。
EDIT2
找到了我的问题的解决方案!请参阅下面的答案。问题不在于编码,而在于 Google 结束时的解析。相应地编辑了标题。干杯!
所以,事实证明,最后的问题根本不是编码问题;这是 Google 结束时的处理。要让服务正确识别 UTF-8,您需要使用这个 link http://www.translate.google.com/translate_tts?ie=utf-8&tl=zh-cn&q=
而不是上面的那个。请注意添加到参数中的 ie=utf-8
。所以您可以 URLEncoder.encode("你好嗎", "UTF-8")
,将其附加到 link,然后照常发送。哇!