Android 上的长音频语音识别
Long audio speech recognition on Android
我想开发一个模块,它将在 Android 中使用语音转文本支持。我发现了许多与 RecognizerIntent 等相关的文档和演示。但我发现所有这些演示都只是将语音提取到 10 秒左右。但我希望我的演示 运行 超过 5-10 分钟。如果不是 运行ning 离线,我没有任何问题,因为我的应用程序始终在线运行。
我也研究过 Pocketsphinx on Android,但效果不佳。此外,这仅支持 Android Studio,不支持 Eclipse。
我见过很多应用程序可以连续 5-10 分钟将语音转换为文本,例如:Speech To Text Notepad。
谁能推荐任何其他可以实现此目的的演示代码库? TIA.
总的来说,长音频语音识别是一个具有挑战性的问题,因此您几乎找不到任何可以解决的问题。相反,我建议您应用一种音频分割算法并分别识别它们。此外,如果您有文本抄本和音频并且只想获取时间范围(例如视频字幕问题),那么任务会变得容易得多,您可以尝试 long audio alignment。
请参考这个Android Speech Recognition Without Dialog In A Custom Activity。
尝试覆盖方法 onEndOfSpeech 并使用 speechRecognizer.startListening(recognizerIntent)
重新启动服务
我得到的结果与您引用的应用相同 Speech To Text Notepad,
这是我的 activity
import java.util.ArrayList;
import android.speech.RecognitionListener;
import android.speech.RecognizerIntent;
import android.speech.SpeechRecognizer;
import android.app.Activity;
import android.content.Intent;
import android.os.Bundle;
import android.util.Log;
import android.view.View;
import android.view.WindowManager;
import android.widget.CompoundButton;
import android.widget.CompoundButton.OnCheckedChangeListener;
import android.widget.ProgressBar;
import android.widget.TextView;
import android.widget.ToggleButton;
public class VoiceRecognitionActivity extends Activity implements
RecognitionListener {
private TextView returnedText;
private ToggleButton toggleButton;
private ProgressBar progressBar;
private SpeechRecognizer speech = null;
private Intent recognizerIntent;
private String LOG_TAG = "VoiceRecognition";
String speechString = "";
boolean spechStarted = false;
@Override
protected void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.activity_voice_recognition);
getWindow().addFlags(WindowManager.LayoutParams.FLAG_KEEP_SCREEN_ON);
returnedText = (TextView) findViewById(R.id.textView1);
progressBar = (ProgressBar) findViewById(R.id.progressBar1);
toggleButton = (ToggleButton) findViewById(R.id.toggleButton1);
progressBar.setVisibility(View.INVISIBLE);
speech = SpeechRecognizer.createSpeechRecognizer(this);
speech.setRecognitionListener(this);
recognizerIntent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);
recognizerIntent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_PREFERENCE,
"en");
recognizerIntent.putExtra(RecognizerIntent.EXTRA_CALLING_PACKAGE,
this.getPackageName());
recognizerIntent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,
RecognizerIntent.LANGUAGE_MODEL_WEB_SEARCH);
recognizerIntent.putExtra(RecognizerIntent.EXTRA_PARTIAL_RESULTS,
true);
toggleButton.setOnCheckedChangeListener(new OnCheckedChangeListener() {
@Override
public void onCheckedChanged(CompoundButton buttonView,
boolean isChecked) {
if (isChecked) {
speech.setRecognitionListener(VoiceRecognitionActivity.this);
progressBar.setVisibility(View.VISIBLE);
progressBar.setIndeterminate(true);
speech.startListening(recognizerIntent);
} else {
progressBar.setIndeterminate(false);
progressBar.setVisibility(View.INVISIBLE);
speech.stopListening();
speech.destroy();
}
}
});
}
@Override
protected void onPause() {
super.onPause();
if (speech != null) {
speech.destroy();
Log.i(LOG_TAG, "destroy");
}
}
@Override
public void onBeginningOfSpeech() {
Log.i(LOG_TAG, "onBeginningOfSpeech");
spechStarted = true;
progressBar.setIndeterminate(false);
progressBar.setMax(10);
}
@Override
public void onBufferReceived(byte[] buffer) {
Log.i(LOG_TAG, "onBufferReceived: " + buffer);
}
@Override
public void onEndOfSpeech() {
spechStarted = false;
Log.i(LOG_TAG, "onEndOfSpeech");
speech.startListening(recognizerIntent);
}
@Override
public void onError(int errorCode) {
Log.d(LOG_TAG, "FAILED ");
if (!spechStarted)
speech.startListening(recognizerIntent);
}
@Override
public void onEvent(int arg0, Bundle arg1) {
Log.i(LOG_TAG, "onEvent");
}
@Override
public void onPartialResults(Bundle arg0) {
Log.i(LOG_TAG, "onPartialResults");
ArrayList<String> matches = arg0
.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION);
returnedText.setText(speechString + matches.get(0));
}
@Override
public void onReadyForSpeech(Bundle arg0) {
Log.i(LOG_TAG, "onReadyForSpeech");
}
@Override
public void onResults(Bundle results) {
Log.i(LOG_TAG, "onResults");
ArrayList<String> matches = results
.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION);
speechString = speechString + ". " + matches.get(0);
}
@Override
public void onRmsChanged(float rmsdB) {
Log.i(LOG_TAG, "onRmsChanged: " + rmsdB);
progressBar.setProgress((int) rmsdB);
}
}
我在 Google Cloud Speech API. They have also added a demo here 的帮助下成功完成了这项工作。
Google Cloud Speech-to-Text 使开发人员能够通过简单易用的方式应用强大的神经网络模型将音频转换为文本 API。 API 可识别 120 种语言和变体,以支持您的全球用户群。您可以启用语音命令和控制、从呼叫中心转录音频等。它可以使用 Google 的机器学习技术处理实时流媒体或预录音频。
您可以转录用户向应用程序的麦克风口述的文本,通过语音启用命令和控制,或者
转录音频文件,以及许多其他用例。识别音频
在请求中上传,并与您的音频存储集成
Google Cloud Storage,使用与 Google 相同的技术
为自己的产品供电。
我想开发一个模块,它将在 Android 中使用语音转文本支持。我发现了许多与 RecognizerIntent 等相关的文档和演示。但我发现所有这些演示都只是将语音提取到 10 秒左右。但我希望我的演示 运行 超过 5-10 分钟。如果不是 运行ning 离线,我没有任何问题,因为我的应用程序始终在线运行。
我也研究过 Pocketsphinx on Android,但效果不佳。此外,这仅支持 Android Studio,不支持 Eclipse。
我见过很多应用程序可以连续 5-10 分钟将语音转换为文本,例如:Speech To Text Notepad。
谁能推荐任何其他可以实现此目的的演示代码库? TIA.
总的来说,长音频语音识别是一个具有挑战性的问题,因此您几乎找不到任何可以解决的问题。相反,我建议您应用一种音频分割算法并分别识别它们。此外,如果您有文本抄本和音频并且只想获取时间范围(例如视频字幕问题),那么任务会变得容易得多,您可以尝试 long audio alignment。
请参考这个Android Speech Recognition Without Dialog In A Custom Activity。
尝试覆盖方法 onEndOfSpeech 并使用 speechRecognizer.startListening(recognizerIntent)
我得到的结果与您引用的应用相同 Speech To Text Notepad, 这是我的 activity
import java.util.ArrayList;
import android.speech.RecognitionListener;
import android.speech.RecognizerIntent;
import android.speech.SpeechRecognizer;
import android.app.Activity;
import android.content.Intent;
import android.os.Bundle;
import android.util.Log;
import android.view.View;
import android.view.WindowManager;
import android.widget.CompoundButton;
import android.widget.CompoundButton.OnCheckedChangeListener;
import android.widget.ProgressBar;
import android.widget.TextView;
import android.widget.ToggleButton;
public class VoiceRecognitionActivity extends Activity implements
RecognitionListener {
private TextView returnedText;
private ToggleButton toggleButton;
private ProgressBar progressBar;
private SpeechRecognizer speech = null;
private Intent recognizerIntent;
private String LOG_TAG = "VoiceRecognition";
String speechString = "";
boolean spechStarted = false;
@Override
protected void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.activity_voice_recognition);
getWindow().addFlags(WindowManager.LayoutParams.FLAG_KEEP_SCREEN_ON);
returnedText = (TextView) findViewById(R.id.textView1);
progressBar = (ProgressBar) findViewById(R.id.progressBar1);
toggleButton = (ToggleButton) findViewById(R.id.toggleButton1);
progressBar.setVisibility(View.INVISIBLE);
speech = SpeechRecognizer.createSpeechRecognizer(this);
speech.setRecognitionListener(this);
recognizerIntent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);
recognizerIntent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_PREFERENCE,
"en");
recognizerIntent.putExtra(RecognizerIntent.EXTRA_CALLING_PACKAGE,
this.getPackageName());
recognizerIntent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,
RecognizerIntent.LANGUAGE_MODEL_WEB_SEARCH);
recognizerIntent.putExtra(RecognizerIntent.EXTRA_PARTIAL_RESULTS,
true);
toggleButton.setOnCheckedChangeListener(new OnCheckedChangeListener() {
@Override
public void onCheckedChanged(CompoundButton buttonView,
boolean isChecked) {
if (isChecked) {
speech.setRecognitionListener(VoiceRecognitionActivity.this);
progressBar.setVisibility(View.VISIBLE);
progressBar.setIndeterminate(true);
speech.startListening(recognizerIntent);
} else {
progressBar.setIndeterminate(false);
progressBar.setVisibility(View.INVISIBLE);
speech.stopListening();
speech.destroy();
}
}
});
}
@Override
protected void onPause() {
super.onPause();
if (speech != null) {
speech.destroy();
Log.i(LOG_TAG, "destroy");
}
}
@Override
public void onBeginningOfSpeech() {
Log.i(LOG_TAG, "onBeginningOfSpeech");
spechStarted = true;
progressBar.setIndeterminate(false);
progressBar.setMax(10);
}
@Override
public void onBufferReceived(byte[] buffer) {
Log.i(LOG_TAG, "onBufferReceived: " + buffer);
}
@Override
public void onEndOfSpeech() {
spechStarted = false;
Log.i(LOG_TAG, "onEndOfSpeech");
speech.startListening(recognizerIntent);
}
@Override
public void onError(int errorCode) {
Log.d(LOG_TAG, "FAILED ");
if (!spechStarted)
speech.startListening(recognizerIntent);
}
@Override
public void onEvent(int arg0, Bundle arg1) {
Log.i(LOG_TAG, "onEvent");
}
@Override
public void onPartialResults(Bundle arg0) {
Log.i(LOG_TAG, "onPartialResults");
ArrayList<String> matches = arg0
.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION);
returnedText.setText(speechString + matches.get(0));
}
@Override
public void onReadyForSpeech(Bundle arg0) {
Log.i(LOG_TAG, "onReadyForSpeech");
}
@Override
public void onResults(Bundle results) {
Log.i(LOG_TAG, "onResults");
ArrayList<String> matches = results
.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION);
speechString = speechString + ". " + matches.get(0);
}
@Override
public void onRmsChanged(float rmsdB) {
Log.i(LOG_TAG, "onRmsChanged: " + rmsdB);
progressBar.setProgress((int) rmsdB);
}
}
我在 Google Cloud Speech API. They have also added a demo here 的帮助下成功完成了这项工作。
Google Cloud Speech-to-Text 使开发人员能够通过简单易用的方式应用强大的神经网络模型将音频转换为文本 API。 API 可识别 120 种语言和变体,以支持您的全球用户群。您可以启用语音命令和控制、从呼叫中心转录音频等。它可以使用 Google 的机器学习技术处理实时流媒体或预录音频。
您可以转录用户向应用程序的麦克风口述的文本,通过语音启用命令和控制,或者 转录音频文件,以及许多其他用例。识别音频 在请求中上传,并与您的音频存储集成 Google Cloud Storage,使用与 Google 相同的技术 为自己的产品供电。