可以让 SpeechRecognizer 更快吗？答案

【问题标题】：It's possible to make SpeechRecognizer faster?可以让 SpeechRecognizer 更快吗？
【发布时间】：2016-04-29 20:48:44
【问题描述】：

我正在开发一个使用 android SpeechRecognizer 的应用程序。我用它做一些简单的事情。我点击一个按钮，我的 SpeechRecognizer 开始收听，我从我说的内容中得到了一些结果。

简单吧？好吧，我的问题是我需要让 SpeechRecognizer 快速。我的意思是，我点击我的按钮，我说“你好”，SpeechRecognizer 大约需要 3-4 秒才能返回一个包含可能结果的数组。我的问题是：

是否可以让 SpeechRecognizer 返回结果更快？或者花更少的时间来关闭 Listening 意图并开始处理它所听的内容？也许另一种方式来做到这一点？哪个会有比这更好的性能？

我正在检查库，我看到了这 3 个参数：

EXTRA_SPEECH_INPUT_MINIMUM_LENGTH_MILLIS：

在我们停止听到语音后认为输入完成应该花费的时间。

EXTRA_SPEECH_INPUT_COMPLETE_SILENCE_LENGTH_MILLIS

话语的最小长度。

EXTRA_SPEECH_INPUT_POSSIBLY_COMPLETE_SILENCE_LENGTH_MILLIS

我们停止听到讲话后应该花费的时间考虑输入可能完成。

http://developer.android.com/intl/es/reference/android/speech/RecognizerIntent.html

我已经尝试了所有这些，但它不起作用，或者我没有正确使用它们。这是我的代码：

public class MainActivity extends Activity {
private static final String TIME_FORMAT = "%02d:%02d:%02d";
private final String TAG = "MainActivity";

private StartTimerButton mSpeakButton;
private CircleProgressBar mCountdownProgressBar;
private CountDownTimer mCountDownTimer;
private TextView mTimer;
private int mRunSeconds = 0;
private SpeechRecognizer mSpeechRecognizer;
private Intent mSpeechRecognizerIntent;
private boolean mIsListening = false;

@Override
protected void onCreate(Bundle savedInstanceState) {
    super.onCreate(savedInstanceState);
    setContentView(R.layout.activity_main);
    mRunSeconds = 0;
    mTimer = (TextView) findViewById(R.id.timerText);
    mCountdownProgressBar = (CircleProgressBar) findViewById(R.id.progressBar);
    mSpeechRecognizer = SpeechRecognizer.createSpeechRecognizer(this);
    mSpeechRecognizerIntent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);
    mSpeechRecognizerIntent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,
            RecognizerIntent.LANGUAGE_MODEL_FREE_FORM);
    mSpeechRecognizerIntent.putExtra(RecognizerIntent.EXTRA_CALLING_PACKAGE,
            this.getPackageName());

//          mSpeechRecognizerIntent.putExtra(RecognizerIntent.EXTRA_SPEECH_INPUT_MINIMUM_LENGTH_MILLIS,
//                1000);
//        mSpeechRecognizerIntent.putExtra(RecognizerIntent.EXTRA_SPEECH_INPUT_COMPLETE_SILENCE_LENGTH_MILLIS,
//                1000);
//        mSpeechRecognizerIntent.putExtra(RecognizerIntent.EXTRA_SPEECH_INPUT_POSSIBLY_COMPLETE_SILENCE_LENGTH_MILLIS,
//                1000);

    SpeechRecognitionListener listener = new SpeechRecognitionListener();
    mSpeechRecognizer.setRecognitionListener(listener);
    mSpeakButton = (StartTimerButton) findViewById(R.id.btnSpeak);
    mSpeakButton.setReadyState(false);
    mSpeakButton.setOnClickListener(new View.OnClickListener() {

        @Override
        public void onClick(View v) {
            if (mSpeakButton.isReady()) {
                if (!mIsListening)
                    mSpeechRecognizer.startListening(mSpeechRecognizerIntent);
            } else
                mSpeakButton.setReadyState(true);
        }
    });

}     

@Override
public boolean onCreateOptionsMenu(Menu menu) {
    // Inflate the menu; this adds items to the action bar if it is present.
    return true;
}

public void onSpeechResults(ArrayList<String> matches) {
    for (String match : matches) {

        match = match.toLowerCase();
        Log.d(TAG, "Got speech: " + match);

        if (match.contains("go")) {
            //Do Something
            mSpeechRecognizer.stopListening();
        }
        if (match.contains("stop")) {
            //Do Something
            mSpeechRecognizer.stopListening();
        }
    }
}

protected class SpeechRecognitionListener implements RecognitionListener
{

    @Override
    public void onBeginningOfSpeech()
    {
        //Log.d(TAG, "onBeginingOfSpeech");
    }

    @Override
    public void onBufferReceived(byte[] buffer)
    {

    }

    @Override
    public void onEndOfSpeech()
    {
        //Log.d(TAG, "onEndOfSpeech");
    }

    @Override
    public void onError(int error)
    {
        mSpeechRecognizer.startListening(mSpeechRecognizerIntent);

        //Log.d(TAG, "error = " + error);
    }

    @Override
    public void onEvent(int eventType, Bundle params)
    {

    }

    @Override
    public void onPartialResults(Bundle partialResults)
    {
        ArrayList<String> matches = partialResults.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION);
        for (String match : matches) {
            match = match.toLowerCase();
            Log.d(TAG, "onPartialResults : " + match);
        }
    }

    @Override
    public void onReadyForSpeech(Bundle params)
    {
        Log.d(TAG, "onReadyForSpeech"); //$NON-NLS-1$
    }

    @Override
    public void onResults(Bundle results)
    {
        //Log.d(TAG, "onResults"); //$NON-NLS-1$
        ArrayList<String> matches = results.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION);
        onSpeechResults(matches);
        // matches are the return values of speech recognition engine
        // Use these values for whatever you wish to do
    }

    @Override
    public void onRmsChanged(float rmsdB)
    {
    }
}}

【问题讨论】：

不，考虑使用更灵活的识别器
你能给我一些关于我可以使用的其他识别器的建议吗？

标签： android performance speech-recognition voice-recognition

【解决方案1】：

是的，可以减少关机前的延迟......

您无法更改 Google 认为在用户发言结束时保持沉默的时间量。 EXTRA_SPEECH_* 参数过去可以工作，现在它们充其量只能偶尔工作，或者根本不工作。

您可以做的是，使用部分结果来检测您想要的单词或短语，然后手动关闭识别服务。

以下是如何执行此操作的示例：

public boolean isHelloDetected(@NonNull final Context ctx, @NonNull final Locale loc, @NonNull final Bundle results) {

        boolean helloDetected = false;

        if (!results.isEmpty()) {

            final String hello = ctx.getString(R.string.hello);

            final ArrayList<String> partialData = results.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION);

                /* handles empty string bug */
            if (partialData != null && !partialData.isEmpty()) {
                partialData.removeAll(Collections.singleton(""));

                if (!partialData.isEmpty()) {
                    final ListIterator<String> itr = partialData.listIterator();

                    String vd;
                    while (itr.hasNext()) {
                        vd = itr.next().toLowerCase(loc).trim();

                        if (vd.startsWith(hello)) {
                            helloDetected = true;
                            break;
                        }
                    }
                }
            }

            if (!helloDetected) {
                final ArrayList<String> unstableData = results.getStringArrayList("android.speech.extra.UNSTABLE_TEXT");

                    /* handles empty string bug */
                if (unstableData != null && !unstableData.isEmpty()) {
                    unstableData.removeAll(Collections.singleton(""));

                    if (!unstableData.isEmpty()) {
                        final ListIterator<String> itr = unstableData.listIterator();

                        String vd;
                        while (itr.hasNext()) {
                            vd = itr.next().toLowerCase(loc).trim();

                            if (vd.startsWith(hello)) {
                                helloDetected = true;
                                break;
                            }
                        }
                    }
                }
            }
        }

        return helloDetected;
    }

每次收到来自onPartialResults() 的消息时都会运行此方法

如果返回 true，则需要在主线程上调用 stopListening()（可能是 new Handler(Looper.getMainLooper()).post(...

但请注意，一旦关闭识别器，您在onResults() 中收到的后续和最终结果可能不包含“hello”。因为那个词可能只被归类为不稳定。

一旦检测到 hello，您需要编写额外的逻辑来防止使用 detectHello()（否则您将重复调用 stopListening()） - 一些简单的布尔标记可以解决此问题。

最后，使用Collections.singleton("") 删除空字符串是内部错误报告的一部分，details to replicate here 和 ListIterator 的使用对于您的示例可能有点过分了；一个简单的 for 循环就足够了。

祝你好运。

【讨论】：

嗨@brandall！我昨天已经这样做了，将“EXTRA_PARTIAL_RESULTS”添加到我的意图中。我只想抓住一个特定的词，所以它工作正常。无论如何，“EXTRA_SPEECH_*”是什么意思？你能告诉我更多关于它的信息吗？只是为了改进我的解决方案，我将您的回答标记为正确，因为您找到了与我相同的解决方案！谢谢你。顺便说一句，您知道是否可以在不静音整个 AudioStream 的情况下静音可怕的哔哔声？
很高兴你解决了它——在上面的例子中，使用不稳定的部分结果也可以加快速度。 EXTRA_SPEECH_INPUT_POSSIBLY_COMPLETE_SILENCE_LENGTH_MILLIS 和其他人不能正常工作（所有时间），所以不能依赖。目前除了通过 AudioStream 之外没有其他方法可以使哔哔声静音 - Google 不太可能更改此设置以防止滥用“持续识别服务”。看看使用 PocketSphinx 来代替。
目前我将使用 Google SpeechRecognizer 服务。我没有研究那么多PocketSphinx，但我读到它并不那么精确，而且，在这种情况下，我需要尽快获得一个单词识别。无论如何，当我的应用程序完成时，我会尝试一下。检查我是否可以提供更好的服务。非常感谢@brandall！