如何将实时音频从麦克风转换为文本？答案

【问题标题】：How to convert live real time audio from mic to text?如何将实时音频从麦克风转换为文本？
【发布时间】：2019-12-07 15:38:25
【问题描述】：

我需要使用 Python 和 Google 语音转文本 API 构建语音转文本转换器。我想在这个例子link 中实时执行此操作。到目前为止，我已经尝试了以下代码：

import speech_recognition as sr
import pyaudio

r= sr.Recognizer()
print("Running")

p = pyaudio.PyAudio()
for i in range(p.get_device_count()):
    print(p.get_device_info_by_index(i))

with sr.Microphone(1) as source:
    r.adjust_for_ambient_noise(source, 1)  # Adjust for ambient
    print("Say something!")
    audio=r.listen(source)
print("Runnnnnn")
try:
    print("Analyzing voice data  "+r.recognize_google(audio, language='hi-IN'))
except Exception:
    print("Something went wrong")

此代码首先通过麦克风收听，然后转换为文本格式。我想在这里实现的是在收听时它应该开始实时转换为文本，而不是等待它完成。

【问题讨论】：

Google Streaming Speech Recognition on an Audio Stream Python的可能重复

标签： python speech-recognition speech-to-text google-speech-api

【解决方案1】：

您可以使用以下代码将实时音频从麦克风转换为真实文本。

import speech_recognition as sr
import pyaudio

init_rec = sr.Recognizer()
print("Let's speak!!")
with sr.Microphone() as source:
    audio_data = init_rec.record(source, duration=5)
    print("Recognizing your text.............")
    text = init_rec.recognize_google(audio_data)
    print(text)

【讨论】：

【解决方案2】：

如果您正在寻找可以克隆并开始使用 Speech API 的环境，您可以查看 realtime-transcription-playground 存储库。这是一个用于实时转录的 ReactPython 实现。

如果您只对https://github.com/saharmor/realtime-transcription-playground/blob/main/backend/google_speech_wrapper.py 感兴趣，它还包括将音频数据流式传输到语音 API 的 Python 代码。具体来说，相关的方法有：start_listen、listen_print_loop、generator。

【讨论】：