【发布时间】:2019-11-11 07:10:40
【问题描述】:
我需要语音转文本系统,以便我可以将音频文件转录为文本格式。 在研究时,我发现了由大公司创建的系统,例如 Amazon Transcribe、Google Speech to Text、IBM Watson 等。 并发现python内部的所有库都使用了这些API。
如果我想自己创建这样的系统,步骤是什么?我找不到任何详细的文章。如何构建自己的语音识别系统。
我想创建自己的系统的主要原因是由于安全原因,我无法将音频文件发送到外部 API。
主要目标是我录制了大部分人用英语交谈的录音,我想将音频转录成文本。
如果您有任何其他想法来代替将音频文件发送到外部系统,请告诉我。
【问题讨论】:
-
这些服务的背后是经过广泛训练的语音识别系统。您将不得不获取标记的语音样本并训练您自己的系统,或者以某种方式获得一个“经过训练的”和罐装代码来完成它。在这里询问 libs/outisde 资源是题外话,您的任务太宽泛,无法在这里回答。
-
是的。我同意你的评论。它的主题非常广泛。我在想是否有某种方法可以让我在本地获得已经训练好的模型(开源等),并且可以尝试使用该模型转录音频,如果可能的话,或者如果组织在公共空间发布了他们的模型。这个问题只是想知道是否有人曾经尝试过它并且可以指导我朝着正确的方向发展。
标签: python machine-learning deep-learning speech-recognition speech-to-text