使用 python 从头开始构建语音到文本系统答案

【问题标题】：build speech to text system from scratch using python使用 python 从头开始构建语音到文本系统
【发布时间】：2019-11-11 07:10:40
【问题描述】：

我需要语音转文本系统，以便我可以将音频文件转录为文本格式。在研究时，我发现了由大公司创建的系统，例如 Amazon Transcribe、Google Speech to Text、IBM Watson 等。并发现python内部的所有库都使用了这些API。

如果我想自己创建这样的系统，步骤是什么？我找不到任何详细的文章。如何构建自己的语音识别系统。

我想创建自己的系统的主要原因是由于安全原因，我无法将音频文件发送到外部 API。

主要目标是我录制了大部分人用英语交谈的录音，我想将音频转录成文本。

如果您有任何其他想法来代替将音频文件发送到外部系统，请告诉我。

【问题讨论】：

这些服务的背后是经过广泛训练的语音识别系统。您将不得不获取标记的语音样本并训练您自己的系统，或者以某种方式获得一个“经过训练的”和罐装代码来完成它。在这里询问 libs/outisde 资源是题外话，您的任务太宽泛，无法在这里回答。
是的。我同意你的评论。它的主题非常广泛。我在想是否有某种方法可以让我在本地获得已经训练好的模型（开源等），并且可以尝试使用该模型转录音频，如果可能的话，或者如果组织在公共空间发布了他们的模型。这个问题只是想知道是否有人曾经尝试过它并且可以指导我朝着正确的方向发展。

【解决方案1】：

首先要查看www.voxforge.org 的产品；查看教程和论坛部分，以大致了解 Julius 和 CMU Sphinx 等开源项目的使用。这是一个相当广泛的主题，你会发现很多人都在你之前走过了这条路，所以你可以从他们的经验中学习。

【讨论】：