Google Speech to Text 的工作原理是什么？答案

【问题标题】：How Google Speech to Text works?Google Speech to Text 的工作原理是什么？
【发布时间】：2016-10-12 19:50:37
【问题描述】：

我想知道，谷歌如何在他们的语音识别 API 中将语音转换为文本。

他们是否存储了几乎所有的声音并在特定的频率级别上匹配它们，或者他们是否有一些不同的音频编码器和解码器算法来分析不同声音模式的声音，如“A”、“The”、“B”、“V” "、"D"、"你好"等，

它也会很棒。如果有人可以分享，如何对音频进行编码以及如何使用所有不同的声音过滤存储的音频，例如：-

具有弹吉他、鼓和人声的音乐，我想将它们过滤成 3 个输出，分别是吉他声、单独的鼓声、单独的人声，并进一步将语音解码为文本。

任何大学的文档链接或研究论文都会很棒。

谢谢

【问题讨论】：

【解决方案1】：

Google 语音识别器描述为here。要理解它，您可能需要先阅读教科书Automatic Speech Recognition A Deep Learning Approach。

吉他和鼓的分离通常使用Non-Negative Matrix Factorization实现。

【讨论】：