【发布时间】:2018-01-05 02:46:05
【问题描述】:
我了解 Watson Speech To Text 在某种程度上针对口语对话和 1 或 2 位演讲者进行了校准。我也知道它可以比 WAV 和 OGG 更好地处理 FLAC。
我想知道如何从声学上改进算法识别。
我的意思是,增加音量有帮助吗?也许使用一些压缩过滤器?降噪?
什么样的预处理可以帮助这项服务?
【问题讨论】:
标签: ibm-cloud speech-recognition speech-to-text watson