【问题标题】:What do confidence scores mean in speech recognition?语音识别中的置信度分数是什么意思?
【发布时间】:2020-04-20 20:41:18
【问题描述】:

许多语音转文本服务(例如 Google 的)都提供了置信度分数。至少对于 Google 而言,它介于 0 和 1 之间,但显然不是特定转录正确的概率,因为替代转录的置信度加起来超过 1。此外,置信度越高的结果有时排名越低。

那么,它是什么?语音识别社区中是否存在公认的“置信度分数”含义?我已经看到对minimum Bayes risk 的引用,但即使他们正在这样做,这也不能回答这个问题,因为这取决于辅助损失函数的选择。

【问题讨论】:

    标签: machine-learning speech-recognition speech-to-text ctc google-speech-to-text-api


    【解决方案1】:

    但显然不是特定转录正确的概率,因为替代转录的置信度加起来超过 1

    统计算法永远不会给你概率的值,它们会给你估计。在某些情况下,估计可能不准确,更多的是平均而言它们接近理想值。信心必须校准。您可以在

    中查看一些理论

    言语置信度的校准 认出 Dong Yu, Senior Member, IEEE, Jinyu Li, Member, IEEE, Li Deng, Fellow, IE https://www.microsoft.com/en-us/research/wp-content/uploads/2011/01/ConfidenceCalibration.pdf

    在语音识别社区中是否存在公认的“置信度分数”的含义?

    并非如此,每个人都使用自己的算法。从简单的贝叶斯风险(这根本不是最好的估计)到更高级的方法。真的不可能知道谷歌做了什么。在 Kaldi 中也有一个很好的算法实现:https://github.com/kaldi-asr/kaldi/blob/master/egs/ami/s5/local/confidence_calibration.sh

    【讨论】:

      猜你喜欢
      • 2012-06-20
      • 1970-01-01
      • 2013-11-02
      • 2023-03-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-07-26
      • 2016-04-06
      相关资源
      最近更新 更多