ibm-cloud speech-to-text：是否可以为自定义词汇指定音素？答案

【问题标题】：ibm-cloud speech-to-text: Is it possible to specify phonemes for custom vocabulary?ibm-cloud speech-to-text：是否可以为自定义词汇指定音素？
【发布时间】：2020-09-17 16:19:04
【问题描述】：

我们需要使用大量已按音位转录的自定义词汇表构建自定义模型，但当前用于指定自定义单词的 API 没有发布选项来指定音位字符串，而不是手动生成的临时“sounds_like”正字法细绳。由于我们还没有找到任何可靠的工具来按规则从音素字符串生成等效的“听起来像”字符串，这对我们成功使用 IBM 语音到文本引擎来说是一个真正的障碍。

在通过 IBM 云语音到文本 API 将自定义单词添加到自定义模型时，是否有可接受的语音/音位字母表和可用的 API 机制来指定音素字符串而不是其他拼写法来指示自定义单词的发音？（即类似于 IPA 以及在 IBM 的文本转语音 API 中使用它的机制？）

（或者，IBM 或那里的任何人是否有一个很好的工具可以将音素序列转换为正字法，保证被他们的 ASR 引擎重新转换回相同的音素字符串？）

【问题讨论】：

标签： ibm-cloud speech-to-text vocabulary phoneme

【解决方案1】：

通过技术支持，我发现API中目前有一个“dark/undocumented”功能，通过它可以通过使用以下格式将音素字符串包含在“sounds_like”规范中来指定音素字符串：“” .

例如，这是一个 cURL 示例，为单词“challah”添加发音“hɑː.lə”：

curl -u $CREDS  -X PUT --header "Content-Type:application/json"  --data "{\"sounds_like\":[\"<phoneme hɑː.lə>\"]}" https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/$custID/words/challah

在构建 CustomWord 对象并通过 API 提交它们时也可以使用这种格式。

国际音标符号的可接受范围似乎与其文本转语音 API 的范围相同，可在此处找到： https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-usSymbols

【讨论】：