微软自定义语音服务一一接受音频文件和转录答案

【问题标题】：Microsoft Custom Speech Service to accept audio file and transcription one by one微软自定义语音服务一一接受音频文件和转录
【发布时间】：2017-02-23 13:02:42
【问题描述】：

我创建了一个自定义声学模型（其中包括一组 zip 文件中的语音数据音频文件，以及文本文件中由标签分隔的每个音频文件的转录）并将其导入。创建部署后，我尝试通过上传音频文件来测试端点，它按预期返回了文本转录。

但计划如下：将 Microsoft 提供的 OOB 声学模型与自定义语音合并。尝试了返回 4 个语音到文本转录的 WPF 示例 (https://github.com/Microsoft/Cognitive-Speech-STT-Windows)。我们想要的是每条消息（一个音频文件），向用户提供这 4 个转录，他将选择哪个是正确的。

现在我们要将录制的音频文件和正确的转录内容提供给自定义语音服务。我们如何以编程方式导入声学数据并为其创建模型（而不是手动上传整个音频 zip 文件和带有文件名和转录等键值对的文本文件）在）？（每次都编辑现有的声学数据，而不是导入新的）

或者，如果我们不能一个一个地提供它（每次用户说完），我们可以先将音频文件收集到一个 zip 文件中，然后在整个对话完成后将文件名和转录内容收集到一个文本文件中结束了。但问题仍然是如何以编程方式进行导入和建模。或者它甚至可能。

感谢您的帮助！

【问题讨论】：

出于好奇，您输入的音频文件格式是什么？

标签： microsoft-cognitive

【解决方案1】：

自定义语音服务目前不提供 API 以编程方式执行您所描述的内容。不过，我们已经制定了在未来几个月发布 API 的计划。

【讨论】：

自定义语音语音 (cris.ai) 目前仅提供门户体验，用户可以在其中导入数据、创建自定义模型、部署它们并通过某些端点访问它们。未来计划通过 API 支持这些操作