Speaker Diarizations vs Speaker Recognition google cloud vs microsoft azure vs ibm watson vs aws transcribe答案

【问题标题】：Speaker Diarizations vs speaker recognition google cloud vs microsoft azure vs ibm watson vs aws transcribeSpeaker Diarizations vs Speaker Recognition google cloud vs microsoft azure vs ibm watson vs aws transcribe
【发布时间】：2020-05-06 01:46:33
【问题描述】：

我想做一个语音到文本分析的项目，我想 1) 说话者识别 2) 说话者分类 3) 语音到文本。现在我正在测试为微软、谷歌、AWS、IBM等公司提供的各种API 我可以在 Microsoft 中找到您可以选择用户注册和说话人识别 (https://cognitivewuppe.portal.azure-api.net/docs/services/563309b6778daf02acc0a508/operations/5645c3271984551c84ec6797) 然而，所有其他平台确实有说话人分类，但没有说话人识别。在演讲者分类中，如果我理解正确，它将能够“区分”用户，但除非我不注册他们，否则它将如何识别？我只能找到 azure 中可用的注册选项

但我想确定一下，所以只是想在这里检查一下，也许我正在查看正确的文档，或者也许有其他方法可以在 Google 云、Watson 和 AWS 转录中实现这一目标。如果是这种情况，请各位帮我解决一下

【问题讨论】：

标签： google-cloud-platform ibm-watson azure-cognitive-services google-cloud-speech azure-speech

【解决方案1】：

Speaker Recognition分为说话人验证和说话人识别两大类。 https://docs.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home

Diarization 是在一段音频中分离扬声器的过程。我们的 Batch 流水线支持 diarization，并且能够识别单声道录音中的两个扬声器。当您使用批量转录 api 并启用 diarization 时。它将返回 1,2。所有转录输出都包含一个 SpeakerId。如果不使用 diarization，它将在 JSON 输出中显示 "SpeakerId": null。对于 diarization，我们支持两种声音，因此扬声器将被标识为“1”或“2”。 https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/batch-transcription.md

例如：在呼叫中心场景中，客户不需要识别谁在说话，并且由于每次都有新用户打来，因此无法预先使用说话者的声音训练模型。相反，他们只需要在将语音转换为文本时识别不同的声音。

或

您可以使用 Video Indexer 支持转录、说话者分类（枚举）以及从文本和语调中识别情感。还可以提供其他见解，例如主题推理、语言识别、品牌检测、翻译等。您可以通过视频或纯音频 API 使用它来优化 COGS。您可以使用 VI 进行扬声器分类。获取洞察 JSON 后，您可以在 Insights.transcript[0].speakerId 和 Insights.Speakers 下找到演讲者 ID。在处理音频文件时，每个扬声器都在不同的通道上重新编码，VI 会识别它并相应地应用转录和分类。

【讨论】：