【发布时间】:2020-06-26 07:04:22
【问题描述】:
我正在开发一个语音消息应用程序,我需要比较两个语音,
- 通过录制您的声音注册应用程序
- 发送语音消息到 另一个用户通过录制语音,但首先需要比较这个语音 在个人资料中录制语音。
出于安全目的,需要知道记录的消息是否来自特定用户。
我试过了:
但不了解语音比较。
如果有人知道,请分享。没有找到任何样品来做到这一点。
【问题讨论】:
标签: android voice-recognition voice-comparison
我正在开发一个语音消息应用程序,我需要比较两个语音,
出于安全目的,需要知道记录的消息是否来自特定用户。
我试过了:
但不了解语音比较。
如果有人知道,请分享。没有找到任何样品来做到这一点。
【问题讨论】:
标签: android voice-recognition voice-comparison
既然您表示这是出于安全目的,我想先分享一些关于语音生物识别的内容 :-)
对某人进行身份验证的问题在于,您需要确保他确实在那里说出了录制的内容……这与仅仅比较语音特征完全不同。
从样本中提取语音特征并随后计算新样本与第一个样本之间的距离的算法很容易被攻击者编造的录音所欺骗。
由于在您的情况下有一个人类收件人,因此创建由随机对话中切碎的单词或句子组成的消息实际上非常困难且耗时。但也不是完全不可能……
为音乐行业创建了非常好的发声软件,例如获取一些语音音频输入并使其听起来(语调和时间方面)像第二个音频样本(指南,由欺诈者制作)。 SynchroArts 的 Vocalign Pro 这样做是为了帮助获得完美的背景声轨。您可以使用其他语音编辑软件进一步手动调整音频,并达到接收者不会立即检测到的可接受的质量水平。
根据攻击者希望您的用户说什么,如果他拥有他想要的所有记录材料,过程的复杂性可能从一个小时到一天不等...
要对抗这种类型的攻击,您需要检测音频样本是否已被编辑。数字版会留下不自然的痕迹。例如。在声音周围的背景噪音中。
AFAICT,只有最好的商业软件才能达到这种级别的安全检查,但我不知道它们在检测此类编辑方面能走多远。
从纯粹的安全角度来看,您还需要确保设备没有受到威胁。所以这些语音验证检查应该发生在服务器端,而不是手机本身。
请注意,这些是一般注意事项,这完全取决于您的用例实际需要哪种安全措施。我的汽车警报器当然不是牢不可破的,但它有助于提高标准,因此更少的攻击者可能会偷走它......
要考虑的另一件事是,根据定义,生物识别是一个统计过程,它会产生一定百分比的误报和误报。通过更改接受阈值,您将能够以提高另一个为代价来降低其中一个。
选择适当的阈值需要您拥有大量的测试数据。说出至少 200 位发言者的 1 分钟录音,然后开始拍照。
我认为您还需要考虑的另一件事是人声的固有可变性。人们可能生病了,这在某些情况下可能会使声音无法识别。情绪状态也可能起作用:悲伤或愤怒会产生不同的声音......
最后但并非最不重要的一点是,周围的噪音可能会造成问题。假设用户在家时注册,然后在繁忙的城市环境中在旅途中录制消息,系统可能无法确保它实际上是同一个人说话。信噪比肯定会成为您的主要问题之一。小tip:根据麦克风到嘴巴的距离,比例会有很大的不同。当用户像在常规电话交谈中那样将手机靠近脸部时,您将获得比用户在录制消息时看着屏幕时更好的结果。
语音变异性和信噪比可能是导致假阴性结果的主要原因。
希望您现在对等待您的挑战有了更好的了解,我可以开始分享一些关于开源和商业图书馆的建议。
AFAIK,没有包含欺诈检测的开源库... 您可能需要查看 Nuance Communication 以了解最新技术。还有很多其他的供应商,去谷歌看看吧,我只提到 Nuance 是因为它的名声。
有一个名为 Alize 的 OSS 库(用 C++ 编写,在 LGPL 许可下),它使用一种称为 MFCC(梅尔频率倒谱系数)的算法。众所周知,MFCC 可以带来出色的结果。预计学习曲线会很陡峭,因为该软件面向愿意提高该主题最新技术水平的研究人员,并且使用的词汇非常具体。
我为普通开发人员编写了一个名为 Recognito(Java,Apache 2.0)的 OSS 库,因此您应该能够在几分钟内对其进行测试。该库非常年轻,在改进算法之前,我首先专注于它的 API。我目前使用的算法称为线性预测编码 (LPC),众所周知,它会带来很好的结果(而且我确实有很好的结果,只要录音产生相同的质量水平 :-))。我目前正在发布一个新版本,其中包括匹配结果中的似然系数。 MFCC 的实施在路线图上。 有很多javadoc,代码应该非常简单...... https://github.com/amaurycrickx/recognito
Recognito 依赖于 javax.sound 包来处理音频文件。您可能想查看这篇文章,了解在 Android 中使用它需要什么:Voice matching in android
鉴于很多人需要 android 的东西,我会在不久的将来做一些事情,而不是说应该如何修改 lib :-)
HTH
【讨论】: