通过音频进行性别检测答案

【问题标题】：Gender Detection by audio通过音频进行性别检测
【发布时间】：2013-01-18 18:42:40
【问题描述】：

我一直在到处寻找通过读取音频文件的频率数据来进行某种形式的性别检测。我没有找到可以做到这一点的程序，甚至没有找到任何可以输出音频数据的程序，因此我可以编写一个基本程序来读取它并对其进行操作以确定说话者的性别。

你们有谁知道我可以在哪里找到可以帮助我解决这个问题的东西吗？

重申一下，我基本上想要一个程序，当一个人对着麦克风说话时，它会相当精确地说出说话者的性别。我的完整计划还包括语音转文本功能，因此程序会写出演讲者所说的内容，并给出演讲者的一些非常基本的人口统计数据。

*最好使用跨平台或支持 linux 的通用脚本语言。

【问题讨论】：

【解决方案1】：

您将需要研究共振峰检测和线性预测编码。 Heres a paper 有一些可以移植到 scipy/numpy 的信号流图。

【讨论】：

【解决方案2】：

虽然是一个老问题，但如果有人对从音频中进行性别检测感兴趣，您可以通过提取 MFCC（梅尔频率倒谱系数）特征并使用机器学习模型 GMM（高斯混合模型）对其进行建模来轻松做到这一点

可以按照本教程进行操作，该教程实现了相同的功能，并在从 Google 的 AudioSet 性别数据中提取的子集上对其进行了评估。

【讨论】：