【问题标题】:Scream detection尖叫检测
【发布时间】:2017-11-29 08:51:07
【问题描述】:

我正在做一个需要检测一些语音模式的项目。 例如“有人在尖叫”:因为我不知道那个人是谁,孩子、男人、女人……每个人都有自己的声音……等等。

所以,我正在寻找一种方法来检测“尖叫”,例如,尽可能多地保存“尖叫”的指纹,然后当我需要检查声音是否是“尖叫”的声音时,我可能会为其创建一个指纹,然后搜索并查看我是否可以在我已经拥有的“尖叫”指纹列表中找到相似之处。

我的方法是使用类似以下项目的东西:

每个都会给我一个特定声音的独特指纹,对吗? 我的问题是: 我如何能够在“尖叫”指纹列表中搜索相似性,是否有任何可能的方法来生成分数或返回每个指纹的相似性百分比,以便我可以确定我正在测试的声音是否按百分比或有尖叫吗?

谢谢, J.B

【问题讨论】:

    标签: speech-recognition similarity audio-fingerprinting


    【解决方案1】:

    我的方法是使用以下项目:

    这不是一个好主意,尖叫通常是相当稳定的声音,而所有这些库都会搜索声音中的不规则性。他们不会检测到任何东西。最好改用简单的 DNN-LSTM 分类器。您可以使用 tensorflow 或任何其他 DNN 框架对其进行训练。你可以在这里找到算法的描述;

    Deep Recurrent Neural Network-based Autoencoders for Acoustic Novelty Detection

    或这里:

    Deep Neural Networks for Automatic Detection of Screams and Shouted Speech In Subway Trains

    我如何能够在“尖叫”指纹列表中搜索相似度,是否有任何可能的方法来生成分数或返回每个指纹的相似度百分比,以便我可以确定我正在测试的声音是否是% 还是尖叫?

    在您的第一个库中,您可以使用 queryResult.BestMatch.Confidence 例如:

    置信度 - 返回 [0, 1] 之间的值。低于 0.15 的值很可能是误报。大于 0.15 的值很可能是完全匹配的。对于良好的音频质量查询,您可以获得 > 0.5 的置信度。

    【讨论】:

    • 谢谢,为此使用 tensorflow,我的感觉(和一些预计算)在扩展时会花费我们很多!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-05-29
    • 1970-01-01
    • 2014-04-09
    • 1970-01-01
    • 2022-01-09
    • 2023-03-24
    相关资源
    最近更新 更多