【问题标题】:Java algorithm for normalizing audio用于规范化音频的 Java 算法
【发布时间】:2012-09-18 01:53:26
【问题描述】:

我正在尝试规范化语音的音频文件。

具体来说,当音频文件包含音量峰值时,我正在尝试将其拉平,因此安静部分更响亮,峰值更安静。

除了从这项任务中学到的知识之外,我对音频处理知之甚少。另外,我的数学很差。

我做了一些研究,Xuggle 网站提供了一个示例,显示使用以下代码减少音量:(full version here)

@Override
  public void onAudioSamples(IAudioSamplesEvent event)
{
  // get the raw audio byes and adjust it's value 

  ShortBuffer buffer = event.getAudioSamples().getByteBuffer().asShortBuffer();
  for (int i = 0; i < buffer.limit(); ++i)
    buffer.put(i, (short)(buffer.get(i) * mVolume));

  super.onAudioSamples(event);
}

在这里,他们将getAudioSamples() 中的字节修改为mVolume 常量。

在此方法的基础上,考虑到文件中的最大/最小值,我尝试了规范化将 getAudioSamples() 中的字节修改为规范化值。 (详见下文)。我有一个简单的过滤器可以单独留下“沉默”(即任何低于某个值的内容)。

我发现输出文件非常嘈杂(即质量严重下降)。我假设错误是在我的规范化算法中,或者是我操作字节的方式。但是,我不确定下一步该去哪里。

这是我目前正在做的事情的精简版。

第 1 步:在文件中查找峰:

读取完整的音频文件,并为所有 AudioSamples 找到 buffer.get() 的最高和最低值

    @Override
    public void onAudioSamples(IAudioSamplesEvent event) {
        IAudioSamples audioSamples = event.getAudioSamples();
        ShortBuffer buffer = 
           audioSamples.getByteBuffer().asShortBuffer();

        short min = Short.MAX_VALUE;
        short max = Short.MIN_VALUE;
        for (int i = 0; i < buffer.limit(); ++i) {
            short value = buffer.get(i);
            min = (short) Math.min(min, value);
            max = (short) Math.max(max, value);
        }
        // assign of min/max ommitted for brevity.
        super.onAudioSamples(event);

    }

第 2 步:标准化所有值:

在类似于 step1 的循环中,将缓冲区替换为标准化值,调用:

    buffer.put(i, normalize(buffer.get(i));

public short normalize(short value) {
    if (isBackgroundNoise(value))
        return value;

    short rawMin = // min from step1
    short rawMax = // max from step1
    short targetRangeMin = 1000;
    short targetRangeMax = 8000;

    int abs = Math.abs(value);
    double a = (abs - rawMin) * (targetRangeMax - targetRangeMin);
    double b = (rawMax - rawMin);
    double result = targetRangeMin + ( a/b );

     // Copy the sign of value to result.
    result = Math.copySign(result,value);
    return (short) result;
}

问题:

  • 这是尝试规范化音频文件的有效方法吗?
  • 我在normalize() 中的数学是否有效?
  • 为什么这会导致文件变得嘈杂,而演示代码中的类似方法不会?

【问题讨论】:

  • “我正在尝试将其拉平,因此安静的部分更响亮,而山峰更安静。” - 那叫dynamic range compression,和归一化不一样。

标签: java math audio


【解决方案1】:

我认为“最小样本值”的概念没有多大意义,因为样本值只是代表声波在某个时刻的当前“高度”。 IE。它的绝对值将在音频剪辑的峰值和零之间变化。因此,targetRangeMin 似乎是错误的,可能会导致波形失真。

我认为更好的方法可能是使用某种权重函数,根据样本大小减少样本值。 IE。较大的值比较小的值减少了很大的百分比。这也会引入一些失真,但可能不是很明显。

编辑:这是这种方法的示例实现:

public short normalize(short value) {
    short rawMax = // max from step1
    short targetMax = 8000;

    //This is the maximum volume reduction
    double maxReduce = 1 - targetMax/(double)rawMax;

    int abs = Math.abs(value);
    double factor = (maxReduce * abs/(double)rawMax);

    return (short) Math.round((1 - factor) * value); 
}

作为参考,这是您的算法对幅度为 10000 的正弦曲线所做的操作:

这解释了为什么在标准化后音频质量会变得更差。

这是使用我建议的normalize 方法运行后的结果:

【讨论】:

    【解决方案2】:

    音频的“标准化”是增加音频电平的过程,使得最大值等于某个给定值,通常是最大可能值。今天,在另一个问题中,有人解释了如何做到这一点(见#1):audio volume normalization

    但是,您继续说“具体来说,当音频文件包含音量峰值时,我正在尝试将其拉平,因此安静的部分更响亮,而峰值更安静。”这称为“压缩”或“限制”(不要与 MP3 编码中使用的压缩类型混淆!)。你可以在这里阅读更多信息:http://en.wikipedia.org/wiki/Dynamic_range_compression

    一个简单的压缩器并不是特别难实现,但你说你的数学“弱得令人尴尬”。所以你可能想找到一个已经建成的。您也许可以找到在 http://sox.sourceforge.net/ 中实现的压缩器并将其从 C 转换为 Java。我知道谁的源代码可用的压缩器的唯一 java 实现(而且不是很好)在 this book

    作为解决问题的替代方法,您可以将文件以每秒 1/2 的片段标准化,然后使用线性插值连接您用于每个片段的增益值。您可以在此处阅读有关音频线性插值的信息:http://blog.bjornroche.com/2010/10/linear-interpolation-for-audio-in-c-c.html

    我不知道the levelator 的源代码是否可用,但那是你可以尝试的其他东西。

    【讨论】:

      猜你喜欢
      • 2021-02-21
      • 2018-01-02
      • 1970-01-01
      • 2011-05-05
      • 2020-02-15
      • 1970-01-01
      • 2011-03-11
      • 2017-09-07
      • 1970-01-01
      相关资源
      最近更新 更多