在 JS AudioContext.analyserNode 中确定频率答案

【问题标题】：Determining Frequencies in JS AudioContext.analyserNode在 JS AudioContext.analyserNode 中确定频率
【发布时间】：2017-11-14 02:42:21
【问题描述】：

背景

我的目标是创建一个基于 JavaScript 的网络应用程序来分析和显示音频源中的频率信息，包括页面内源（<audio> 标签）和从客户端麦克风流式传输的信号。我正在路上:)

作为一名敏锐的萨克斯手，我的目标之一是通过检查高分音与基本音高相关的分布来比较不同萨克斯手和乐器的音色中固有的信息。简而言之，我想解释为什么不同的乐器演奏家和乐器品牌即使在演奏相同的音高时听起来也不同。此外，我想将各种“替代指法”的调音和频率分布与同一演奏者/乐器的传统或标准指法进行比较。

使用 JS AudioContext.analyserNode 访问和显示频率信息是一件相当简单的事情，我将它与 HTML5 Canvas 元素结合使用以创建类似于 @ 找到的频率图或“winamp 样式条形图” 987654321@.

问题

为了实现我的目标，我需要识别音频源中的一些特定信息，主要是基音的赫兹频率，以便在乐器演奏者/乐器之间进行直接比较，以及频率范围来源，以确定我感兴趣的声音的频谱。该信息可以在下面的变量fData中找到...

// example...
var APP = function() {
    // ...select source and initialise etc..

    var aCTX = new AudioContext(),
        ANAL = aCTX.createAnalyser(),
        rANF = requestAnimationFrame,
        ucID = null;

    ANAL.fftSize = 2048;

    function audioSourceStream(stream) {

        var source = aCTX.createMediaStreamSource(stream);
        source.connect(ANAL);

        var fData = new Uint8Array(ANAL.frequencyBinCount);

        (function updateCanvas() {
            ANAL.getByteFrequencyData(fData);

            // using 'fData' to paint HTML5 Canvas

            ucID = rANF(updateCanvas);
        }());
    }
};

问题

虽然我可以通过<canvas> API 轻松地将fData 表示为条形图或折线图等，以便清晰可见声源的基本部分和上部部分，但到目前为止我还不能确定...

fData 的频率范围（最小-最大赫兹）
fData (Hz) 中每个值的频率

没有这个，我无法开始识别源的主要频率（以便将调音的变化与传统音乐音高名称进行比较）和/或突出或排除所代表的区域光谱（放大或缩小等）进行更详细的检查。

我的目的是通过音高（音符名称）和频率 (Hz) 突出显示主要频率，并在鼠标悬停时在图表中显示任何单个条形的频率。 注意我已经有一个数据对象，其中存储了 C₀-B₈ 之间的所有频率（Hz）。

尽管阅读了多次AudioContext.analyserNode specification，并且几乎阅读了本网站和 MDN 上关于这个主题的每一页，但我仍然对如何完成这部分任务没有确定的想法。

基本上，如何将 Uint8Array() fData 中的值转换为 fData 数组元素所反映的每个频率的幅度（以赫兹为单位）的表示形式。 p>

我们将不胜感激任何建议、建议或鼓励。

【问题讨论】：

嗨，Brian，我刚看到这个，想知道你是否完成了这个项目？
@Katie.Sun Hiya。我设法让一些东西工作，但最终我想要的应用程序超出了 JS AudioContext API 的功能。现在我正在摆弄一个适用于 Linux 的独立桌面应用程序——它进展缓慢，但我可能有一天会到达那里。 :D

标签： javascript audio html5-audio web-audio-api audiocontext

【解决方案1】：

首先，请了解 FFT 的输出将为您提供一系列频率范围内的相对强度，而不是精确的频率。

这些范围分布在频谱 [0，奈奎斯特频率] 中。奈奎斯特频率是采样率的二分之一。因此，如果您的 AudioContext.sampleRate 为 48000（赫兹），您的频率区间将跨越 [0,24000]（也以赫兹为单位）。

如果您在 AnalyserNode 中为 fftSize 使用默认值 2048，则 frequencyBinCount 将为 1024（它始终是 FFT 大小的一半）。这意味着每个频率分档将代表 (24000/1024 = 23.4) 大约 23.4Hz 的范围 - 所以分档看起来像这样（即插即用，此处可能出现舍入误差）：

fData[0] is the strength of frequencies from 0 to 23.4Hz.
fData[1] is the strength of frequencies from 23.4Hz to 46.8Hz.
fData[2] is the strength of frequencies from 46.8Hz to 70.2Hz.
fData[3] is the strength of frequencies from 70.2Hz to 93.6Hz.
...
fData[511] is the strength of frequencies from 11976.6Hz to 12000Hz.
fData[512] is the strength of frequencies from 12000Hz to 12023.4Hz.
...
fData[1023] is the strength of frequencies from 23976.6Hz to 24000Hz.

到目前为止还有意义吗？

通常出现的下一条评论是“等一下 - 从音乐上讲，这在低音域（23.4 Hz 可以覆盖整个 OCTAVE）中不如高音域（在高音域之间有数百赫兹）精确笔记）。”对此我说：是的，是的。这就是 FFT 的工作原理。在较高的寄存器中，更容易看到调音差异。

下一条评论通常是“哇，我需要一个 MASSIVE fftSize 才能在低音寄存器中精确。”通常，答案是“不，你可能不应该那样做”——在某些时候，自相关比 FFT 更有效，而且更精确。

希望这有助于为您指明正确的方向，如果有后续，请添加评论。

【讨论】：

关于缓冲区大小和采样率之间关系的那条信息正是我所追求的，认为它表明我可能不得不采取不同的方法，原因已说明。 :( 猜我需要一种分析分析仪的方法！！:D 有任何可能有用的“自相关”链接吗？还是谢谢。
en.wikipedia.org/wiki/Autocorrelation 有一个很好的总结。并且还提到通常计算自相关的最快方法是使用 FFT。获取低音寄存器值的另一种方法是使用一组带通滤波器来获取每个频段的能量。设计过滤器可能有点棘手，因为带宽会很小，而且您可能希望频带彼此完全隔离。