如何将 specAugment 扭曲的 melspectrogram 保存为 Wav 文件答案

【问题标题】：How to save specAugment warped melspectrogram as a Wav file如何将 specAugment 扭曲的 melspectrogram 保存为 Wav 文件
【发布时间】：2021-10-30 12:20:40
【问题描述】：

我正在尝试实现一个 github repo specAugment (https://github.com/DemisEom/SpecAugment)

使用 librosa 加载 wav 文件后，我相信它使用 numPy reshape 函数来重塑 melspectrogram 数组，使用 power_to_db 函数获取 Log scale melspectrogram 并应用数据增强。

我的问题是，是否可以获得增强数据的 wav 文件？如果是这样，如何？我将不胜感激任何指针，甚至只是将结果转换回 wav 文件所需的步骤。

我尝试了 librosa 的 inverse.mel_to_audio() 函数，但无济于事。我也试过 scipy.io.wavfile.write()

【问题讨论】：

标签： python tensorflow librosa data-augmentation

【解决方案1】：

据我所知，将频谱图转换回波形的过程并非易事。

Librosa 确实支持您提到的方法，它使用的是 Griffin-Lim 算法，如果您想试用方便面，这是基本且最方便的算法之一。目前我不知道您遇到了什么具体问题，您可能需要在此处提供更多详细信息。

除此之外，如今，人们正专注于为这项任务开发深度学习模型，因为它们可以从频谱图中显着生成更高质量的音频 - WaveNet、WaveGlow、ParallelWaveGAN 等，仅举几例，因为它们发挥着重要作用在文本到语音系统中的作用。

【讨论】：