【问题标题】:How to save specAugment warped melspectrogram as a Wav file如何将 specAugment 扭曲的 melspectrogram 保存为 Wav 文件
【发布时间】:2021-10-30 12:20:40
【问题描述】:

我正在尝试实现一个 github repo specAugment (https://github.com/DemisEom/SpecAugment)

使用 librosa 加载 wav 文件后,我相信它使用 numPy reshape 函数来重塑 melspectrogram 数组,使用 power_to_db 函数获取 Log scale melspectrogram 并应用数据增强。

我的问题是,是否可以获得增强数据的 wav 文件?如果是这样,如何?我将不胜感激任何指针,甚至只是将结果转换回 wav 文件所需的步骤。

我尝试了 librosa 的 inverse.mel_to_audio() 函数,但无济于事。我也试过 scipy.io.wavfile.write()

【问题讨论】:

    标签: python tensorflow librosa data-augmentation


    【解决方案1】:

    据我所知,将频谱图转换回波形的过程并非易事。

    Librosa 确实支持您提到的方法,它使用的是 Griffin-Lim 算法,如果您想试用方便面,这是基本且最方便的算法之一。目前我不知道您遇到了什么具体问题,您可能需要在此处提供更多详细信息。

    除此之外,如今,人们正专注于为这项任务开发深度学习模型,因为它们可以从频谱图中显着生成更高质量的音频 - WaveNet、WaveGlow、ParallelWaveGAN 等,仅举几例,因为它们发挥着重要作用在文本到语音系统中的作用。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-05-15
      • 2011-01-06
      • 2010-11-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多