Python有一些很棒的音频处理库,比如Librosa和PyAudio。还有一些内置的模块用于一些基本的音频功能。

1. Librosa

核心音频处理函数
这部分介绍了最常用的音频处理函数,包括音频读取函数load( ),重采样函数resample( ),短时傅里叶变换stft( ),幅度转换函数amplitude_to_db( )以及频率转换函数hz_to_mel( )等。这部分函数很多,详细可参考librosa官网 http://librosa.github.io/ librosa/core.html

音频处理

Python-音频库

频谱表示

Python-音频库

幅度转换

Python-音频库

时频转换

Python-音频库

特征提取

本部分列举了一些常用的频谱特征的提取方法,包括常见的Mel Spectrogram、MFCC、CQT等。函数详细信息可参考http:// librosa.github.io/librosa/feature.html
Python-音频库

绘图显示

包含了常用的频谱显示函数specshow( ), 波形显示函数waveplot( ),详细信息请参考http://librosa.github.io/librosa/display. html

Python-音频库

2. IPython.display.Audio

PyAudio为跨平台音频I / O库 PortAudio 提供 Python 绑定。使用PyAudio,您可以轻松地使用Python在各种平台上播放和录制音频,例如GNU / Linux,Microsoft Windows和Apple Mac OS X / macOS。

pyaudio有这么几个功能:

  • 提取特征
  • 训练并且使用分类器
  • 语音分割功能
  • 内容关系可视化

python实现,好处有这么几个

  • 适合做计算分析类型操作(编码少,效率不低)
  • 免费
  • 不需要很复杂的搭环境
  • 大量的第三方库可以使用

具体功能

特征提取(feature extraction):关于时域信号和频域信号都有所涉及
分类(classification):监督学习,需要用已有的训练集来进行训练。交叉验证也实现了,进行参数优化使用。分类器可以保存在文件中以后使用。
回归(regression):将语音信号映射到一个回归值。
分割(segmenttation):有四个功能被实现了
[x] 固定大小的分割
[x] 静音检测(silence removal)
[x] 语音聚类(speaker diarization)
[x] 语音缩略图(audio thumbnailing)
可视化:给定语音,将内容可视化

相关文章:

  • 2021-10-09
  • 2022-12-23
  • 2022-12-23
  • 2021-05-24
  • 2021-12-06
  • 2021-04-16
  • 2021-11-23
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-07-06
  • 2022-12-23
  • 2021-12-16
  • 2022-12-23
  • 2021-04-15
  • 2022-12-23
相关资源
相似解决方案