Demucs是说各用了SING和Wave-U-Net的一部分结构。
用了SING的large stride和large channel、LSTM以及conv,但是保持了Wave-U-Net的U-Net。
Demucs前篇1:Wave-U-Net
这里有个差值输出层,是说第k个source是mix和其他k-1个source的差值。所以前k-1个source由网络得到,sourcek = mix-∑其他,确保∑所有=mixture

一直在疯狂的downsampling block和upsampling block,L=12,DB的输出还会直接concat在对应层的UB上,包括input也会在k个source之前concat在输出上,然后再经过一个conv(K,1)。
Demucs前篇1:Wave-U-Net

文章提出了wave form的好处,先diss了一番spectrum的没有利用到phase info,分离的时候只用了amplitude info但是最后用的是mixture的phase info。但是呢,wave form因为采样频率一般比较高,没法利用context信息。

先是提出了一个baseline,然后再具体了某些实现细节,也算是ablation study,包括:

  • 差值输出层
  • 边界值(diss zero padding不好,分段处理之后边界不是真正的context,拼接的时候会有不连续的感觉)
  • 多轨道
  • 学习插值

相关文章:

  • 2021-08-22
  • 2021-11-05
  • 2021-09-18
  • 2021-05-23
  • 2021-08-04
  • 2021-06-23
  • 2021-06-10
猜你喜欢
  • 2021-12-08
  • 2022-01-04
  • 2022-12-23
  • 2021-08-28
  • 2022-12-23
  • 2021-12-05
  • 2021-11-06
相关资源
相似解决方案