Demucs是说各用了SING和Wave-U-Net的一部分结构。
用了SING的large stride和large channel、LSTM以及conv,但是保持了Wave-U-Net的U-Net。
这里有个差值输出层,是说第k个source是mix和其他k-1个source的差值。所以前k-1个source由网络得到,sourcek = mix-∑其他,确保∑所有=mixture
一直在疯狂的downsampling block和upsampling block,L=12,DB的输出还会直接concat在对应层的UB上,包括input也会在k个source之前concat在输出上,然后再经过一个conv(K,1)。
文章提出了wave form的好处,先diss了一番spectrum的没有利用到phase info,分离的时候只用了amplitude info但是最后用的是mixture的phase info。但是呢,wave form因为采样频率一般比较高,没法利用context信息。
先是提出了一个baseline,然后再具体了某些实现细节,也算是ablation study,包括:
- 差值输出层
- 边界值(diss zero padding不好,分段处理之后边界不是真正的context,拼接的时候会有不连续的感觉)
- 多轨道
- 学习插值