音源分离|Music Source Separation in the Waveform Domain

DeOldify图像上色

DeOldify图像上色

图片生成
图片编辑
DeOldify

使用modelscope和gradio加载DeOldify图像上色的图像上色模型并前端推理。

一、文章摘要

        本文中,比较了两种时域结构。首先将最初为语音源分离而开发的卷积tasnet应用于音乐源分离任务。虽然ConvTasnet击败了许多现有的频域方法,但正如人类评估所显示的那样,它存在明显的artifacts。本文提出了一种新的时域模型Demucs,它具有U-Net结构和双向LSTM。

        在MusDB数据集上的实验表明,通过适当的数据增强,Demucs击败了所有现有的最先进的架构,包括convt - tasnet,平均为6.3 SDR,(在150首额外的训练歌曲中达到6.8 SDR,甚至超过了bass源的IRM oracle)。使用模型量化的最新发展,Demucs可以压缩到120MB而不会损失任何精度。我们还提供了人类的评估,表明Demucs在音频的自然度方面有很大的优势。然而,它存在一些泄露问题,特别是在人声和其他源之间。

二、本文方法 

2.1 Conv-Tasnet方法适配到音源分离任务

        原始的conv - tasnet架构[Luo和Mesgarani, 2018]由一个学习的前端组成,该前端在以8 kHz采样的输入单音混合波形和以1 kHz采样的128通道过完整表示之间来回转换,使用卷积作为编码器和转置卷积作为解码器,两者的核大小为16,步幅为8。通过残块堆叠构成的分离网络对高维表示进行屏蔽。

        整个的分离思路按照公式(1)进行,一句话概括:最小化各个重建源加和的误差

        其中:g表示训练的模型,x表示各个源,L表示重建误差,S表示各个源的编号(假设1=bass、2=voval等),D表示训练用的数据(dataset)。

2.2 Demucs方法

        Demucs将立体声混合作为输入,并输出每个源的立体声估计(C = 2)。它是一个编码器/解码器架构,由卷积编码器、双向LSTM和卷积解码器组成,编码器和解码器通过跳跃连接相连。与图像[Karras等人,2018,2017]和声音[dsamfosez等人,2018]生成中的其他工作类似,我们没有使用批处理归一化[Ioffe和Szegedy, 2015],因为我们的早期实验表明它不利于模型性能。

三、实验结果

        我们注意到通过convt - tasnet分离的音频上有很强的伪像,特别是对于鼓和低音源:1到2 kHz之间的静态噪声,中空乐器攻击或缺失音符,如图1所示。

        

        我们在波形域中试验了两种音乐源分离架构:Demucs和convt - tasnet。我们表明,通过适当的数据增强,Demucs在波形或频谱域中超过所有最先进的架构至少0.3 dB的SDR。然而,波形和谱图域模型之间没有明显的赢家,因为前者似乎在低音和鼓源中占主导地位,而后者在人声和其他源上获得最佳表现,这是通过客观指标和人类评估来衡量的。我们推测,谱图域模型在内容主要是谐波和快速变化时具有优势,而对于没有谐波的源(鼓)或具有强烈和强调的攻击机制(低音),波形域将更好地保留音乐源的结构

        在训练和架构方面,我们确认了使用音高/节奏变换增强的重要性(尽管卷积- tasnet架构似乎并没有从中受益),以及使用LSTM进行长距离依赖,以及具有1x1卷积和GLU激活的强大编码和解码层。

        当使用额外的数据进行训练时,Demucs首次超过了用于低音源的IRM oracle。另一方面,Demucs仍然遭受比其他架构更大的泄漏,特别是对于人声和其他来源,我们将在未来的工作中尽量减少。

【原文链接】https://arxiv.org/pdf/1911.13254

您可能感兴趣的与本文相关的镜像

DeOldify图像上色

DeOldify图像上色

图片生成
图片编辑
DeOldify

使用modelscope和gradio加载DeOldify图像上色的图像上色模型并前端推理。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值