[论文]d-vector

最新推荐文章于 2026-06-20 07:01:26 发布

原创

最新推荐文章于 2026-06-20 07:01:26 发布 · 1.5k 阅读

标签

#深度学习

本文介绍了一种基于DNN的说话人确认技术，使用DNN提取d-vector作为说话人模型。实验表明，d-vector系统在小样本文本相关说话人确认任务中优于i-vector系统，且对噪声更具鲁棒性，组合系统性能提升尤为明显。

论文：Deep neural networks for small footprint text-dependent speaker verification

文章目录

Abstract
1.Intraduction
2.Previous work
3.DNN for speaker verification
4.Experimental result
5.Conclusions

Abstract

本文，我们研究深度神经网络（DNN）在小样本相关说话人确认任务中的应用。在开发阶段，训练一个DNN在帧级对说话人进行分类。在注册阶段，训练好的DNN从最后一个隐藏层提取说话人的特定特征，这些特征的均值（或称为d-vector）将作为说话人模型。在评估阶段，每个句子提取出一个d-vector，将其与注册的说话人模型进行比较来给出验证结果。实验结果表明，与流行的i-vector系统相比，基于DNN的说话人确认系统在小样本文本相关说话人确认任务中实现了较好的性能。另外，基于DNN的系统对添加的噪声更加鲁棒，并且在低错误拒接工作点上的性能要超过i-vector系统。最后，在干净和噪声条件下，组合系统的EER（性能指标）分别比i-vector系统提高了14%和25%。

1.Intraduction

说话人确认（SV）是根据说话人的语音信号接受或拒绝声称的说话人身份的任务。基于说话的文本，说话人确认系统可以分为两种：文本相关和文本无关。文本相关要求固定或提示的文本短语的语音，文本无关则是对不受内容限制的语音进行操作。本文重点研究小样本文本相关的说话人确认任务，但提出的技术也可以拓展到文本无关任务。

说话人确认可以分为三个阶段：

开发：从大量数据中训练背景模型，以定义说话人模型。
注册：通过说话人的特定信息（语音）注册新的说话人，获得说话人模型。注册阶段和开发阶段的说话人不相同。
评估：用注册的说话人模型和背景模型来评估每一个测试语音，作出决定。

目前最先进的说话人确认系统一般是基于i-vector和PLDA。由于强大的特征提取能力和DNN在语音识别上的成功，我们提出了基于DNN的说话人确认技术作为说话人特征提取器。一种新的基于DNN的背景模型被用来直接对说话人空间进行建模。经过训练的DNN将给定上下文的帧级特征映射到相应的说话人身份目标。在组成阶段，计算最后一个隐藏层的激活值的均值作为说话人模型，也称为d-vector。评估阶段，我们根据目标d-vector和测试d-vector之间的距离作出决定。将DNN应用于说话人确认的一个显著优点是很容易将其集成到最先进的语音识别系统中，因为它们可以共享相同的DNN推理引擎（DNN模型）和简单的滤波器能量前端（语音特征）。

2.Previous work

i-vector和PLDA的结合体是文本无关说话人识别中最先进的方法。在过去的研究中，神经网络已经被研究用于说话人识别（初步）。

3.DNN for speaker verification

在这里插入图片描述

我们提出的说话人确认背景DNN模型如图1所示。使用DNN，监督训练。

3.1 DNN as a feature extractor

我们提出的方法的核心是使用DNN结构作为说话人特征提取器。与i-vector方法一样，我们寻找一种更抽象更紧凑的说话人声学帧的表示，用DNN而不是生成因子分析模型。为此，我们首次建立了一个在帧级别上操作的受监督DNN，在开发集上对说话人进行分类。这个背景网络的输入是由每个训练帧和其左右上下文帧堆叠而形成的，网络的输出对应于开发集中说话人的数目N。目标标签被转换成了一个one-hot（独热编码）N维的向量。

一旦DNN训练成功之后，我们用最后一个隐藏层的累积输出激活值作为新的说话人表示。也就是说，对于属于一个新的说话人的语音的每一帧，我们使用训练的DNN中的标准前馈传播来计算最后一个隐藏层的输出激活，然后累积这些激活值以形成该说话人的一个新的紧凑的表示，即d-vector。我们选择使用最后一个隐藏层的输出而不是使用softmax层有几个原因。首先，我们可以通过删除输出层来减少运行时的DNN模型的大小，这使我们能够在运行时使用大量的开发说话人数据而不会增DNN大小。其次，我们观察到使用最后的隐藏层输出对未训练的说话人有更好的泛化。

这里的基本假设是，经过训练，学习开发集中说话人紧凑表示的DNN，也能够表示未训练的说话人。