【corpus】QUT-NOISE-TIMIT Corpus

最新推荐文章于 2026-03-24 00:25:56 发布

原创

最新推荐文章于 2026-03-24 00:25:56 发布 · 922 阅读

标签

#QUT-NOISE #QUT-NOISE-TIMIT #语音数据集 #speech corpus

收录于

QUT-NOISE-TIMIT Corpus 是一个结合了QUT噪声集和TIMIT语音的数据集，用于评估语音活动检测算法。尽管官方提供合成脚本，但存在错误，导致合成过程中的问题。该数据集包含600小时的带噪语音，以及10小时以上的多种背景噪声。修正官方脚本后，用户可以在QUT的官网找到资源并进行合成。

QUT-NOISE-TIMIT Corpus

最近复现论文的时候用到了这个数据集，做这个数据集的过程狠艰辛，数据集的论文中没有给出下载地址，网上也搜不到，我在 QUT 的学校官网里找出来的，结果官方提供的合成脚本还有错误…（太坑了！）

这个数据集是 QUT 自己录制的噪声集，然后混合了 TIMIT 的语音，整个数据集包括600小时的带噪语音。QUT-NOISE 噪声集包含10个场景录制的5种常见背景噪声，时长超过10个小时，详细信息可以查看论文。

数据集论文：The QUT-NOISE-TIMIT Corpus for the Evaluation of Voice Activity Detection Algorithms

官方脚本出现的问题：

网上搜不到这个数据集的相关信息，我在 QUT 的学校官网找到了 QUT-NOISE 集和 MATLAB 的合成脚本，但是脚本有问题，addspeechtonoise.m文件里面有个拼接路径的地方写错了，多加了一个.，导致一直报文件打开无效的错误。

% addspeechtonoise.m  
% line 160
[data,fs,times,active] = ...
     getspeech([speechfolder '/' speechfile], ...
               [speechfolder './' labfile], ...
     	       wantedfs, imp, 'bounds');

% after correction
[data,fs,times,active] = ...
     getspeech([speechfolder '/' speechfile], ...
               [speechfolder '/' labfile], ...