博客上搜到的都是清华大学的中文数据集thchs30,其实中文和英文的在线识别操作是一样的,我这里用英文librispeech数据集进行测试(kaldi官网上可以下载到数据集和训练好的模型)。
1、创建相关文件
从voxforge把online_demo拷贝到librispeech下,和s5同级。online_demo下建online-data和work两个文件夹,online-data下建audio和models两个文件夹,audio放要识别的wav,models放训练好的模型。
测试tri1模型
在models建tri1文件夹,将librispeech/s5/exp/tri1下的final.mdl和35.mdl拷贝到刚刚新建的tri1文件夹下,将librispeech/s5/exp/tri1/graph_tgpr下的words.txt和HCLG.fst也拷贝到刚刚新建的tri1文件夹下。
2、修改脚本
修改online_demo下的run.sh
2.1 将下面这段注释掉
if [ ! -s ${data_file}.tar.bz2 ];then
echo "Downloading test models and data ..."
wget -T 10 -t 3 $data_url;
if [ ! -s ${data_file}.tar.bz2 ]; then
echo "Download of $data_file hasfailed!"
exit 1
fi
fi
if [ ! -d $ac_model ]; then
echo "Extracting the models and data ..."
tar xf ${data_file}.tar.bz2
fi
2.2 修改模型类型
ac_model_type=tri2b_mmi改成ac_model_type=tri1
2.3 修改在线识别方式
有两种识别方式
online-wav-gmm-decode-faster读取wav文件列表中的语音,并将识别结果以指定格式输出
online-gmm-decode-faster从麦克风中读取语


1万+

被折叠的 条评论
为什么被折叠?



