A Deep-Learning-Based Chinese Speech Recognition System

基于深度学习的中文语音识别系统

Introduction 简介

本项目使用Keras、TensorFlow基于DFCNN实现。

本项目目前已经可以正常进行训练了。

通过git克隆仓库以后，需要将datalist目录下的文件全部拷贝到dataset目录下，也就是将其跟数据集放在一起。

$ cp -rf datalist/* dataset/

本项目开始训练请执行：

$ python3 train_mspeech.py

本项目开始测试请执行：

$ python3 test_mspeech.py

测试之前，请确保代码中填写的模型文件路径存在。

ASRT API服务器启动请执行：

$ python3 asrserver.py

如果程序运行期间或使用中有什么问题，可以及时在issue中提出来，我将尽快做出答复。

Model 模型

Speech Model 语音模型

DFCNN

关于下载已经训练好的模型的问题

Language Model 语言模型

基于概率图的最大熵隐马尔可夫模型

About Accuracy 关于准确率

当前，最好的模型在测试集上基本能达到80%的汉语拼音正确率

不过由于目前国际和国内的部分团队能做到97%，所以正确率仍有待于进一步提高

目前可知的可以继续提高准确率的一个方案就是纠正数据集标注错误，尤其是ST-CMDS里面关于syllable文件中拼音的错误，这里面有一定比例的错误标注，如果走过路过的各位有意愿尽自己的能力帮助纠正一些数据标注错误的，我将非常欢迎，可以通过提交Pull Request来纠正，并且将登上本仓库的贡献者名单。

样例：不是： bu4 shi4 -> bu2 shi4 一个：yi1 ge4 -> yi2 ge4 了解：le5 jie3 -> liao3 jie3

已订正部分：

ST-CMDS

train: 20170001P00001A 20170001P00001I 20170001P00002A

Python Import

Python的依赖库

python_speech_features
TensorFlow
Keras
Numpy
wave
matplotlib
math
Scipy
h5py

Data Sets 数据集

清华大学THCHS30中文语音数据集

data_thchs30.tgz http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz http://www.openslr.org/resources/18/data_thchs30.tgz

test-noise.tgz http://cn-mirror.openslr.org/resources/18/test-noise.tgz http://www.openslr.org/resources/18/test-noise.tgz

resource.tgz http://cn-mirror.openslr.org/resources/18/resource.tgz http://www.openslr.org/resources/18/resource.tgz

Free ST Chinese Mandarin Corpus

ST-CMDS-20170001_1-OS.tar.gz http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

特别鸣谢！感谢前辈们的公开语音数据集

如果提供的数据集链接无法打开和下载，请点击该链接 OpenSLR

Contributors 贡献者们

@ZJUGuoShuai @williamchenwl

@nl8590687 (repo owner)

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
datalist		datalist
dataset		dataset
gen_aishell_data		gen_aishell_data
general_function		general_function
log		log
model_language		model_language
model_speech/m_DFCNN		model_speech/m_DFCNN
LanguageModel.py		LanguageModel.py
README.md		README.md
SpeechModel_DFCNN.py		SpeechModel_DFCNN.py
asrserver.py		asrserver.py
dict_2.txt		dict_2.txt
gpu_condition.py		gpu_condition.py
kill_PID.py		kill_PID.py
read_data.py		read_data.py
read_data_aishell.py		read_data_aishell.py
step_dfcnn.txt		step_dfcnn.txt
test.py		test.py
testClient.py		testClient.py
test_mspeech.py		test_mspeech.py
train_mspeech.py		train_mspeech.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

A Deep-Learning-Based Chinese Speech Recognition System

Introduction 简介

Model 模型

Speech Model 语音模型

Language Model 语言模型

About Accuracy 关于准确率

Python Import

Data Sets 数据集

Contributors 贡献者们

About

Releases

Packages

Languages

luolitao/DFCNN-master

Folders and files

Latest commit

History

Repository files navigation

A Deep-Learning-Based Chinese Speech Recognition System

Introduction 简介

Model 模型

Speech Model 语音模型

Language Model 语言模型

About Accuracy 关于准确率

Python Import

Data Sets 数据集

Contributors 贡献者们

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages