ASRT_SpeechRecognition/README.md

120 lines
3.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# A Deep-Learning-Based Chinese Speech Recognition System
基于深度学习的中文语音识别系统
ReadMe Language [中文版](https://github.com/nl8590687/ASRT_SpeechRecognition/blob/master/README.md) [English](https://github.com/nl8590687/ASRT_SpeechRecognition/blob/master/README_EN.md)
## Introduction 简介
本项目使用Keras、TensorFlow基于长短时记忆神经网络和卷积神经网络以及CTC进行制作。
This project uses keras, TensorFlow based on LSTM, CNN and CTC to implement.
[查看本项目的Wiki页面](https://github.com/nl8590687/ASRT_SpeechRecognition/wiki) (正在完善中)
本项目目前已经可以正常进行训练了。
通过git克隆仓库以后需要将datalist目录下的文件全部拷贝到dataset目录下也就是将其跟数据集放在一起。
```shell
$ cp -rf datalist/* dataset/
```
目前可用的模型有22、24和25
本项目开始训练请执行:
```shell
$ python3 train_mspeech.py
```
本项目开始测试请执行:
```shell
$ python3 test_mspeech.py
```
测试之前,请确保代码中填写的模型文件路径存在。
ASRT API服务器启动请执行
```shell
$ python3 asrserver.py
```
如果要训练和使用模型25请在代码中 `import SpeechModel` 的相应位置做修改。
如果程序运行期间或使用中有什么问题可以及时在issue中提出来我将尽快做出答复。
提问前可以先 [查看常见问题](https://github.com/nl8590687/ASRT_SpeechRecognition/wiki/issues)
## Model 模型
### Speech Model 语音模型
CNN + LSTM/GRU + CTC
* 关于下载已经训练好的模型的问题
可以在Github本仓库下release里面的查看发布的各个版本软件的压缩包里获得完整源程序。
### Language Model 语言模型
基于概率图的最大熵隐马尔可夫模型
## About Accuracy 关于准确率
当前speech_model22的准确率在GPU上训练了120+小时大约50个epoch在测试集上基本能达到70+%的汉语拼音正确率
不过由于目前国际和国内的部分团队能做到97%,所以正确率仍有待于进一步提高
* 目前可知的可以继续提高准确率的一个方案就是纠正数据集标注错误尤其是ST-CMDS里面关于syllable文件中拼音的错误这里面有一定比例的错误标注如果走过路过的各位有意愿尽自己的能力帮助纠正一些数据标注错误的我将非常欢迎可以通过提交Pull Request来纠正并且将登上本仓库的贡献者名单。
样例:`不是: bu4 shi4 -> bu2 shi4` `一个yi1 ge4 -> yi2 ge4` `了解le5 jie3 -> liao3 jie3`
* 已订正部分:
ST-CMDS
train: 20170001P00001A 20170001P00001I 20170001P00002A
## Python Import
Python的依赖库
* python_speech_features
* TensorFlow
* Keras
* Numpy
* wave
* matplotlib
* math
* Scipy
* h5py
## Data Sets 数据集
* 清华大学THCHS30中文语音数据集
data_thchs30.tgz
<http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz>
<http://www.openslr.org/resources/18/data_thchs30.tgz>
test-noise.tgz
<http://cn-mirror.openslr.org/resources/18/test-noise.tgz>
<http://www.openslr.org/resources/18/test-noise.tgz>
resource.tgz
<http://cn-mirror.openslr.org/resources/18/resource.tgz>
<http://www.openslr.org/resources/18/resource.tgz>
* Free ST Chinese Mandarin Corpus
ST-CMDS-20170001_1-OS.tar.gz
<http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz>
<http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz>
特别鸣谢!感谢前辈们的公开语音数据集
如果提供的数据集链接无法打开和下载,请点击该链接 [OpenSLR](http://www.openslr.org)
## Log
日志
链接:[进展日志](https://github.com/nl8590687/ASRT_SpeechRecognition/blob/master/log.md)
## Contributors 贡献者们
@ZJUGuoShuai @williamchenwl
@nl8590687 (repo owner)