2018-03-30 23:04:11 +08:00
|
|
|
# ASRT_SpeechRecognition
|
|
|
|
基于深度学习的语音识别系统
|
|
|
|
|
|
|
|
## Introduction 简介
|
|
|
|
|
|
|
|
本项目使用Keras、TensorFlow基于长短时记忆神经网络和卷积神经网络以及CTC进行制作。
|
|
|
|
|
|
|
|
This project uses keras, TensorFlow based on LSTM, CNN and CTC to implement.
|
|
|
|
|
2018-04-08 22:44:14 +08:00
|
|
|
本项目目前已经可以正常进行训练了,现在的这几个神经网络模型正在准备评估哪一个模型的效果最好。
|
2018-03-30 23:04:11 +08:00
|
|
|
|
|
|
|
本项目运行请执行:
|
|
|
|
```shell
|
|
|
|
$ python3 SpeechModel.py
|
|
|
|
```
|
|
|
|
|
|
|
|
## Model 模型
|
|
|
|
|
|
|
|
### Speech Model 语音模型
|
|
|
|
|
|
|
|
CNN + LSTM + CTC
|
|
|
|
|
|
|
|
### Language Model 语言模型
|
|
|
|
|
|
|
|
基于概率图的马尔可夫模型
|
|
|
|
|
|
|
|
## Python Import
|
|
|
|
Python的依赖库
|
|
|
|
|
|
|
|
* python_speech_features
|
|
|
|
* TensorFlow
|
|
|
|
* Keras
|
|
|
|
* Numpy
|
|
|
|
* wave
|
|
|
|
* matplotlib
|
|
|
|
* math
|
|
|
|
* Scipy
|
|
|
|
* h5py
|
|
|
|
|
|
|
|
## Data Sets 数据集
|
|
|
|
清华大学THCHS30中文语音数据集
|
2018-03-30 23:06:43 +08:00
|
|
|
|
2018-04-09 09:27:25 +08:00
|
|
|
data_thchs30.tgz <http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz>
|
2018-03-30 23:06:43 +08:00
|
|
|
|
2018-04-09 09:27:25 +08:00
|
|
|
test-noise.tgz <http://cn-mirror.openslr.org/resources/18/test-noise.tgz>
|
2018-03-30 23:06:43 +08:00
|
|
|
|
2018-04-09 09:27:25 +08:00
|
|
|
resource.tgz <http://cn-mirror.openslr.org/resources/18/resource.tgz>
|
2018-03-30 23:06:43 +08:00
|
|
|
|
2018-03-30 23:04:11 +08:00
|
|
|
特别鸣谢!感谢前辈们的公开语音数据集
|
|
|
|
|
|
|
|
## Log
|
|
|
|
日志
|
|
|
|
|
|
|
|
链接:[进展日志](https://github.com/nl8590687/ASRT_SpeechRecognition/blob/master/log.md)
|