Go to file
nl8590687 aa6a8053f9 add test model function 2018-04-11 18:05:57 +08:00
general_function add test model function 2018-04-11 18:05:57 +08:00
neural_network CTC基本实现,开始修复涉及数据的代码bug 2018-03-28 17:34:22 +08:00
trash can not parallel and move it to trash 2018-04-11 16:46:46 +08:00
.gitignore update daily 20170829 2017-08-30 00:15:03 +08:00
LICENSE add license and gitignore.modify py code main.py 2017-08-22 17:56:05 +08:00
README.md Update invalid data set download link 2018-04-09 09:27:25 +08:00
SpeechModel.py add test model function 2018-04-11 18:05:57 +08:00
SpeechModel2.py 优化程序结构,以及减少IO次数 2018-04-11 15:05:01 +08:00
SpeechModel3.py 修改了模型5的参数初始化 2018-04-08 16:22:46 +08:00
SpeechModel4.py 修改了模型5的参数初始化 2018-04-08 16:22:46 +08:00
SpeechModel5.py 优化程序结构,以及减少IO次数 2018-04-11 15:05:01 +08:00
SpeechModel5_old.py a little change 2018-04-10 14:41:59 +08:00
SpeechModel_old.py CTC基本实现,开始修复涉及数据的代码bug 2018-03-28 17:34:22 +08:00
log.md add data preprocessing 2018-04-10 15:29:33 +08:00
readdata.py can not parallel and move it to trash 2018-04-11 16:46:46 +08:00
readdata2.py 一些小修改 2018-04-08 22:44:14 +08:00
readdata3.py try 20180407_0 2018-04-07 14:47:40 +08:00
readdata4.py try 20180407_0 2018-04-07 14:47:40 +08:00

README.md

ASRT_SpeechRecognition

基于深度学习的语音识别系统

Introduction 简介

本项目使用Keras、TensorFlow基于长短时记忆神经网络和卷积神经网络以及CTC进行制作。

This project uses keras, TensorFlow based on LSTM, CNN and CTC to implement.

本项目目前已经可以正常进行训练了,现在的这几个神经网络模型正在准备评估哪一个模型的效果最好。

本项目运行请执行:

$ python3 SpeechModel.py

Model 模型

Speech Model 语音模型

CNN + LSTM + CTC

Language Model 语言模型

基于概率图的马尔可夫模型

Python Import

Python的依赖库

  • python_speech_features
  • TensorFlow
  • Keras
  • Numpy
  • wave
  • matplotlib
  • math
  • Scipy
  • h5py

Data Sets 数据集

清华大学THCHS30中文语音数据集

data_thchs30.tgz http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz

test-noise.tgz http://cn-mirror.openslr.org/resources/18/test-noise.tgz

resource.tgz http://cn-mirror.openslr.org/resources/18/resource.tgz

特别鸣谢!感谢前辈们的公开语音数据集

Log

日志

链接:进展日志