讯飞开放平台
直播中

李党

7年用户 449经验值
擅长:嵌入式技术 存储技术
私信 关注

一文读懂语言识别技术原理1

` 本帖最后由 讯飞开放平台 于 2018-7-2 08:55 编辑

语音识别是十年来发展最快的技术之一,随着AI的不断发展,深度学习让语音识别技术得到了质的飞跃,开始从实验室走向市场,并逐步走到人们的生活中。

我们现在所用的语音输入法,以及以语音为智能交互入口的智能家居,背后都涉及到语音识别技术。

今天晚上,我们就来学习下本周的新课程 《语音识别技术》,有请今天的主讲嘉宾:科大讯飞研究院潘嘉老师,掌声欢迎~


01语音识别技术的发展历程

语音识别技术是指机器自动将人的语音的内容转成文字,又称 Automatic Speech Recognition,即ASR技术。

语音识别是一门交叉的、非常复杂的学科,需要具备生理学、声学、信号处理、计算机科学、模式识别、语言学、心理学等相关学科的知识。

语音识别的研究是个漫长而且艰难的过程,它的发展可以追溯到20世纪50年代,1952年贝尔实验室首次实现Audrey英文数字识别系统,这个系统当时可以识别单个数字0~9的发音,并且对熟人的准确度高达90%以上。
在同时期,MIT、普林斯顿相继推出少量词的独立词识别系统。

微信图片_20180628083712.jpg

1971年美国国防部研究所(DARPA)赞助了五年期限的语音理解研究项目,推动了语音识别的一次大发展。DARPA在整个科技的发展过程中扮演了非常重要的角色,它专门给高科技研究项目提供资金支持,包括无人机、卫星等等。

在DARPA的支持下,IBM、卡内基梅隆大学(CMU)、斯坦福等学术界和工业界非常顶级的研究机构也都加入到语音识别的研究中去。

其中,卡耐基梅隆大学研发出harpy语音识别系统,该系统能够识别1011个单词,在这个时期大词汇量的孤立词识别取得实质性进展。

微信图片_20180628083716.jpg

到了1980年,语音识别技术已经从从孤立词识别发展到连续词识别,当时出现了两项非常重要的技术:隐马尔科夫模型( HMM )、N-gram语言模型。

1990年,大词汇量连续词识别持续进步,提出了区分性的模型训练方法MCE和MMI,使得语音识别的精确度日益提高,尤其适用于长句子的情况下,与此同时,还提出了模型自适应方法MAP和MLLR。

在工业方面,剑桥推出首个开源的语音识别训练工具HTK,在商业方面,Nuance发布了首个消费级产品Dragon Dictate。


到了21世纪,随着深度学习的不断发展,神经网络之父Hinton提出深度置信网络( DBN ),2009年, Hinton和学生Mohamed将深度神经网络应用于语音识别,在小词汇量连续语音识别任务TIMIT上获得成功。
微信图片_20180628083720.jpg





02语音识别的技术原理

见下一篇帖子



` 微信图片_20180628083725.jpg 微信图片_20180628083705.jpg

回帖(2)

陈永煌

2018-6-29 09:37:09
下载学习
举报

李党

2018-7-2 08:49:05
嘿嘿~欢迎欢迎!
举报

更多回帖

发帖
×
20
完善资料,
赚取积分