完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
本帖最后由 讯飞开放平台 于 2018-7-20 09:48 编辑 「AIUI」名词释义 AIUI是科大讯飞最新的人机交互解决方案,融合了远场识别、全双工交互、语音合成、语义理解、私有语义等单点能力,形成了全链路的一体化解决方案。 1 .从传统人机交互到AIUI 人机交互的发展是一个漫长的过程。 从PC时代的键盘+鼠标交互方式,到移动互联时代的多点触摸交互,再到物联网时代语音+视觉的新型交互,人机交互逐渐从以机器为中心交互方式,走向以人为中心的交互方式。 语音交互在这上述的转变起到了重要作用,作为交互方式中最便捷的方式之一,语音交互的发展也备受业内外关注,我们用一张图来了解下语音交互的发展路径: 语音交互从移动互联网时代开始兴起,从一开始出现的具有语音能力的app到现在多模态交互的机器人,语音交互的发展技术也是经过了不断地迭代和更新。 传统人机语音交互的链路环节是先由用户对机器说出需求,机器将用户的语音识别成文字结果,再通过语义理解服务翻译出用户的需求,生成相应的语义协议,最后将生成的语音文本播报出来。 传统语音人机交互链路主要依赖3大核心技术:语音识别、语义理解、语音合成,虽说链路模式没有太大问题,但当时的技术发展不如现在成熟,在实际应用过程中容易受到客观环境的影响。 语音识别率不高、语义理解不对、信息内容不足、系统响应单一…这是传统语音人机交互所面临的主要技术难点。 为了解决这些技术难点,自然人机交互链路在传统的链路基础上增加了语音唤醒系统,同时对3大核心技术进行迭代升级,比如在语音识别技术中增加麦克风阵列和无效拒识技术;在语义理解中增加对话管理和上下文理解、纠错等技术;在语音合成中加入情境和情感分析。 2.3种不同功能交互的技术原理分析 AIUI的人机交互流程分为感知、认知、处理、表达四部分。 在讲它的技术原理之前,我们先来看个简单的例子: 用户A对着机器说:“我要去北京”,如图所示,语音助手在识别、理解出用户A的意思,会有3种的不同类型的反馈。 这三种反馈在人机交互中都是比较合理的,至于最终采用哪种类型的反馈,还是取决于产品的定位和特性。 了解了三种不同类型的交互反馈,我们来学习下这三种交互中所涉及到的相关技术。 任务完成型的交互理解 任务完成型的交互理解,主要是机器帮助用户解决某些问题,完成相应的任务。 用户B问语音助手:“有没有明天从合肥到北京的航班?”语音助手通过设定好的语义协议框架抓取出这句话中的理解要素:用户意图、用户操作、起点、终点、日期。 借助这些基本理解要素,语音助手便可以将查询结果一一反馈给用户。 这个过程中主要的技术难点就是语义抽取,语义信息单元的抽取一般有2种方式,一是显规则;二是基于深度学习模型的语义抽取。 我们来讲下第二种语义抽取的方式,比如将用户输入的文本“刘德华电影”看成一组序列,每个字都是一个单独的序列,在序列的基础之上机器会做相应的预测,通过深度学习技术建立相应的抽取模型比如RNN或CNN模型,得出每个字符对应的标记。 基于知识图谱的知识问答类型 关于知识图谱,之前我们已经科普过一次,没看过的同学请戳:困于答题游戏无法自拔?AI有一招让你百战百胜! 基于知识图谱的问答类型其实过程并不复杂,用户输入问题文本之后,机器会按照语言学方式去理解分析这个问题,然后再知识图谱种检索相关的知识,同时将语义理解的结果和检索出来的知识做一些推理,最后得出系统答案。 |
|
相关推荐 |
|
只有小组成员才能发言,加入小组>>
4464 浏览 0 评论
3491 浏览 0 评论
4368 浏览 0 评论
3676 浏览 0 评论
投融资 | 保险业领导者OneDegree融资1270万美元
3236 浏览 0 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-11-21 18:56 , Processed in 0.687006 second(s), Total 53, Slave 38 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号