`
本帖最后由 讯飞开放平台 于 2018-7-6 10:39 编辑
机器翻译技术发展了80多年,巴别塔的传说已经成为过去,上天是不可能上天的了,但是让你优雅地和全世界讨论世界杯,不再手舞足蹈、鸡同鸭讲,这一点机器翻译还是可以做到的!
01机器翻译和巴别塔的传说
《圣经》中记载了这样一个故事:
人类曾经联合起来兴建能通往天堂的高塔——巴别塔,为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。
实现不同语种之间的无障碍沟通,一直都是人类终极梦想之一。
在认识到不眠不休穷尽人类一生的力量,也只能掌握几十种语言时,很多科学家开始思考,如何用机器来帮助人们去解决沟通问题,于是机器翻译应运而生。
机器翻译其实是利用计算机把一种自然语言翻译成另一种自然语言的过程,基本流程大概分为三块:预处理、核心翻译、后处理。
预处理是对语言文字进行规整,把过长的句子通过标点符号分成几个短句子,过滤一些语气词和与意思无关的文字,将一些数字和表达不规范的地方,归整成符合规范的句子。
核心翻译模块是将输入的字符单元、序列翻译成目标语言序列的过程,这是机器翻译中最关键最核心的地方。
后处理模块是将翻译结果进行大小写的转化、建模单元进行拼接,特殊符号进行处理,使得翻译结果更加符合人们的阅读习惯。
02 曲折中前行的机器翻译
机器翻译的故事始于1933年,从最开始的只是科学家脑海中一个大胆设想,到现在大规模的开始应用,机器翻译技术的发展道路大概有6个阶段。
起源阶段:
机器翻译起源于1933年,由法国工程师G.B.阿尔楚尼提出机器翻译设想,并获得一项翻译机专利;
萌芽时期:
1954年,美国乔治敦大学在IBM公司协同下用IBM-701计算机首次完成了英俄机器翻译试验,拉开了机器翻译研究的序幕;
沉寂阶段:
美国科学院成立了语言自动处理咨询委员会(ALPAC)于1966年公布了一份名为《语言与机器》的报告,该研究否认机器翻译可行性,机器翻译研究进入萧条期;
复苏阶段:
1976年,加拿大蒙特利尔大学与加拿大联邦***翻译局联合开发的TAUM-METEO系统,标志着机器翻译的全面复苏;
发展阶段:
1993年,IBM的Brown等提出基于词对齐的统计翻译模型,基于语料库的方法开始盛行;2003年,爱丁堡大学的Koehn提出短语翻译模型,使机器翻译效果显著提升,推动了工业应用;2005年,David Chang进一步提出了层次短语模型,同时基于语法树的翻译模型方面研究也取得了长足的进步;
繁荣阶段:
2013年和14年,牛津大学、谷歌、蒙特利尔大学研究人员提出端到端的神经机器翻译,开创了深度学习翻译新时代;2015年,蒙特利尔大学引入Attention机制,神经机器翻译达到实用阶段;2016年,谷歌GNMT发布,讯飞上线NMT系统,神经翻译开始大规模应用。
03 机器翻译的技术原理
在讲机器翻译的技术原理之前,我们先来看一张机器翻译技术发展历史图:
20世纪80年代基于规则的机器翻译开始走向应用,这是第一代机器翻译技术。随着机器翻译的应用领域越来越复杂,基于规则的机器翻译的局限性开始显现,应用场景越多,需要的规则也越来越多,规则之间的冲突也逐渐出现。
于是很多科研学家开始思考,是否能让机器自动从数据库里学习相应的规则,1993年IBM提出基于词的统计翻译模型标志着第二代机器翻译技术的兴起。
2014年谷歌和蒙特利尔大学提出的第三代机器翻译技术,也就是基于端到端的神经机器翻译,标志着第三代机器翻译技术的到来。
看完了机器翻译技术的迭代发展,我们来了解下三代机器翻译的核心技术:规则机器翻译、统计机器翻译、神经机器翻译。
基于规则的机器翻译大概有三种技术路线,第一种是直接翻译的方法,对源语言做完分词之后,将源语言的每个词翻译成目标语言的相关词语,然后拼接起来得出翻译结果。
由于源语言和目标语言并不在同一体系下,句法顺序有很大程度上的出入,直接拼接起来的翻译结果,效果往往并不理想。
于是科研人员提出了第二个规则机器翻译的方法,引用语言学的相关知识,对源语言的句子进行句法的分析,由于应用了相关句法语言学的知识,因此构建出来的目标译文是比较准确的。
但这里依然存在着另外一个问题,只有当语言的规则性比较强,机器能够做法分析的时候,这套方法才比较有效。因此在此基础之上,还有科研人员提出,能否借助于人的大脑翻译来实现基于规则的机器翻译?
这里面涉及到中间语言,首先将源语言用中间语言进行描述,然后借助于中间语言翻译成我们的目标语言。但由于语言的复杂性,其实很难借助于一个中间语言来实现源语言和目标语言的精确描述。
讲完了基于规则的机器翻译的三种技术路线,我们用一张图来总结下它的优缺点:
【见下篇帖子
`