MultilingualMachine Translation
多语言机器翻译的最理性的目标是通过单一模型能够翻译任意一个语言对。如果将所有语言对的全部都只看做为“源语言”-“目标语言”的这样一种特殊的单语言对,那么其概率模型仍可以表示为:
尽管不同的模型有不同的损失计算方式,以Dong等人[1]提出的模型为例,很多模型内部计算损失时,仍将依赖于特定语言对计算:
多语言机器翻译模型的研究存在着多个原因。
假设我们现在需要针对N个语言之间进行互译,传统的方法就是训练N(N-1)个互译的模型,如果通过某种中介语言,仍然需要训练2(N-1)个互译的模型。当需要互译的语言数N比较大的时候,相应的就会需要大量的模型训练、部署等,耗费大量的人力物力。而通过合理的设计和训练,获得单一模型实现这些语言之间的互译,就会极大的减少开销。由于联合训练以及学习到的知识从高资源语言的迁移,多语言模型提高了在低资源甚至是零资源的语言对互译的性能。然而这也导致了对原本高资源语言对训练的干扰从而降低了性能。同时获得性能的提升仍是一个具有挑战性的问题。从语言对之间映射的角度来看,基于源语端和目标语端所涵盖的语言数量,在多语言NMT模型中,存在三种策略,包括多对一、一对多以及多对多。多对一模型学习将任何在源语端的语言翻译成目标端的一种特定的语言,这种情况下通常会选取语料丰富的语言比如英语,相似的,一对多模型学习将在源语端的一种语言翻译成目标端任意一种语言。多对一这种模式通常会看作多领域学习的问题,类似于源语端的输入分布是不一致的,但是都会翻译成一种目标语。而一对多这种模式可以被看作是多任务的问题,类似于每一对源语到目标语看作一个单独的任务。多对多这种模式就是这两个模式的集合。不管源语端和目标语端语言的数量,多语言机器翻译模型的提升也基于“相关领域”以及“相关任务”之间知识的迁移作用。尽管多语言NMT已经被大量的研究,但是这种研究仍然存在着极大的限制,所验证的语言对数量也很有限。尽管单独的一个模型能将一个大规模语言对的所能达到的性能是值得研究的,但是存在着大量的困难:不同语言对之间的迁移学习;模型本身参数和学习能力的限制。在大规模语言对包括在低资源和高资源数据(这种高低的比较是通过整体数据量的对比)上多语言机器翻译的性能和问题也得到了广泛的研究和探讨。
MultilingualMachine Translation
多语言机器翻译的最理性的目标是通过单一模型能够翻译任意一个语言对。如果将所有语言对的全部都只看做为“源语言”-“目标语言”的这样一种特殊的单语言对,那么其概率模型仍可以表示为:
尽管不同的模型有不同的损失计算方式,以Dong等人[1]提出的模型为例,很多模型内部计算损失时,仍将依赖于特定语言对计算:
多语言机器翻译模型的研究存在着多个原因。
假设我们现在需要针对N个语言之间进行互译,传统的方法就是训练N(N-1)个互译的模型,如果通过某种中介语言,仍然需要训练2(N-1)个互译的模型。当需要互译的语言数N比较大的时候,相应的就会需要大量的模型训练、部署等,耗费大量的人力物力。而通过合理的设计和训练,获得单一模型实现这些语言之间的互译,就会极大的减少开销。由于联合训练以及学习到的知识从高资源语言的迁移,多语言模型提高了在低资源甚至是零资源的语言对互译的性能。然而这也导致了对原本高资源语言对训练的干扰从而降低了性能。同时获得性能的提升仍是一个具有挑战性的问题。从语言对之间映射的角度来看,基于源语端和目标语端所涵盖的语言数量,在多语言NMT模型中,存在三种策略,包括多对一、一对多以及多对多。多对一模型学习将任何在源语端的语言翻译成目标端的一种特定的语言,这种情况下通常会选取语料丰富的语言比如英语,相似的,一对多模型学习将在源语端的一种语言翻译成目标端任意一种语言。多对一这种模式通常会看作多领域学习的问题,类似于源语端的输入分布是不一致的,但是都会翻译成一种目标语。而一对多这种模式可以被看作是多任务的问题,类似于每一对源语到目标语看作一个单独的任务。多对多这种模式就是这两个模式的集合。不管源语端和目标语端语言的数量,多语言机器翻译模型的提升也基于“相关领域”以及“相关任务”之间知识的迁移作用。尽管多语言NMT已经被大量的研究,但是这种研究仍然存在着极大的限制,所验证的语言对数量也很有限。尽管单独的一个模型能将一个大规模语言对的所能达到的性能是值得研究的,但是存在着大量的困难:不同语言对之间的迁移学习;模型本身参数和学习能力的限制。在大规模语言对包括在低资源和高资源数据(这种高低的比较是通过整体数据量的对比)上多语言机器翻译的性能和问题也得到了广泛的研究和探讨。
举报