您好, 访客   登录/注册

面向高校外语教学的机器翻译系统的整体架构设计

来源:用户上传      作者:胡启实 余卫星 方乾屹

  摘要:神经网络的机器翻译(NMT) 技术逐步成为主流,但技g层面仍然存在词语对齐、序列分布、后缀预测、时间响应等关键性问题,导致目前的机器翻译应用仍不能很好地满足严谨缜密的翻译需求。结合神经网络机器翻译引擎(NMT)和统计机器翻译引擎(SMT) 的优点,提出机器翻译的整体架构设计;从学生、教师和外语类院校三个维度阐述其发挥作用及效益,通过神经网络模型训练及优化效果,提出交互式机器翻译预测中使用的神经网络翻译模型,给出神经网络机器翻译中的解码方式和交互翻译预测方法,达到预测的速度要求。
  关键词:机器翻译;人工智能;神经网络;教学效益;预测序列;人机共译
  中图分类号:TP183 文献标识码:A
  文章编号:1009-3044(2022)28-0011-03
  1 引言
  人工智能(AI) 正从学术驱动转变为应用驱动,从专用智能迈向通用智能,它比历史上任何一个时期都要更加接近于人类智能水平,进入了新的发展阶段;自然语言处理(NLP) 作为当今人工智能重点应用领域之一,近年来取得了长足的进步[1];结合语言理论的进步及统计学的优势互补,加上计算机硬件技术飞速发展,可以充分支撑海量数据的存储与快速计算,从而使得机器翻译技术有全新的变革[2];人工智能在翻译领域中已充分运用先进的神经网络机器翻译系统,在政府、电商、军工、媒体或教育教学等领域完成了应用[3]。
  基于神经网络混合模型的人机互译技术研发和应用中,将基于短语的预测模型和基于神经网络的预测模型相结合,形成具有深度学习能力的人机共译多语种解决方案[4]。一方面,利用深度神经网络技术结合基于短语的交互翻译模型的建立,解决人机互译过程中所面临的数据处理、词语对齐或时间响应等关键性问题,并通过面向译者的人机交互翻译平台的开发,实现翻译从业者高效高质量地完成翻译任务,满足翻译行业的大规模高效工作流程的需要[5];另一方面,将人类自然语言习惯的识别与应用,融合至机器翻译引擎的学习过程,不仅使系统能够学习语言翻译,更能通过人机互动训练的过程,实现机器翻译引擎的自主进化、人类自然语言习惯模仿等功能,使机器翻译的结果更接近人类的真实表达意图,以神经网络混合模型人机互译技术为基础,为企业、高校和个人用户提供便捷、专业化语言服务[6]。
  2 机器翻译的整体架构设计
  整体架构主要分为引擎基础层和应用层两个主要层面,引擎基础层主要研究如何将神经网络机器翻译引擎(NMT)和统计机器翻译引擎(SMT) 优点结合,在有输入前缀约束的情况下,对可选预测序列进行实时动态组合,以提供最佳的交互式翻译预测。研究内容主要包括:多语种平行双语语料库的建设用以训练高质量的神经网络机器翻译引擎和统计机器翻译引擎;通过层级联合模型拟合NMT和SMT的词对齐和词预测结果;基于对齐结果和搜索图以及评估方法采用可选的搜索预测算法得到预测首词、预测序列、预测补全、预测可信度,根据对用户行为的采集和结果的大数据分析,对模型进行优化改进。
  应用层对CAT工具进行改造优化并连接NMT翻译API,实现NMT互动翻译、翻译记忆库、术语库辅助、知识图谱、译员匹配协同等技术并与之有机结合,利用人机互译技术大幅降低语联网平台相关应用的人工翻译成本,同时提升翻译效率,主体架构图如图1所示。
  3 机器翻译技术在高校外语教学中发挥的作用及效益
  对于高校外语学院而言,引入先进的机器翻译技术,对学生、教师和高校外语学院三个维度发挥作用并持续产生“教与学”的效益。
  3.1 学生
  学生群体能够在老师的带领下开展人机结合翻译实践,分语种、分领域探索,将翻译学习过程与机器翻译技术结合,结合每个学生自身学习特点与风格,最终形成最佳实训模式。同时通过校企合作,自行训练不同领域翻译引擎,不断深度自主学习,形成各种不同类型的深度学习翻译引擎,让学生的学习过程更加丰富,提高其自我拓展和翻译创新的能力,为其毕业之后的求职更具行业针对性打好基础。
  3.2 教师
  NMT时代的翻译教学让教师可以从译后编辑技术入手,开始探索人机结合翻译的最佳路径,迅速形成学科优势,为市场培养新时代翻译专业人才。老师的教学手段或方法更多元化,结合大数据、AI翻译或云计算等技术,让教学过程中的翻译专业实训、实验或实习更具有针对性,能充分进行个性化教学,真正做到因材施教。
  3.3 高校外语学院
  对于高校外语学院而言,不仅是教学模式不同,它带来了外语教学和翻译人才培养的变革。面向人工智能新时代的教学理念和完备的人机结合实训环境,再加上各种适合于不同场景的机器翻译引擎资源,将会形成独特的招生和就业优势,面对人工智能机器翻译技术带来的机遇人人平等,而外语院校对NMT的应用过程本身就是一个能不断产生创新成果的过程,高校教学服务不再陷入长期以来滞后于语言服务市场的循环,而且具有真正意义上领先于市场的创新能力。
  4 基于神经网络机器翻译的序列预测模型
  神经网络机器翻译引擎由于其基于序列到序列的解码机制,可以为交互翻译提供自然的序列预测选择,并且其可以提供更好的翻译预测质量,以及在用户拒绝推荐的情况下能够更好地恢复序列的覆盖。同时使用神经网络翻译的优势包括输入特征的一致性和更强大的非线性推断能力。但是,由于神经网络翻译模型计算复杂度高、响应时间长,必须经过优化才能够满足现场互动翻译预测系统的速度要求。
  4.1 神经网络机器翻译模型训练及优化
  神经网络机器翻译方法主要包括:一个编码器――输入语句由两个循环的神经网络处理,一个从左到右,另一个从右到左,这两个网络按上下文编码单词的隐藏状态产生。一个编码器――输出语句从左向右产生,其产生的过程是新产生的词汇基于以隐藏状态输出前面词汇和基于输入编码的最大化来决定。一种注意机制,其根据对输入词的分布来调节每个输出词的预测概率。

nlc202212021112



  图2所示系统描述了一个用于交互式翻译预测中使用的神经网络翻译模型。目标语言未[yt]通过隐藏状态[st]得到,隐藏状态[st]由一个经过注意力机制加权的输入序列[α1,α2,α3,…,αt],[T]所确定,源语言序列[x1,x2,x3,…,xt]编码成两个隐藏状态的循环神经网络。在每一个时间步[t],标准的解码器计算在给定输入序列[x1,x2,x3,…,xt]产生一个词汇[yt]的条件概率,计算公式定义如下:
  [p(yt|y1,…,yt-1, {x1,x2,…,xT})=g(yt-1, ct,st)]
  其中,[g]是非线性激活函数,[yt-1]是由前解码步骤输出目标语言词汇,[ct]是一个上下文环境矢量,[st]是时间步[t]对应于[yt]的隐藏状态。
  在编码阶段,单个隐藏注释状态[ht]由输入序列[x1,x2,…,xT]中的单词[xT]所产生,所有的隐藏注释状态[ht]构成了两个前向和后向循环神经网络。注意力机制权重[at],[j]可以直观解释为[yt]与[xj]的对齐概率,使系统的注意力机制通过软对齐对上下文序列的重点地方进行加权,计算过程如下:
  [αt,j=expetjk=1Texpetk]
  上下文环境矢量[ct]是对于隐藏注释状态的加权平均系数,其计算方法如下:
  [ct=j=1Tαt,j?hj]
  如上所述,这种基于注意力的神经网络机器翻译方法中的解码是逐字进行,在解码过程的每一步中,计算可能的下一个单词的概率分布;即每个当前词的解码是以前一个词、上下文向量和隐藏状态为前提条件的,然后选择最高得分的词在下一步的调节环境中使用。将这种基于神经网络的序列预测方法和基于短语的统计机器翻译解码中的束搜索相结合,可以预测前n个下一个单词,以保持系统具有不同输出序列的预测。在下一个解码步骤中,每个由单词序列和隐藏状态组成且由组合的单词翻译概率排序的预测序列被逐步扩展。
  4.2 神经网络交互机器翻译预测
  神经网络翻译模型的解码过程指向交互翻译预测的直接实现。可以使用由翻译器提供的前缀中的单词而不是在下一步的条件环境中使用模型的预测。因此,下一个词的预测是以翻译者的选择为条件的,而不是模型的预测。如上所述,在翻译解码过程中,模型已解码的前期预测序列[y1,y2,...,yt-1]反馈回模型中以产生下一个预测单词。为了进行交互预测,可以将用户输入的真实前缀[y*1,y*2,…,y*t-1]作为[y1,y2,...,yt-1]的替代反馈到模型中,这样产生一个新的预测单词的条件概率重新定义如下:
  [p(yt|y*1,y*2,…,y*t-1, {x1,x2,…,xT})=g(y*t-1, ct,st)]
  对于神经网络交互翻译预测,结合各类交互翻译模型的预测,系统采用了以下两种可能的方法:
  方法一无需束搜索:将在用户输入的给定前缀在解码期间馈送到模型中,然后给出下一个预测的单一最佳假设。方法二束搜索:进行束搜索并选择最大可能的句子完整翻译,如果用户的输入前缀偏离这个完整翻译,则从用户的输入前缀开始到语句的末尾将重新进行新的束搜索。束的范围可以选择从2~12,一般情况下,束的范围为2时即可以给出绝大部分的预测质量提升,神经网络互动预测模型产生的拒绝建议序列往往比传统的基于搜索图的模型产生的拒绝建议序列要短。
  4.3 预测速度限制
  结合神经网络的预测模型可以得到前缀和后缀翻译的最佳对齐结果,由于只有采用不同的特征权重才能适合最大化评估度量标准过程的每个步骤,为了在一个统一的联合模型中学习不同的对齐和平移的权重,系统使用了基于极简单域适应(FEDA) 的层级适应方法。 首先,定义三个子段域:前缀域、重叠域和后缀域,前缀域包含所有将前缀与源语句对齐的短语、重叠域包括跨越前缀和后缀的所有短语、当前缀域确定范围后,后缀域包括翻译句子所有其余部分的短语。此外,还有一个跨越整个短语派生范围的根域。给定一系列包含上述域元素的集合[D={ROOT,PREFIX,OVERLAP,SUFFIX}],对于任何一个[d∈D],其特征项可以重复构建,这些重复特征项可以理解为特定领域特征对于基线特征权重的偏移。对于一个初始的特征权重矢量[Φ],结合一个特定领域集合[D1?D],这些重复特征项包括的所有[f∈Φ]的[|D|]个拷贝[fd],有如下计算公式:
  [fd=f, d∈D10, otherwise]
  这些重复特征项的权重除根域之外,都初始化为0,根域初始化为基线权重[w]。在没有通过前缀或领域来最大化BLEU值时,该方法首先应用于对齐预测模型,调整后缀预测时,将这些基准权重固定,以保持基准翻译质量,并仅更新与前缀、重叠和后缀域对应的权重。为了调整后缀预测模型,系统对公式:
  [pes|ep,f;w=r:srcr=ftgtr=epes1z(f)e(wT?(r))]
  对其中的权重[w]进行了优化,这样可以使得对后缀评估标准度量的最大化;为了处理不可导的情况,模型调整采用的是在线次梯度方法,这种方法具有自适应的学习速度,并有理论上的论证依据。
  神经网络机器翻译引擎的解码器需要遍历用户的所有前缀输入,解码的时间主要在于矩阵乘法运算和计算隐藏层和输出层向量,以及选择预测单词的最大化操作的计算成本。对于平均词汇数为20的句子,通过CPU的模型预测速度为2秒,通过GPU的模型预测速度为150毫秒左右。而在人机交互过程中对系统的时间响应限制通常是100毫秒。如何对基于前缀约束的神经网络机器翻译进行优化,以满足预测准确率和响应速度的要求,是研究中需要突破的难点之一。采用的技术手段包括:预先计算文档的所有翻译选项的可能路径,给出整个文档的预测序列概率图,当用户拒绝建议或更改约束前缀时,即将后续的有限新预测序列和初始的句子相结合以形成一个完整的序列,同时设立一个单词对齐匹配窗口,对比有限新预测序列和窗口内的单词序列的概率分布,通过比较有限的新预测序列的概率分布和单词对齐匹配窗口中序列的概率分布KL散度,来确定序列补丁的定位,预计可将预测速度提高到50毫秒左右。
  5 结束语
  针对引擎基础层和应用层的整体架构,利用人机互译技术大幅降低语联网平台相关应用的人工翻译成本,在高校外语教学过程中,对学生、教师和外语类院校都产生教学效益;通过神经网络机器翻译系统模型训练及优化效果,提出交互机器翻译预测方法,达到提高预测速度的目的。
  参考文献:
  [1] 李奉栖.人工智能时代人机英汉翻译质量对比研究[J].外语界,2022(4):72-79.
  [2] 孙有中,唐锦兰.人工智能时代中国高校外语教师队伍建设路径探索:“四新”理念与“四轮”驱动模式[J].外语电化教学,2022(3):3-7,101.
  [3] 王华树,刘世界.人工智能时代翻译技术转向研究[J].外语教学,2021,42(5):87-92.
  [4] 高璐璐,赵雯.机器翻译研究综述[J].中国外语,2020,17(6):97-103.
  [5] 黄毅,冯俊兰,胡珉,等.智能对话系统架构及算法[J].北京邮电大学学报,2019,42(6):10-19.
  [6] 崔启亮.MTI翻译技术教学体系设计[J].中国翻译,2019,40(5):80-86.
  【通联编辑:唐一东】

nlc202212021112




转载注明来源:https://www.xzbu.com/8/view-15442887.htm

相关文章