您好, 访客   登录/注册

翻译语料库文本内容选择原则分析

来源:用户上传      作者:

  摘 要:翻译研究语料库可分为平行语料库,可比较语料库,翻译语料库和口译语料库。 这些语料库的编译涉及文本选择,注释和对齐等方面,而文本内容的选择尤为关键。
  关键词:翻译语料库;文本内容;选择原则
  一、翻译语料库选择方法分析
  在翻译研究语料库的研究中,三种文本选择方法总结如下:
  (一)基于学术成就或影响力的方法
  如上所述,翻译研究语料库旨在用于调查翻译特征,翻译规范和语言转换规则。因此,该语料库中的文本应该具有高质量,影响力广等特点。如果文本质量不理想或翻译内容不合标准,则无法实现预期目标。更糟糕的是,这样的语料库可能会提供误导性信息,从而影响翻译规范的研究。所以,翻译研究语料库中的文本应当是由著名翻译家或由著名出版社出版的译文构成。如果有两个或两个以上相同作品的翻译文本,建议选择更加著名翻译者或出版商的作品,因为他们享有更大的读者群和更广泛的影响力。对于口译语料库而言,由于高级会议的语言质量通常优于低级别会议的语言质量,因此前者的文本对于口译语料库的编制具有更大的价值。例如,胡开宝编写的汉英会议口译语料库所收集的素材都来自于中国国务院及其各部委举行的新闻发布会上的口译文本。这种语料库中解释文本的质量更加可靠。
  (二)基于文本可用性的方法
  基于文本可用性的方法涉及(1)源文本及其翻译是否可用以及(2)翻译的作品是否是真实的。如果源作品的翻译作品不可用,则不应将其包含在语料库中。同样,如果不能找到翻译原文,也不能被包含在翻译研究的语料库中。 此外,专门为翻译研究而制作的翻译译文不能是虚构或者理想的文本,而是现实生活中的真实文本。
  (三)基于时间的方法
  基于时间的方法强调,翻译研究语料库应该仅包含研究目标所规定的特定时间段内发表的翻译作品,而不包括在此期间之外发表的翻译作品。胡显耀为当代中国翻译小说研究编写的“当代中国翻译小说语料库”,包括了1980至2000年间出版的中文小说多种语言译本。上海交通大学的历时英汉平行语料库,包括了1911年至2011年出版的英汉翻译作品。
  二、文本选择过程中的抽样策略
  语料库中的文本应根据语料库的性质选择。专注与著名作家翻译作品的专业语料库,可以按照上面所提到的三个原则进行筛选。 如果同时存在多个不同的版本,则应优先考虑知名度较高的版本。 对于一些具有更大范围文本覆盖的专业语料库或通用语料库,如果包括所有相关文本,这些语料库的将过大,从而增加编译和管理这些语料库的复杂性。 在这种情况下,采用科学的抽样策略尤为重要。
  抽样策略包括系统抽样和分层抽样。系统抽样,称为间隔抽样。抽样过程中,所有样本按顺序排列,以相等的间隔选择。分层抽样是把所涉及的对象分成不同的组(称为层),然后从这些分层中以相同或不同的比例抽取样本。前者称为平衡抽样,后者称为塔式抽样。编制翻译英语语料库(TEC)的策略是分层抽样。语料库中包含的文本首先分为小说,传记,新闻报道和杂志文章。然后从这些类别中对每个群体进行抽样。
  三、翻译语料库文本捕捉策略分析
  文本捕捉是指将书面文本和口头文本计算机化的过程。由于文本载体等方面的区别,捕捉书面文本和口头文件的方法存在着较大差异。
  捕获书面文本的方法涉及手动输入,扫描和电子文本的使用。使用计算机手动输入文本,适用于转录音频文件,手写文本和扫描文件。这些文件通常包含了大量的杂乱的代码等方面语言错误,手动输入可以尽可能降低错误率。 扫描方法是指使用扫描仪将文本输入计算机。 在扫描文本时,应注意两点:(1)扫描机通常识别率较低,以及(2)有必要校对和编辑扫描文件以消除不必要的符号。此外,文本录入也可以使用从因特网下载的已发布的电子文本。使用从互联网上下载的文本的主要问题在于它们可能存在多余的空格,空白行,虚线,多余的语言符号,杂乱的代码等问题,这些符号对于语料库研究毫无价值,必须将其删除。
  语音文本的捕获涉及音频或视频文件的获取和转录。 音频和视频文件主要出现在日常交流,商务谈判,会议演讲和电视广播节目中,通过磁带或录像机或通过购买电视广播节目的音频或录像带以及出版的磁带或视频录制来获得。
  口头文本与书面文本的不同之处在于以下几点:(1)由于口头交流是一种无意识的或即兴的交流,它的文本中包含许多副语言特征,如修改,重复,暂停,笑声,中断,语言也存在一些错误或不准确。 (2)由于录音质量或说话者含糊的发音,口头文本中可能会有难以理解的发音。 (3)口头文本中的断句无法通过标点符号来表示,而是通过暂停的持续时间来表示。此外,句子类型(无论是陈述句还是疑问句)都是通过不同语调表现出来的。上升曲调表示疑问句,而下降曲调表示陈述或感叹句。这些都是口头文本和书面文本的区别。在将口头文本转录成书面文本时,应该考虑到这些差异,并通过使用各种书面符号来标注这些特征。
  例如,短暂停(2-3秒)可由符号“...”标识,符号“......”表示长暂停(4-6秒)。 符号“ - ”表示中断,而犹豫可以通过符号“...”标识或通过单词“er”或“well”标识。符号“*”可用于表示难以理解的单词。暂停时间的长短也决定了不同标点符号的使用。 例如,如果暂停很长,则在话语单元之后使用句号或问号,而如果暂停很短则使用逗号。
  四、文本的分词与注释策略
  与英语单词不同,中文單词是由一个或多个汉子组成。一个汉字可能代表一个音节,但它不一定构成一个单词。另外,中文单词之间没有插入空格。鉴于汉语和英语单词之间的差异以及对单词级别进行统计分析的需要,在语料库中对中文文本进行分词是非常有必要的。目前,中文文本可以使用Autotag或ICTCLAS 3.0进行单词分词。前者由台湾中文信息处理集团开发,后者由中国科学院计算技术研究所开发。 ICTCLAS3.0遵循中国国家标准GB13715的“当代汉语信息处理分词规范”,可用于中文文本的分割和注释,分割精度达97%。但是,由于软件无法识别中文专有名词,缩略词和数字,因此需要进一步进行手动校对。   注释是指对语料库中文本的性质或属性进行相应的描述。用于注释语料库的模型有不同类型,最常用的是COCOA和文本编码计划(TEI)。 COCOA由两部分组成。一部分是代表语言属性指定的标签。例如,A代表作者,T代表翻译者。另一部分是这些属性的实际语言单位,例如DICKENS。两个部分都放在括号内。COCOA模型的一个典型范例是由广东外语外贸大学的桂诗春与上海交通大学的杨惠中合作编写的中国学习者英语语料库(CLEC)。根据学生的状况,该语料库中的数据分为七类,即初中生,高中生,通过大学英语四级考试的大学生,通过大学英语六级考试的大学生,英语专业大一和大二学生,英语专业大三和大四学生,以及研究生。他们的注释标签分别是<ST 1>,<ST 2>,<ST 3>,<ST 4>,<ST 5>,<ST 6>和<ST 7>。然而,COCOA使用起来不方便,因为必须设计不同的注释标签系统以适应不同的语料库,并且可以用它注释的文本信息是有限的。
  相比较而言,TEI模型由计算语言学协会,文学和语言计算协会以及美国计算机与人文学协会联合创建,更易于理解和使用。 该模型已在许多大型语料库(如BNC)中使用,采用标准通用标记语言(SGML)。 TEI模型中的注释由标题和正文注释组成。 前者描述了样本的属性,例如样式,主题领域,作者,出版日期,来源等。后者描述文本的语言属性,包括段落标记,句子标记,修辞标签,语法和语义标注。
  五、结语
  文本选择在语料库编译中是最重要的一个环节,因为它直接影响语料库的代表性和可靠性。 因此,研究者在编写语料库之前,应该首先定义文本选择的原则,并通过采用适当的抽样策略,选择要包含在语料库中的文本。
  参考文献
  [1] 王克非,胡显耀.基于语料库的翻译汉语词汇特征研究[J].中国翻译,2008(06).
  [2] 胡开宝,邹颂兵.莎士比亚戏剧英汉平行语料库的创建与应用[J].外语研究,2009(05).
  [3] Summers, D.1991.Longman/Lancaster English language corpus: Criteria and design.Harlow.
  作者簡介:何礼(1982.11- ),男,重庆人,讲师,硕士,研究方向:英语测试理论、英语教学方法、语料库。
转载注明来源:https://www.xzbu.com/4/view-15052177.htm