句子翻译在线范例6篇

前言:中文期刊网精心挑选了句子翻译在线范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

句子翻译在线

句子翻译在线范文1

关键词:LORANGE;BLEUS;ROUGE-L;ROUGE-S;自动元评价

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)05-0138-05

Abstract: This paper addressed an automatic meta-evaluation method of machine translation (MT) evaluation based on ORANGE-Limited ORANGE. It was adopted as the resources were limited, to evaluate the performances of the three metrics- BLEUS, ROUGE-L and ROUGE-S, which were based on n-gram and widely used in the domain of MT evaluation. Compared with the traditional method operated by human, this method can evaluate metrics automatically without extra human involvement other than using a set of reference translations. It only needed the average rank of the reference, and it was not influenced by the subjective factors. This method costed less and expended less time than the traditional one, which would have advantages to the parameter tuning and shortening system period. In this paper, we use this automatic meta-evaluation method to evaluate BLEUS, ROUGE-L and ROUGE-S on the Russian-Chinese dataset. The result shows that the ROUGE-L's performance is the best and that of BLEUS' is the worst, the ROUGE-S is worse than ROUGE-L but better than BLEUS. Also, the consistance and effectiveness of Limited ORANGE are verified through consistency test with human meta-evaluation results.

Key words: LORANGE; BLEUS; ROUGE-L; ROUGE-S; Automatic Meta-evaluation

1 概述

C器翻译系统评测在机器翻译领域起着重要的作用。它能够对系统性能进行评估,使系统开发者及时得知系统存在的问题并加以改进;同时可以为用户提供系统译文质量评估的依据。国家语言文字工作委员会的机器翻译系统评测规范[1]指出,机器翻译评测一般分为人工评测和自动评测两类。其中,人工评测主要由同时精通源语言和目标语言的专家主观地对系统输出译文的忠实度和流利度进行打分;主观性强,受外界因素影响比较大,代价高昂,评判周期长,无法适应机器翻译系统修改及参数调整的进度,无形中延长了系统研发周期,难以向研发者和用户提供高效的评测结果。于是,研究者更倾向于使用自动评测方法对系统译文进行量化评估。因此自动评测成为机器翻译领域的研究热点之一。

众多的自动评测方法性能孰优孰劣,如何进行评判也是一个值得研究的问题。比如BLEU只能在语料库级进行评测,平滑后的BLEU(BLEUS)可以应用于句子级评测;鉴于基于连续n元语法的BLEU没有考虑不连续子串之间的匹配,ROUGE基于不连续子串进行候选译文和参考译文匹配等等;这些自动评测方法的好坏,需要有一个统一的标准来衡量,即机器翻译评测元评价。

机器翻译评测元评价,即是运用一定的方法检测哪个机器翻译评测方法性能更优,主要分为人工元评价和自动元评价两类。人工元评价,就是通过对自动评测分数与人工评测的忠实度和流利度分数求得相关系数;花销大、主观因素导致结果经常不一致、忠实度和流利度测评很难达到一致;系数越大,评测方法的性能越好。自动元评价,就是采用计算机通过机械、自动的方法实现对评测方法的评价;这种方法客观、便捷、容易实现,不会受外界因素的影响而导致评价结果出现偏差。人工元评价由于人工的介入而存在许多不足,难以适应海量数据的信息处理需求,为此探究一种通用、客观的自动元评价方法非常重要。

本文基于ORANGE[2],提出一种LORANGE (Limited ORANGE)自动元评价方法,在语料受限的情况下,对目前主流的基于n元语法的三个自动评测方法BLEUS、ROUGE-L和ROUGE-S的性能进行自动评价。为与人工元评价保持一致性,拟采用译文的忠实度分数、流利度分数以及译文相似度表征译文信息,对候选译文和参考译文进行排序打分,来实现对自动评测方法性能的评估。整个过程除了人工提前翻译好的参考译文无需额外的人工介入,而且可以很好地应用于句子级评价。

2 几种主流的自动评测方法简介

2.1平滑BLEU

BLEU自2002年由Papineni等人[3]提出以来,被广泛应用到各种评测活动中。BLEU通过计算系统候选译文与人工参考译文中连续n元语法的匹配个数,求得n元语法的准确率,并将各元语法的准确率通过几何平均值将其融合,同时对比参考译文短的候选译文赋予定量的惩罚,如式(1)所示。

2.2 ROUGE-L

BLEU在对候选译文和参考译文之间的连续n元子串进行匹配时,并不能很好地描述远距离不连续词语之间的关系。为此,2004年,Lin提出基于不连续n元语法的ROUGE[4]方法,用以描述远距离的一元词汇之间的关系,比如ROUGE-L、ROUGE-S。

ROUGE-L基于最长公共子串(Longest Common Substring, LCS)计算候选译文和参考译文之间的相似度,同时考虑了准确率和召回率,并采用基于LCS的F-测度的方法来测量参考译文X(长度为m)和候选译文Y(长度为n)的相似度,如式(3)(4)(5)所示[5]。

2.3 ROUGE-S

ROUGE-L只记录了最长公共子串的长度,无法区分不同空间位置的最长公共子串,而且]有记录短于最长公共子串长度的相匹配的子串,对译文相似度的描述略欠妥当。ROUGE-S基于不连续二元语法(Skip-bigram)来计算候选译文和参考译文的相似度,允许有任意间隔的顺序二元语法进行匹配,类似于BLEU中的二元语法,但包含了不连续子串,因此ROUGE-S可以描述远距离信息。比如“我爱中国”分词后变为“我/爱/中国”,有C(3,2)=3个Skip-bigram (其中C为组合函数),分别为:“我/爱”、“我/中国”、“爱/中国”。假设参考译文X长度为m,候选译文Y长度为n,每个长度为len(针对汉语而言,译文分词后词语的个数)的句子有C(len,2)个Skip-bigram,则ROUGE-S的计算如式(6)(7)(8)所示[5]。

3 LORANGE自动元评价研究

3.1 LORANGE

由于某些针对特定任务标注的数据或者可以应用到受限领域的数据依然比较匮乏,统计机器翻译模型的训练仍然面临着严重的“数据稀疏”问题[6]。针对人工元评价方法的主观性强、周期长、一致性较弱等问题,在ORANGE[2]的基础上,本文提出LORANGE (Limited ORANGE)方法,在资源受限的情况下,对自动评测方法的性能进行评价。这种方法因为其客观、简洁、方便实现而使得自动元评价成为可能,缩减了人力资源的付出。

所谓LORANGE自动元评价,就是在语料资源比较有限,训练集的规模不足够大的情况下,输出n-best候选译文列表可读性比较差,从而利用有限的语料资源,借助网络在线翻译系统辅助实现对自动评测方法性能的自动评价。本文拟采用网络上比较成熟的俄汉在线翻译系统的输出汉语译文作为实验所需的候选译文列表,俄汉对齐语料库中的汉语句子作为参考译文,然后通过对参考译文和候选译文进行特征选取并打分,得到参考译文在译文列表中的排序,以此来计算LORANGE得分。

给定一个源语言句子S,选择目前国际国内主流的、性能比较稳定的4个在线翻译系统――谷歌、百度、必应、有道,辅助实现机器翻译评测元评价研究。本文基于俄汉双语新闻句对齐语料库,利用上述4个在线系统进行俄汉翻译,得到4个在线翻译系统对应的汉语输出译文形成候选译文,并将经过人工句对齐之后的汉语译文作为参考译文,以此构建LORANGE元评价方法的实验语料库。通过4个候选译文列表和对应的参考译文,对每个待评价的自动评测方法进行如下计算:

(1) 合理选择译文特征,计算候选译文列表和参考译文的自动分数;

(2) 根据译文得分对参考译文和候选译文进行排序,并且计算参考译文的平均排序;

3.2 译文排序关键技术研究

通过上述分析,最主要的问题是如何对译文进行综合排序?对于同一个源语言句子的译文可以用一组特征来表示,每一个特征描述译文的一个属性,特征权重表示该特征对译文的相对重要程度。任何与该译文相关的信息都可以编码为一个特征。为了与传统人工元评价保持一致性,本文拟选取译文忠实度分数ade、译文流利度分数flu以及基于待评价自动评测方法的译文相似度sim等3个特征来表征译文信息。这些特征必须借助语言学知识来获得。

统计机器翻译的原理就是通过翻译模型和语言模型建模、训练然后解码,如图1所示,在所有可能的目标语言T中寻找概率最大的句子作为源语言句子S的翻译结果[7]。根据贝叶斯公式,即为通过解码寻找一个最接近于真实的目标语言句子

3.2.1译文忠实度分数计算

通过上述分析,译文忠实度分数通过翻译模型概率来表示,即P(S|T),给定目标语言T的条件下源语言S的条件概率。概率值越高,译文的忠实度分值越高。本文采用Moses(摩西)系统对翻译模型进行训练,采用GIZA++词对齐工具来实现源语言与目标语言的词对齐。

由于实验语料来自4个不同在线俄汉翻译系统译文和人工参考译文,它们不同于来自同一个开源统计机器翻译系统的n-best候选译文列表,因此要想对实验中来自不同在线翻译系统的汉语译文和1个参考译文求得翻译模型的概率值,必须找到一个公共的“参考点”――本文选择Moses系统的1-best译文,并以此为基准,间接求得5个译文的忠实度分值。

3.2.2译文流利度分数计算

译文流利度通过语言模型概率P(T)来体现,它为每个给定目标语言的词语序列计算一个概率值,表示这个词语序列在目标语中被表达的可能性。目前应用最为广泛的是采用n元语法对语言模型建模,计算字符串W=w1,w2,…,wn的概率,如式(13)所示。

4 自动元评价方法性能分析

4.1 实验语料及环境

实验中,双语句子数据集采用某句库中包含新闻领域的52,892个俄汉双语对齐句对[8]。针对这些俄汉双语对齐语料,采用分层采样的方式将其分为训练集和测试集,其中测试集包括1,057个俄汉句对。同时在模型训练过程中引入俄汉词典共计247,075词条,优化所训练出的双语短语对齐模型。

本文选取目前主流的且俄汉翻译译文可读性较强的谷歌、百度、必应、有道等4个在线翻译系统对俄语句子进行俄汉在线翻译,得到其对应的汉语输出译文作为候选译文列表,俄汉双语对齐语料库中的人工对齐的汉语句子作为参考译文。

从图2中可以看出,ROUGE-L的LORANGE得分最低,为0.003112,ROUGE-S次之为0.003160,BLEUS最高,达到0.003234。根据上文分析可知,ORANGE分数越低,自动评测方法的性能越好,故可得到,ROUGE-L的评测性能最优,ROUGE-S性能次之,BLEUS性能最差。其主要原因在于,ROUGE-L在评测过程中,基于最长公共子串进行译文相似度比较,没有设定固定的n元语法的长度,匹配比较灵活,不拘泥于n元语法的长度而使得译文中匹配的n元语法数目受到限制;而ROUGE-S和BLEUS很好地体现了译文中不同阶n元语法的匹配情况,ROUGE-S融合了ROUGE-L和BLEUS的优点,既包括了BLEU的连续n元语法,又包括了ROUGE-L的不连续n元子串,在确保译文忠实度的情况下,捕捉了译文之间的远距离词语之间的关系,同时也确保了译文的流利度,其性能要优于BLEUS。

4.3 验结果一致性分析

为了验证LORANGE自动元评价方法的有效性与可行性,采用统一的标准对谷歌、百度、必应、有道4个在线翻译系统的俄汉在线翻译输出译文的忠实度和流利度进行人工打分。自动评测得分高的系统人工评测得分也高,这表明自动打分与人工打分有着较高的相关性,这是一个自动评测方法所期望得到的结果。

本文采用皮尔森相关系数rxy来计算自动评测方法与人工评测得分的相关性。对于包含变量自动打分x和人工打分y的测试集上的数据点为{(xi,yi)},则自动打分x和人工打分y之间的皮尔森相关系数为:

由此实验分析,横坐标表示基于不同自动评测方法的自动打分,纵坐标表示人工打分,ade表示人工忠实度分数,flu表示人工流利度分数,并分别对忠实度和流利度添加了线性趋势线,(1) BLEUS的忠实度和流利度的相关性都是三个评测方法中最差的。(2) ROUGE-L和ROUGE-S的流利度相关性基本相近,但是ROUGE-L的忠实度要优于ROUGE-S。(3) ROUGE-S的忠实度和流利度的相关性同样好。由此可以分析得出,ROUGE-L的性能要优于ROUGE-S和BLEUS,BLEUS性能最差,上述LORANGE自动元评价方法测得的实验结果与人工评价的结果是一致的。由此,LORANGE方法的一致性得以验证。但是同时也可以看到,人工评价涉及忠实度和流利度相关系数两项目标函数的最优化,其基于两个目标函数的综合评价结果与人的评分主观因素有很大关系,而LORANGE自动元评价方法的客观一致性使得机器翻译评测元评价可操作性得以完美体现,评判结果客观、清晰,能够更加有力、快速地验证评测方法性能的改善情况,能够在某些特定任务领域或者语料资源不足够丰富的语种研究上,增加自动化成分,解放部分人力资源。

5 结束语

本文主要基于ORANGE提出一种资源受限的LORANGE自动元评价方法,对自动评测方法的性能进行评价。这种方法除了需要人工提前准备好的参考译文之外,不需要额外的人工介入,通过参考译文的平均排序来实现对不同评测方法的自动元评价,参考译文排序靠前的评测方法性能优于参考译文排序靠后的评测方法。相比于传统的人工元评价方法,大大缩短了评价时间,节约了能源。且在评测过程中,为了与传统人工评测相一致,选取译文的忠实度分数、流利度分数与基于待评测指标的译文相似度三个特征来表征译文,从而进行打分。并将实验结果与人工元评价结果进行了一致性检验,LORANGE自动元评价方法的有效性得以验证。

后期工作中将同义词扩展等语义分析引入自动评测方法中,而且表征译文的三个特征的选取与计算还将进一步优化,从而将语义分析引入LORANGE自动元评价过程中。

参考文献:

[1] 机器翻译系统评测规范[S]. 中华人民共和国教育部国家语言文字工作委员会. 2006.

[2] Lin C. Y., Och F. J.. ORANGE: A Method for Evaluating Automatic Evaluation Metrics for Machine Translation [C]. In Proceedings of the International Committee on Computational Linguistics 2004 (COLING-2004), 2004.

[3] Papinen K., Roukos S., Ward T., et al. BLEU: a method for automatic evaluation of machine translation [C]. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics 2003 (ACL 2003), 2002: 311-318.

[4] Lin C. Y.. ROUGE: A Package for Automatic Evaluation of Summaries [C]. In Proceedings of Workshop on Text Summarization Branches Out, Post-Conference Workshop of Association for Computational Linguistics 2004 (ACL 2004), 2004.

[5] Lin C. Y., Och F. J.. Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics [C]. In Proceedings of Association for Computational Linguistics 2004 (ACL 2004), 2004.

[6] 张钹. 自然语言处理的计算模型[J]. 中文信息学报, 2007, 21(3): 3-7.

句子翻译在线范文2

关键词:统计机器翻译; 对数线性模型; 判别式训练

中图分类号:TP391.2 文献标识码:A文章编号:2095-2163(2013)06-0014-04

0引言

统计方法[1]已经成为机器翻译建模的主流方法,特别在Och和Ney[2]提出了基于对数线性模型的统计机器翻译模型之后。目前,几乎所有的统计机器翻译系统都处于对数线性模型框架的支持和限定之下。与产生式的翻译模型[1]相比,对数线性翻译模型不需要考虑翻译的生成过程,可直接采用判别式的统计模型建模;其最大优点在于,能够允许加入任意的翻译特征。因而,可将翻译的问题转化为特征工程的问题,这就为翻译系统的研究和设计带来很大的便利。

假设f是一个源语言句子,e为其一个可能的翻译。形式上,基于对数线性(最大熵)的翻译模型[2],可以表述如下:

P(e|f:W)=exp(∑iWi·hi(f,e))∑e′exp(∑iWi·hi(f,e′))(1)

其中,e′是f所有可能的一个翻译;h1是双语对(f,e)的特征,其取值为实数;W=是一个d维的向量,表示模型的参数,其中每个分量Wi都是一个实数,表示特征hi的权重;∑e′exp(∑iWi·hi(f,e′))表示归一化因子。那么,给定一个参数W,对于每个源语言f, 寻找其最优翻译(f;W)的过程可以看成如下的一个优化问题:

(f;W)=argmaxeP(e|f:W)=argmaxe∑iWi·hi(f,e)(2)

上式也称为最大后验解码原则。那么如何事先确定这个参数W呢?其准则又是什么呢?这就是判别式训练的问题。具体来说,判别式训练的任务是,给定一个开发集,优化得到一个合理的参数W,使得这个参数在测试时性能良好。

机器翻译任务本身固有的一些特点,比如翻译模型中的隐含变量和结构化的搜索空间等等,导致翻译模型的参数估计存在很多困难。不过,经过数十年的发展历程,大批研究者相继提出了许多训练方法,这些方法极大地推动了统计机器翻译的进展。但是,据研究所知,目前还没有工作就这些方法进行系统地阐述与介绍。本文中,将系统地回顾这些方法,同时就这些方法的优缺点进行分析与讨论,旨在使更多的研究者能够深入了解判别式训练方法的发展现状、为判别式训练的进一步发展起到基础性地引领作用。

1基于似然函数的训练方法

首先,为行文约定一些记号:设(f,e)为一个双语对,其中f为源语言,e是其一个翻译。给定开发集{fs,cs,rs}Ss=1,其中fs是开发集中的源语言句子,cs是fs的一个候选翻译集合,rs是fs的参考译文集,其中每个元素记为rks,k=1,…,Ls,Ls为rs中元素的个数。

既然是估计概率模型的参数,就必然不能缺少极大似然估计,因为这是概率模型参数估计的典型方法。事实上,在文献[2]提出最大熵翻译模型的框架时,其中采用的参数学习方法就是极大似然估计法。自然地,{fs,cs,rs}Ss=1上的对数似然函数的定义如下式:

∑Ss=11Ls∑Lsk=1logP(rks|fs;W)(3)

然而,由于某些rks是不可达的,这样,无法计算其所对应的似然函数。Och 和Ney[2]采用如下的方法来近似上述似然函数,即从fs可达的那些翻译中,比如对fs进行k-best解码得到的译文集cs都是可达的,从中选取若干个与参考译文集最相似的译文(依据句子级别的BLEU,定义相似度),作为伪参考译文,这些伪参考译文集记为eks,为方便起见,假设参考译文集亦含有Ls个元素。那么基于伪参考译文集的似然函数为:

∑Ss=11Ls∑Lsk=1logP(eks|fs;W)(4)

最小化公式(4)的一个难点是候选翻译的指数级空间,而精确地计算公式(1)中的归一化因子也很困难,因此,需要借助于合理的近似策略。 Och 和Ney[2]采用的方法是使解码器输出k-best候选翻译集cs,并在cs上近似地计算归一化因子。其后就是典型的优化问题,通用优化方法都可以实现公式(4)的优化,比如梯度法,共轭梯度、拟牛顿法(LBFGS)等等,Och 和Ney[2]采用了GIS算法。

需要注意的是,由于似然函数是严格凸函数,最大似然估计方法可以为公式 (4)找到全局最优解。尽管如此,这种方法在实际的翻译任务中效果并不好,目前几乎已经不再采用。然而,这种利用k-best候选翻译来代替整个翻译候选空间的思想,对后续的参数学习算法起着十分重要的作用。更具体地说,其后许多著名的参数学习算法都嵌入在这种框架之内,所不同的只是,这些算法采用的优化目标各不相同而已。

2基于错误率的训练方法

极大似然估计的一个缺点是,没有直接利用翻译的评价度量比如BLEU[3],来作为优化的目标函数,导致了优化目标同翻译评价度量之间的关系不太紧密、一致。

为此,Och 在2003年提出了最小错误率训练(简记,MERT)的方法[4],其想法是,直接利用翻译评价度量作为优化的目标函数,以期能够得到最优的参数,使得在开发集上该参数得到的翻译结果的BLEU 值最高。MERT是机器翻译参数估计方法中最通用、最成功和最受欢迎的算法。在每届翻译评测中,几乎所有的翻译系统都采用MERT进行参数估计。形式上,MERT试图解决如下的优化问题:

minWE{rs,(fs;W)}Ss=1(5)

其中,(fs;W)表示在翻译候选集cs中,根据权重W,按照最大解码原则公式(2)而得到的一个翻译。在式(5)中,E是一个篇章级的翻译评价度量,表示翻译文档 {(fs;W)}Ss=1在参考译文{rs}Ss=1下的评价得分,比如篇章级的BLEU;其他的记号如前所述。公式(5)的目标函数称为错误率函数。由于公式(5)中的错误率函数不可导,甚至不连续,因而,一般的梯度方法并不适用,有效地求解公式(5)存在困难。

本质上说,MERT是一种特殊的Powell算法,可启发式地选择坐标向量作为搜索方向。该算法的思路是,每次都选用所有坐标向量作为搜索方向,然后沿着每个搜索方向进行线搜索(line search)得到一个点;比较所有坐标方向上的线搜索得到的点的目标函数值,选择目标函数值最小的点作为下次迭代的起点;上述两个步骤反复下去,直至算法收敛。MERT的最大贡献在于,能够在多项式的时间内执行精确的线搜索(exact line search),也即是,在给定的方向上能够找到该方向使目标函数值最小的点。MERT的精确线搜索可以解释如下。假设开发集中仅仅含有一个句子,并假设当前的搜索方向是第j个坐标方向,公式(5)关于参数Wj是分段线性函数,而且函数至多有Ls个线性的片段。这样,遍历这个分段线性函数就可以找到最小值点Wmaxj。对于开发集含有多个句子的情况,只需要组合多个分段线性函数,算法的思想也与其类似。值得注意的是,虽然MERT在线搜索时,可以找到全局最优的点,但是整个算法不能保证必定收敛到全局最小点。相似地,Zhao等[5]提出了另外一种非梯度的方法-单纯型法最小化公式(5)。

由于公式(5)中的目标函数是非凸的,导致上述方法不可避免地陷入到局部最优的境地。原始的MERT算法没有考虑局部最优的问题,这样,如何避免性能不好的局部最优点就自然成为一个重要的研究课题。Moore和Quirk[6]在MERT中引入了随机初始点的策略以避开性能不好的局部最优点。具体来说,就是在MERT迭代过程中,定义了两种随机方法,这两种方法不同之处在于产生随机初始点的方式不同。第一种方法是随机初始化,是按照均匀分布产生多个初始点,对每个初始点都运行一遍MERT,就可以得到多个局部最优点,再比较这几个局部点对应的BLEU值,选择BLEU值最高的那个局部最优点。第二种方法是随机行走,是在上次选择的局部点的基础上,引入标准的高斯噪声,抽样出一个处于局部点周围的初始点,并运行MERT得到另外一个局部最优点,再比较新旧两个局部对应的BLEU值,以决定是否接受新的局部最优点。Galley和Quirk[7]则利用组合优化的方法,寻找到公式(5)的全局最优解。其主要思想同MERT中的精确线搜索相似,不同于MERT中精确线搜索的地方就在于求解一个一维的分段线性函数,并计算一个多维的分段线性函数。换句话说,该方法不是按照某一个坐标向量计算公式(5),而是对所有的方向计算公式(5),同时将多变量的优化公式(5)转化成一个线性规划问题。详细做法是,将各独立句子的k-best翻译列表中的每个候选翻译的特征向量都对应于一个多维欧式空间中的点,再利用线性规划的方法计算k-best翻译列表对应的集合的最小凸包,并根据所得到最小凸包就可以求得公式(5)的解;其次,将每个句子的最小凸包进行组合,就可以得到公式(5)中对应的分段线性的目标函数(关于参数W),遍历这个分段线性函数可以找到最优的解。这个方法的最大贡献是,方法表明了公式(5)可以找到全局最优解,但是,其算法复杂度却是指数级的,因此,不宜推广到规模很大的开发集上。

如前所述,公式(5)中的错误率函数是分段线性的,具有许多局部最小值的区域。由于错误率函数的形状错综复杂,高峰和低谷的分布异常不均匀。这样导致的结果是,对于不同的开发集,所对应的错误率函数的最小值区域并不具有一致性。因此,即使是找到了公式(5)的(局部)最小值点,公式(5)的最小值点附近区域的其他点的错误率函数值也有可能会达到很高。如此,该最小值点的推广能力未必是最好的。为了避免这种情况的发生,许多研究者为MERT提出了正则的方法,以避免找到推广能力不好的(局部)最优点。Smith和eisner[8]采用光滑的函数来逼近错误率函数,以减少错误率函数的“尖锐点”现象。通过使用一个期望风险函数来取代公式(5)中的目标函数:

minWExpectation(W;l)=minW∑Ss=1∑e∈csl(e)P(e|fs;W)(6)

其中,l(e)表示与参考译文相比e具有的损失值, 和公式(5)中E的意义一样,不同的只是,这是定义在句子级别而已。公式(6)也即MBR的最小风险准则。值得注意的是,公式(6)是连续可微的,是公式(5)的“光滑逼近”。同Smith和Eisner采用光滑逼近的技术实现正则不同,Cer等[9]采用了离散正则的方法。其主要思想是,在评价某一个权重向量时,不仅考虑这个向量所在的线性区域(因为公式(5)中的目标函数是分片线性的)对应的BLEU值,而且考虑这个区域附近的k个其他线性区域的BLEU得分情况。对于每个线性区域的目标BLEU值,则提出了两种组合方法。一种是max, 定义了每个线性区的BLEU值为该区域的k个附近区域的BLEU值最高值。另一种方法是average, 则将这个线性区域的BLEU值定义为k个附近区域BLEU值的平均值。

3可扩展的训练方法

参数估计方法的可扩展性是一个重要的研究问题,也是近几年的一个研究热点。其中的原因是,对数线性模型的一大优点就是可以很灵活地增加特征,而且,现有的研究表明[10],增加大量的特征有利于提高翻译的性能。为此,MERT就面临着一个重要的问题,其可扩展性不好。需要强调的是,这里的可扩展性是指,在翻译模型的特征不断增加时,MERT的性能会下降;而并不是指MERT在算法效率上的可扩展问题。比如,Chiang等[10]的实验表明,MERT在翻译模型的维数小于30时,性能很好;维数大于50时,性能将变得不好。其中一个可能的原因是,公式(5)的错误率函数是非凸的,随着维数的增加,陷入局部最优的可能性也就越大。为此,许多研究者在这方面提出了具有可扩展性的参数估计方法。Liang等[11]基于感知器的在线学习算法,提出了一种可以优化大量特征的翻译模型。算法的主要思路是:对于源语言fs的参考译文rs和候选译文e′s,那么权重就应该满足:P(rs|fs;W)>P(e′s|fs;W), 即,W·h(rs,fs)>W·h(e′s fs)。在此,可以使用感知器更新公式:

WW+h(rs, fs)-h(e′s, fs)(7)

由于参考译文rs可能会不可达,文中提出3种权重更新策略:激进的更新,局部的更新和混合更新方法。激进的更新仅对于参考译文能可达句子,按照公式(7)更新权重;而对于那些参考译本不可达的句子,直接不予考虑更新。局部更新的对象是对所有的句子都进行更新,其做法是使解码器输出k-best候选翻译,将k-best翻译中BLEU 分最高的翻译代替公式(7)中的rs,其他的翻译代替e′s,按照公式(7)更新k-1次。组合的更新方法结合前两种更新方式:如果参考译文可达,执行鲁莽的更新;否则,执行局部更新。相似地,Tillmann和Zhang[12]采用随机梯度的在线更新算法学规模特征的翻译模型权重。

Watanabe等[13]以及Chiang等[10]提出了基于大边缘融合松弛(MIRA)算法[14]的翻译模型参数估计方法。同Liang及Tillmann和Zhang的方法一样,这也是一个在线的学习。设当前迭代的权重为Wt;解码器为更新权重由开发集中挑选的句子集{ftk}Bk=1,其中,B为批量大小(Batch size)。那么,更新后的权重Wt+1为如下二次优化问题的解:

其中,λ为大于0的正则系数,O tk(tk)为性能较好(不好)的翻译集,r tk为ftk的参考译文集,l(ek,e′k,rtk)为根据rtk评价ek和e′k的句子级BLEU之差。如何挑选O tk(tk)对翻译的性能具有一定的影响,Watanabe等[13]以及Chiang等[10]从k-best 翻译列表或者超图中选择句子级BLEU最高(最低)的前几个候选翻译构成O tk(tk)。公式(8)对应的二次优化问题可以使用SMO[15]进行求解。MIRA算法的一个缺点是,需要设定很多参数,比如λ和O tk(tk)选择所必需的一些参数。不同于上述对MIRA采取在线的更新算法,Cherry和Foster[16]提出了一个批处理的MIRA训练算法。该算法与MERT一样,对开发集中的所有句子,执行一次二次优化。另外,Hopkins和May[17]将翻译模型的参数学习问题看做是排序问题,然后将其转化成了普通的分类问题,并采用开源的分类器实现算法。算法实现简单,而且实验表明也十分有效,同时,还具有很好的可扩展性。受该算法启发,Watanabe[18]提出了一个基于排序的在线学习算法。相似地,文献Bazrafshan等[19]将翻译模型的参数学习问题转化成了一个线性回归问题。同基于排序的二值分类问题相比,这一方法不但获得了更好的翻译性能,而且还具有更好的收敛速度。

4结束语

判别式训练是基于对数线性的统计机器翻译中最重要的一个组成部分。本文在充分调研和深入分析的基础上,对现有的所有主流的训练方法进行了综述。本文主要从似然函数、错误率函数和可扩展的方法三个方面,阐述并分析了各个训练方法的优缺点。判别式训练方法的研究至今只有数十年,而且统计机器翻译本身具有诸多的复杂性制约,目前还有许多问题有待于更深一步的研究和探讨。基于目前关于判别式训练的研究经验,本文在最后提出一些未来值得进一步挖掘的研究问题,希望对这方面的研究者在未来的研究中有所启发,进而为判别式训练的进一步发展乃至统计机器翻译的发展起到推动作用。

首先,对于结构化学习问题,在精确的解码框架下,其判别式训练有着良好的理论基础[20]。然而在机器翻译中,翻译模型通常会包含全局的特征比如语言模型,动态规划的技术则无法采用,因此精确解码是不可能的,往往采用基于柱状搜索的非精确解码方法。非精确解码导致的后果是,算法的收敛性很难得到保证,实际上,现有的判别式训练算法是否能够收敛?需要经过多少次解码迭代才能收敛?这都没有获得理论上的保证。黄亮等[21]指出,当非精确解码满足一定的条件时,收敛性就能够得到保证。因此,可否将现有的解码方式进行适当的修改,以满足黄亮等提出的关于非精确解码的条件?或者可否重新探索满足新的收敛条件和新的解码方式。

其次,对于判别式训练而言,其最终目标是,对于优化得到的权重而言,翻译度量最好翻译对应的模型得分,要大于其他候选翻译的模型得分。由于翻译评价度量不能定义在翻译单元上,而翻译的解码却需要按照翻译单元进行扩展,这就使得训练时几乎不能找到质量最好的翻译。因而,在实践中,机器翻译在训练的过程中,仅仅考虑翻译模型得分最好的k-best候选翻译,而后又在k-best翻译候选中考虑质量最好的翻译。由于k-best仅仅是指数级别翻译空间中一个粗糙的近似,这种近似会影响到判别式训练的效果。那么如何在解码搜索中同时兼顾考虑翻译评价度量就是一个重要的问题。

参考文献:

[1]BROWN P F, PIETRA V J D, PIETRA S A D, et al. The mathematics of statistical machine translation: parameter estimation. comput. Linguist. 1993,19:263–311.

[2]OCH F J, NEY H. Discriminative training and maximum entropy models for statistical machine translation[C]//Proc. of ACL. PA, USA, 2002:295–302.

[3]PAPINENI K, ROUKOS S, WARD T, et al. Bleu: a method for automatic evaluation of machine translation[C]//Proc. of ACL. Philadelphia, Pennsylvania, USA, 2002:311–318.

[4]OCH F J. Minimum error rate training in statistical machine translation[C]//Proc. of ACL. Sapporo, Japan, 2003:160–167.

[5]ZHAO B, CHEN S. A simplex armijo downhill algorithm for optimizing statistical machine translation decoding parameters[C]//Proc. of NAACL. Stroudsburg, PA, USA, 2009:21–24.

[6]MOORE R C, QUIRK C. Random restarts in minimum error rate training for statistical machine translation[C]//Proc. of COLing. Stroudsburg, PA, USA, 2008:585–592.

[7]GALLEY M, QUIRK C. Optimal search for minimum error rate training[C]//Proc. of EMNLP. Edinburgh, Scotland, UK., 2011:38–49.

[8]SMITH D A, EISNER J. Minimum risk annealing for training log-linear models[C]//Proc. of COLING-ACL. Sydney, Australia, 2006:787–794.

[9]CER D, JURAFSKY D, MANNING C D. Regularization and search for minimum error rate training[C]//Proc. of the Third Workshop on SMT, 2008.

[10]CHIANG D, MARTON Y, RESNIK P. Online large-margin training of syntactic and structural translation features[C]//Proc. of EMNLP,2008.

[11]LIANG P, BOUCHARD-C^OT^E A, KLEIN D, et al. An end-to-end discriminative approach to machine translation[C]// Proc. of ACL. Sydney,Australia, 2006:761–768.

[12]TILLMANN C, ZHANG T. A discriminative global training algorithm for statistical Mt[C]//Proc. of ACL. Stroudsburg, PA, USA, 2006:721–728.

[13]WATANABE T, SUZUKI J, TSUKADA H, et al. Online large-margin training for statistical machine translation[C]//Proc. of EMNLP-CoNLL. Prague, Czech Republic, 2007:764–773.

[14]CRAMMER K, SINGER Y. Ultraconservative online algorithms for multiclass problems[J]. Mach. Learn. Res, 2003, 3:951–991.

[15]PLATT J. Fast training of Support vector machines using sequential minimal optimization. SCHOELKOPF B, BURGES C, SMOLA A, (Editors) Advances in Kernel Methods - Support Vector Learning, MIT Press, 1998.

[16]CHERRY C, FOSTER G. Batch tuning strategies for Statistical Machine Translation[C]//Proc. of NAACL. Montrieal, Canada, 2012: 427–436.

[17]HOPKINS M, MAY J. Tuning as ranking[C]//Proc. of EMNLP. Edinburgh, Scotland, UK., 2011:1352–1362.

[18]WATANABE T. Optimized online rank learning for machine translation[C]//Proc. of NAACL. Montrieal, Canada, 2012:253–262.

[19]BAZRAFSHAN M, CHUNG T, GILDEA D. Tuning as linear regression[C]//Proc. of NAACL. Montreal, Canada, 2012:543–547.

[20]COLLINS M. Discriminative training methods for Hidden Markov Models: theory and experiments with Perceptron Algorithms[C]//Proc. of EMNLP, 2002.

[21]HUANG L, FAYONG S, GUO Y. Structured perceptron with inexact search[C]//Proc. of NAACL. Montrieal, Canada, 2012:142–151.

[14]AKAGI T, SUGENO M. Fuzzy identification of systems and its application to modeling and control[J]. IEEE Transactions on Systems, Man, and, Cybernetics, 1985,15(1): 116-132.

[15]黄福员. 金融风险预警的MPSO-FNN模型构建与应用[J]. 计算机工程与应用,2009,45(14):210-212.

[16]ALTMAN E I, MARCO G, VARETTO F. Corporate distress diagnosis: comparisons using linear discriminant Ana analysis and neural networks[J]. Journal of Banking and Finance, 1994, 18: 505-529.

[17]李志辉, 李萌. 我国商业银行信用风险识别模型及其实证研究[J]. 经济科学, 2005(5): 61-71.

句子翻译在线范文3

【关键词】诗歌翻译 叶芝 计算机辅助翻译 互联网

一、计算机辅助翻译工具应用于When You Are Old翻译中

1.金山词霸的翻译

When you are old and gray and full of sleep,And nodding by the fire/take down this book, And slowly read, and dream of the soft look /Your eyes had once, and of their shadows deep/How many loved your moments of grad grace, And loved your beauty with love false or true; But one man loved the pilgrim soul in you.

And loved the sorrows of your changing face

And bending down beside the glowing bars, Murmur, a little sadly, how love fled

And paced upon the mountains overhead, And hid his face amid a crowd of stars.

当你白发苍苍,睡意/炉火旁打盹,请取下这本书/慢慢读,回想你过去眼神的柔和/你的眼睛曾经,和深深的阴影/多少人爱你毕业时的优雅/爱过你的美貌,或真或假/唯独一人爱你朝圣者的灵魂/爱你衰老了的脸上痛苦;你坐在火炉旁/杂音,遗憾,那爱情的消逝/在头顶的山上,将脸隐没在繁星。

翻译结果总体让人满意,但在少数选词及意向解释时存漏洞。歧义与多义这两种自然语言中普遍存在的现象给计算机辅助翻译工具带来了许多困难 。以“Murmur”为例,有“咕哝;低声的抱怨;发出杂音”的意思。由于计算机翻译缺少联系上下文的能力,金山词霸翻译成了最为不合适的意向“杂音”。这里选择把“Murmur”译为“默吟”更为合适。

2.百度在线的翻译

当你老了,灰色和充分的睡眠/炉火旁打盹,取下这本书/慢慢读,回想你过去眼神的柔和/你的眼睛曾经,和深深的阴影;

多少人爱过你的美丽/爱过你的美貌,或真或假,唯独一人爱你朝圣者的灵魂/爱你衰老了的脸上痛苦;你坐在火炉旁/杂音,有点遗憾的是,那爱情的消逝

在头顶的山,将脸隐没在繁星。

百度翻译代表的在线翻译,资源广泛,共享信息丰富,能最大限的获取已有的翻译成果。它把“How many loved your moments of grad grace”翻译为 “多少人爱过你的美丽”就是直接使用了互联网已有语料。但把“And loved the sorrows of your changing face”翻译为“爱你衰老了的脸上痛苦”,可能是“痛苦”一词在互联网的大数据中使用频率较高,并不恰当。诗歌翻译有时只需翻译出诗歌的情绪,直译在此处非常突兀。

3.雪人软件的翻译

当你老了,头发花白,睡意沉沉/倦坐在炉边,取下这本书来/慢慢读着,追梦当年的眼神那柔美的神采与深幽的晕影/梦见你当年的双眼,那柔美的光芒与青幽的晕影;多少人爱你青春欢畅的时辰爱慕你的美貌,假意或是真心/只有一个人爱你圣洁的灵魂,爱你那饱经风霜哀戚的容颜/炽热的炉栅边,你弯下腰,凄然地轻轻诉说那爱情的消逝/在头顶的山上,它缓缓踱着步子,逝去的爱,如今已步上高山,他的面容隐没在繁星之中。

雪人翻译软件把原文本以句为单位,分成翻译单元。并引入记忆库,片段搜索,在线词典,在线搜索,最终达到翻译目的。在这里,在线词典导入的是必应词典,在线搜索导入的是维基百科,得到比较优质的译文。可以说雪人翻译软件是前两种在线词典和在线搜索的集合体。再加上其可以导入一定的记忆库与强大的片段搜索,这款软件还是比较适合。但中英两种语言的巨大差异决定了计算机辅助翻译复杂性 ,如“And slowly read, and dream of the soft look ”翻译成“慢慢读着,追梦当年的眼神那柔美的神采与深幽的晕影”。翻译腔浓厚,不符合中文上下句子结构美。

二、计算机辅助翻译在诗歌翻译中的试用

以上三种计算机辅助翻译工具在翻译When You Are Old 中,使用效果让人满意。虽然理论上计算机辅助翻译更适用于科技、法律等文本翻译。但由于现在网络提过了强大的预料资源,这决定了在一定程度上成就了通过计算机辅助软件进行诗歌翻译的可能性。但同时我们也要看到,由于汉语本身特点,如汉字的多义,汉语的流水小短句和诗歌翻译中已有的固定意向,计算机辅助翻译并不能完全代替译者进行工作。枯燥重复的部分由计算机完成,需要创作灵活思维的部分由人脑完成 ,二者共同协作,以求优质高效的目标文本。

参考文献:

[1]梁爱林.计算机辅助翻译的优势和局限性[J].中国民航飞行学院学报.2004(01).

句子翻译在线范文4

科技英语不同于文学文本,不以语言的艺术美为追求目标,它在遣词造句上讲究逻辑的条理性与思维的准确性。科技英语用词准确、简洁规范、陈述客观、结构严密、逻辑性强。其显著特点有:被动句多,名词化结构多,长句多。长句的大量使用是科技英语的一个重要特点。科技英语在叙述上真实客观、思维严谨、逻辑完整。在事实推导过程中,为了完整说明理论的来龙去脉,往往采取一气呵成的方式陈述,这样,从句叠加的复杂句式结构在科技英语里极为普遍,修饰语的使用较频繁。并列结构、从属结构、倒装语序等是长句特点。因此,长句翻译是一个复杂的问题。译员要打下扎实的语言基础,拥有精准的专业知识,准确把握句子主干,即主语、谓语、宾语、定语、状语等,分析句子之间的逻辑关系,翻译出通顺精准的译文。被动语态在科技英语文章中被广泛应用,是科技英语的另一个特征。科技论文很少使用人称描述某个客观事物,科技英语注重客观陈述、逻辑推理,避免表露个人感情,行为的执行者一般要隐身以避免主观臆断。这与文学作品的文体特征有很大区别。文学作品中的人物、事件是叙述中必不可少的因素,对于科技文体,文章内容、观点与思想才是读者关心的内容,行文的客观性与可信度是至关重要的,因此被动语态普遍应用于科技英语中。更重要的是,科技文献强调研究成果、客观理论、科学规律,引导读者把注意力投放在科技现象与过程上,而不是偏向于介绍发明者。科技文章结构严密、用词简洁、数据精确、表达确切。由于其专业性强,逻辑严密,表达明晰,因此对译员的要求非常高。译员应该把握信息的逻辑关系,提高译文的客观度,力求译文表达简练无误、流畅严谨,不随意改动数据。

二、科技英语翻译标准

在翻译界,“信、达、雅”是人们首先想到的翻译标准。对于科技文本的翻译,译者不仅要具备较高的翻译能力,还要把握日新月异的科学技术发展动态及科学研究前沿工作,把各学科知识有机结合起来。因此,译者要有扎实的英语阅读能力、丰富的科技知识,并进行长时间的训练,保证译文忠实于原文。

1.准确无误译员应该对原文进行语言与专业分析,吃透原文,对译文内容不断推敲,确保译文简洁明晰、准确到位、忠实通顺,并与原文风格对应。原文与译文应该具有等价性,即信息是如实转换的,同时要符合目的语读者的阅读习惯,使信息无障碍地传递原文信息。

2.连贯通顺英汉语言在词汇与结构上有较大差异,译员除了要把握英汉两种语言在词汇、语法、句式结构、语法规则等方面的差异外,还要具备科技专业的相关基础知识及快速的逻辑思维能力。译者要把握科技英语表达特点,注重逻辑缜密,使译文具备极强的说服力。译文上下衔接应流畅通顺,符合目的语读者的语言表达习惯。

3.科学规范科技英语专业性强、简练无误、客观真实。科学规范的术语表达可以提高译文的质量与可信度。科技英语翻译过程不同于文学翻译过程中的再创造,译员不能天马行空地自由翻译,也不能发挥主观想象,而应该用心钻研,熟悉科技英语遣词造句的特点,力求用词规范。

三、教学改革

随着科学技术的不断发展,以及科技信息与文献资料的频繁交流,科技翻译工作的重要性日渐突出,这就对大学翻译教学提出了更高要求。虽然很多高校英语专业都开设了科技英语翻译课程,但由于教师基本都是文科出身,对科技知识了解不足,教学效果可想而知。社会对翻译专业毕业生的要求越来越高,他们必须能够胜任科学资料、合同与技术会谈等的翻译工作,由此看来,学校科技翻译教学改革已刻不容缓。

1.教学内容改革加强与理工科专业的教学合作,邀请理工科专业教师任教,传授科技专业知识,同时为老师提供机会,进行相关科技专业的学习与培训。教材的编排应该循序渐进、由易到难。首先利用通俗易懂的科普文章提高学生的学习兴趣,然后使用难度稍大的专业论文增加学生的科技专业知识。引导学生将理论学习应用于翻译训练中。教师实施任务教学法,让学生进行分组翻译训练,在团队合作中相互学习与切磋,完成任务后,进行小组互评。这种方式可以让学生了解自身的优势与不足,提高对科技英语翻译的积极性。教师应鼓励学生积极参加校内外国际会议与报告讲座,积极参加翻译公司的实习,负责一定量的科技翻译工作,尽量为学生创造实践翻译机会与环境,将理论应用于实践。

2.逻辑思维训练为了透彻清晰地表达事物间的内在逻辑联系,科技文章里的长句频繁出现。翻译专业学生多为文科生,思维方式趋于感性。因此,在翻译训练中,教师应着重培养学生的逻辑思维能力。在开始学习阶段,引导学生讲评译文,相互讨论,推导句子、段落、文章的层次与逻辑关系,在合作与相互帮助中,让学生进行思维的引申和发挥。这一方法既可以让学生在枯燥乏味的专业词汇中感受到乐趣与意义,又可以让学生逐渐习惯理性与逻辑思维。学生的逻辑分析能力在不断训练与强化中得到提高。

句子翻译在线范文5

关键词:汉语学习词典;需求分析;国别化

中图分类号:H314 文献标识码:A 文章编号:1673-2596(2013)11-0204-04

随着汉语国际推广的进一步发展,特别是孔子学院在全球各地的设立,世界各国学习汉语的人数量迅猛增长。学习者对汉语学习的辅助工具书提出了更高的要求。我们目前能看到的汉语学习词典(Learner’s dictionary)主要有孙全洲主编的《现代汉语学习词典》(1995)、李晓琪主编的《现代汉语常用词用法词典》(1997)、刘镰力主编的《汉语8000词词典》(2000)、鲁健骥主编的《商务馆学汉语词典》(2006)以及徐玉编的《当代汉语学习词典:初级本》(2005)等。现有的学习词典大体上结构相似,大部分采用单语、纸质形式,在选词、词性标注、义项分立、例句选取等方面多存在可行性不够、实用性不强等问题,在一定程度上影响了词典的推广。对此,近年来很多学者撰文提出,对外汉语教学使用的汉语学习词典与为汉语母语者使用的内向型汉语词典不同,属于外向型词典,同时应该是积极型词典,要能够积极地引导语言学习者有效地使用语言并再生言语、发展言语,进而达到能够顺利地进行交际的目的。本文拟在前人研究的基础上,参照国内外英语学习词典编写的理念与实践,对国别化汉语初学者学习词典的设计与编写进行初步的探讨,以期抛砖引玉。

一、词典的形式与使用者

(一)采用在线词典的形式

纸质词典在学习者的外语学习过程中发挥着重要的作用,但是如果和电子词典相较,其缺点也极为明显:平面化、直线性、媒体形式单一。电子词典以其方便、快捷、功能强大等优势已经在国外占据了词典市场的很大份额,而在线词典更有望成为未来词典的主流形式。电子词典主要有三种形式:掌上词典(例如文曲星、快译通以及其他使用于PDA、手机上的词典)、光盘词典(如金山词霸、Longman Dictionary of Contemporary English CD-ROM)以及在线词典(如金山爱词霸――http:///;n词酷――http:///)。掌上词典的优势在于便携、检索迅速,但是目前可以看到的掌上汉语词典也存在一些问题。

第一,词典的质量不高,编者往往不是专业的词典工作者,有些词典只强调收词量的多少,而对于词语的难度、配例的多少、词语的交际功能等缺乏考虑。第二,对词典的使用对象一般都没有明确的界定,缺乏针对性。第三,媒体形式简单,往往只是纸质词典的翻版,最多配上了发音。第四,屏幕一般较小,单屏显示信息有限,查找常用词(对于初学者来说至关重要)因为义项、例句较多要多次翻页,较为不便。第五,国外出版商发行的词典由于对目前汉语的使用情况缺乏了解,出现内容陈旧、语体混杂、释义错误等现象,学生依据词典对译出来的汉语词往往让中国人不知所云。

相对而言,光盘词典和在线词典有更多的优势。由于工作载体的原因,这样的词典容量大,功能强;词语、信息检索方式多,检索速度快;可以运用多种媒体形式传递信息。电子词典可以综合运用语言、图像、图表、声音、视频等多种符号形式,立体地传递信息。而采用HTML语言编写的软件或者网页具有支持多种数据形式、制作维护容易、链接集成功能强大等优势,因此光盘或在线词典有理由成为未来学习词典的主要形式。光盘词典因为制作周期、发行成本的限制,现在有很多也采用在线更新词库的方式来运营。最近几年,无线网络技术和无线上网便携设备一直处于高速发展中,这无疑为在线词典的生存、发展提供了最好的依托。目前为汉语学习者制作的光盘词典或在线词典还很少,仅有的一些也多是针对懂英语的学习者,针对其他语言背景的学习者制作的在线词典还基本是一个空白。

(二)采用双语的形式

第二语言学习词典可以分为单语和双语两种形式,现在国内纸质的学习词典多为单语形式,但我们认为针对初学者的在线词典还是以双语为宜。这是由汉语国际推广的形势决定的,目前汉语学习者大量增加,其中初学者占主体部分。学习者的起点普遍较低,学习时间大多不长,词汇量较少。学习者更多的是想学习实际交际中可能使用到的汉语,更多的想学习口语表达,对读、写、译往往没有太高的要求。单语学习词典往往层次较高,只盯着学习者中的“精英分子”,脱离了普通学习者的真正需要。而通过实际的调查来看,单语汉语学习词典在学习者中的使用率不容乐观。

如果从心理语言学的角度来看,第二语言初学者是根据词汇联结通路来学习单词(不管其母语与目的语是否相似),第二语言中的词汇在其意义被接受之前首先要被翻译成母语的词汇,随着第二语言的熟练度不断增加,第二语言的词条才会逐渐与语义形成直接联结,而不需要通过母语词汇的中介,形成多通路模式。

因此我们认为针对初学者的在线词典宜采用双语的形式。这样可以充分利用汉外对等词来阐明汉语词语的释义,规避了用汉语解释汉语词义时可能带来的词义增值、词义脱落或词义转移等现象,从而使初学者感到便利、省时。同时,词典还应该把知识取向的重点放在汉外之间属于差等对应或者空缺对应的那些词语知识的部分。另外,词典所有的汉语配例应该用外语进行对译,词语的语用环境以及文化意义应该用外语来进行解释或描述。

(三)以用户为中心

要想使词典编纂人员的辛苦不至于白费,使词典制作、发行的投资方不至于亏本,在词典编写之前对市场情况、用户群做好充分的调查是十分必要的。针对市场方面的调查应该包括:词典的总体需求量有多少,电子词典的市场动向如何,同类产品(包括纸质词典)在市场上有多少,占有多少市场份额,潜在用户的人数有多少,对电子词典的市场需求变化情况如何,产品的价格定位是多少,多长时间能收回成本,有没有很好的销售渠道,等等。

针对客户(学习者)的调查主要包括:他们的身份、背景和经历,他们学习汉语的需要、词典查询的内容、词典查询的习惯和所采用的查询策略等,他们的态度、期望,等等。而随着认知心理学的研究成果在语言教学中的应用,学习者查阅词典的认知心理过程也逐渐引起研究者的注意。要使学习词典满足汉语学习的需要还必须弄清学习者查阅词典的认知过程,包括解码和编码过程中的信息处理方法,以及心理词库知识的获取模式等。

从这个意义上来说,目前市面上的汉语学习词典在编纂、发行之前大多没有做过这方面的调查,编纂者对市场情况以及学习者的使用偏好和实际需要大多不甚了解,这往往就造成了功能定位失当,读者范围不明确,准入门槛偏高,对读者的词典查询策略考虑不周等等问题,致使词典中出现了大量的“非共享信息或消极信息”,影响了词典的可接受性。

二、在线词典的宏观结构与微观结构

(一)词典的宏观结构

词典的宏观结构主要考察的是词典的篇幅、价格、收词量、词目编排方式、版式、附录设计等等。关于词典的篇幅,因为采用的电子形式,特别是网络形式,相对于传统纸质词典来说,空间几乎是无限的,基本没有篇幅上的限制。这种在线词典在将进入市场的初期,可以采用开放注册的方式;占有一定市场份额以后,改变为交费注册使用,费用高低根据投资、类似产品定价以及市场情况来决定;有一定知名度,进入市场成熟期以后,可以考虑会员有偿注册制度,同时利用广告费用冲抵成本,维持运营。在线汉语词典的收词量,取决于学习者总体水平和市场需求。目前阶段,因为汉语学习者整体水平不高,其中初学者人数增加比较快,我们将收词量暂定为5000左右,目前的设计主要针对韩国汉语初学者。其中包括《汉语水平词汇与汉字等级大纲》中的甲级词、乙级词、部分丙级词和一些目前常用而在《汉语水平词汇与汉字等级大纲》甲乙丙级词表中未见收录的词汇,例如“地铁、手机、短信”等。另外,也要适当收录学习者在运用汉语交际时可能遇到的常用新词、新语或新义(如“网购、白领、晒工资、晕”)。对于所收词语有多个义项的情况,要根据语料库统计以及实际语言使用、教学的情况斟酌选取,有些不太常用的义项暂时不予收录。收词不应只限于词汇性单位,还应包括语法性单位,如“看不起、怪不得、不客气、炒鱿鱼”等等。词目编排的方式主要包括以下两个方面:第一,以单个汉字立目,在汉字下列出该字的常用成词义项,对不能单独成词的词素义项按成词数量(重要性)来区别对待,不太重要的词素义项不列出,成词较多的义项列出韩语的翻译以便学生理解。汉字后列出所有用该字组成的常用词(正序、逆序),为每个词语建立超链接。这样做可以展现汉语的构词特点,方便学生学习构词方面的知识。第二,为词典提供更多的检索方式,在这方面电子(在线)词典有其强大的技术优势。除了传统的笔画、部首、拼音检字以外,还可以采用按词检索(输入一个词语查找它的意思)、手写输入汉字(词)检索、语音识别检索、模糊查询(采用“*”、“?”作为通配符)、翻译检索(输入外语词语检索汉语对译词)、按义类进行检索等。为了方便学生的使用,甚至可以考虑将所有的例句建立一个例句库,例句库提供按字、词、词组、固定结构、句子的检索方式。

(二)词典的微观结构

词典的微观结构主要指词条的具体信息。可以大体分成4个板块:常规板块、搭配示例板块、偏误纠正板块、语用文化板块。

常规板块主要是词语的注音、释义,其中释义的部分以外语的对等词翻译为主,在出现差等对应(没有完全对等词)或空缺对应(完全没有对等词)的情况下,应该用简单的汉语进行解释,再用外语进行翻译。其中汉语释义的部分要求对释义用词的难度有所控制,释义要求简明、准确,这样学习者可以借助外语的翻译来理解汉语的释义。有些词语还可以考虑选用图像、图表、声音、视频等等多种信息来辅助释义。

搭配示例板块要用大量的例句来展示词条的词性、常见的搭配、在句子中的位置(语法功能)、常用的句式、适用的对象等等。如动词的句法特征可以包括后接宾语、助词、补语及重叠用法等等。而对于名词来说最重要的就是要注出一般使用的量词,列出常用的“形+名”、“名+名”、“动+名”搭配形式。词语的种种用法都要求用例句来充分予以展示,作为例证的句子应该是规范的、常用的、内容健康的、完整度充足的、无文化因素干扰的基本句。例证要更多地考虑到句子在实际语言生活中的交际价值,考虑到句子所传递的种种附加信息,要让学习者能在交际中遇到、使用这些句子,如“现在是红灯,请不要闯红灯”,这样可以更好地了解当下的中国。有些词语还可以考虑由例证提供完整的语境,以便学生通过上下文推知词语的意义。比如在词条“差点儿”下面的例证可以考虑提供以下语言环境:电影7点开演,一个人6点58分匆匆忙忙赶进电影院,同时说:“差点儿迟到。”由于是电子词典,这样的语境展示可以采用动漫(或视频)的形式而不需要用文字进行描述,学习者对词语的理解将更为准确。

偏误纠正板块要求针对学习者使用汉语的实际情况,指出他们常犯的词汇、语法错误。出现词语使用上的偏误也常常和近义词的误用相关,所以关于近义词的辨析也可以放到这个部分。例如针对韩国学习者的词典在词语辨析方面,既要传承词义、词性、搭配等约定俗成的学习内容,也要特别考虑韩语里的汉字词和汉语对应词在语义范围(如韩语里有汉字词“文章”,意思相当于汉语的“句子”)、义项多寡(如韩语里的汉字词“气氛”除了有汉语里相应意思以外,还有“心情”、“情绪”的意思)、附加色彩(如汉字词“可观”有表示“可怕的景观”的贬义)等方面的不同。这个部分的编写特别要求有精通两种语言的双语研究人员的参与,另外还要有学习者的汉语语料库作为支撑。

语用文化板块里主要列出词语的语用信息和文化意义。目前将汉语作为外语来进行学习的人大多是成年人,他们学习汉语的目的就是为了交际运用,我们的学习词典在解惑的同时更要重视指导语言交际运用的实用性。除了词典的配例部分要体现交际价值,还可以为有些词语特别添加语用内容。比如为称呼语添加语用信息,由于时代的变化,有些称呼语的意思已经和传统词典上的意思差别很大(例如“小姐”、“同志”),如果不添加语用信息予以指出,学生难免误用。再比如为一些副词添加语用信息,例如“老”常用于表达批评,“有点儿”常用于表达抱怨,“差点儿”常用于表达庆幸,这样的语用信息予以指出以后,学生可以更好地理解和运用。另外,还可以在一些词语下面增加话题层面的语用信息,例如在“感谢”一词下面列出常用的表达感谢的方式,在“年龄”一词下面列出询问年龄的方式等等。

三、在线词典的新特色

(一)有利于充分建立学习者的词汇语义网络

从词汇语义学的角度来看,词语的意义是由词语和语言中其他词语的关系来决定的。根据语义场理论,同一语义场里的各个词语彼此之间在语义上是互相依赖的。只有在组合和聚合的关系中才能更清楚地认识词的意义。词语学习的过程不但是个形式与意义建立联系的过程,更是一个建立语义网络的过程,在这样的语义网络中,词语和信息的组织形式使它们可以很容易地被激活(唤醒)。第二语言词典应当注意揭示词语之间的关系,在词条之间建立组织良好的语义网络。词典中按音序或形序方式排列的词条与语言的本质以及语言的习得是互不相容的。

我们认为,学习外语者也有第二语言的心理词库,在心理词库建立的早期阶段,第二语言通过第一语言(母语)和概念相联系,第二语言心理词库中词语间的语音(词形)联系很重要。进入了第二语言的熟练阶段以后,第二语言直接和概念建立联系,第二语言的心理词库中词语间语义上的联系更为重要。如果在语言学习的开始阶段就在词典中系统地提供第二语言词语之间的语义联系,对学习者语言熟练性的提高无疑是有好处的。而且,由于词语的意义总是和其他词语高度联系起来的,有一定词语语义网络的双语词典可以加强学习者对第一语言和第二语言语义差别的认识。

在线词典中为词条列出有各种语义关联的词语,这些语义关系包括同义、反义、类义、对义(如“丈夫”相对于“妻子”)等;同时我们为词条列出因为语义关系而常常共现的词语(例如“饭店”和“客人、服务员、菜单、筷子”等)。我们在例证中尽量使这些词语能充分展示,再给所有的词语都建立超链接以便学习者查看。这样建立起一个词语的语义网络,对学习者的词汇学习来说无疑有很大的帮助。在建立这种语义网络时,HTML语言是最为有效的。

(二)有利于帮助学习者记忆词语

现有的词典(纸质的或者电子的)在如何帮助学习者记忆词语方面很少有什么好办法,在这里我们可以设想在线词典一些帮助记忆词语的工作方式。例如我们可以给汉字提供字源形式,帮助学习者记忆汉字的意思,以便记忆词语的意义;也可以提供一些词语的词源(造词方式),帮助学生理解词语,达到记忆的目的。再如我们可以学习一些英语学习词典的做法,在在线词典内增加主题页面,将当今流行的主题词汇以及日常生活中常用的词汇分类归纳在一起,配以插图和例句,以便学习者更直观更轻松地掌握相关词汇。还有我们可以在学生每次登录时都将上次查询过的生词及其意义、用法简单地列出,便于学生回忆。另外,我们还将增加词汇测试的内容,或者以游戏的形式帮助回忆单词。

参考文献:

〔1〕蔡永强.《当代汉语学习词典》配例分析[J].辞书研究,2008(3).

〔2〕高立群,孟凌,刘兆静.日本留学生心理词典表征结构的实验研究[J].当代语言学,2003(2).

〔3〕侯明.编纂简明汉语单语系列学习词典的构想[J].语言与翻译,2009(1).

〔4〕金晓阳.影响对外汉语学习词典信息可接受性的因素――析《现代汉语学习词典》的不足[J].辞书研究,2004(4).

〔5〕陆谷孙,王馥芳.当代英美词典编纂五十年综述[J].外语教学与研究,2006(2).

〔6〕孙全洲.谈谈学习型汉英词典的编写问题[J].辞书研究,1990(4).

句子翻译在线范文6

【关键词】课堂教学 英语语料库 翻译

1.引言

近几十年来,英语语料库(Corpus)的研究和创建取得了巨大的进展,国内外出现了众多各种类型的英语语料库。在英语教学与研究方面,语料库一直发挥着非常重要的作用,从理论、内容和方法等方面对语言教学与研究都有重要影响。语料库是专门用于语言材料检索和统计的工具,是由大量收集的书面语构成,并通过计算机储存和处理,其最大的特点是能快速提供大量真实的语言材料并进行相关统计。

语料库的开发与建设,给外语教学与研究带来新的变化。在英语翻译课堂中,同样可以有效地利用语料库,目前涌现出大量研究双语平行语料库的语料库都可以有所借鉴。在从事教学过程中笔者发现,将母语直译成目标语没有问题,但目标语语感不足或语感误差导致的用词错误或因译者外语水平不同而导致词语有着不同程度的错误存在形式,词典、教材、语法书从某种程度上而言作用欠缺,因此本文尝试性探讨在英语翻译课堂上,以目标语语料库为辅助的方法来授业解惑。

2.以语料库为辅助的汉译英词语翻译方式

除了为词典的编撰提供服务外,语料库的发展也为外语教学提供了丰富的资源和广阔的发展前景。语料库中有大量真实语境意义的实例,以数据或语境共现的形式呈现在学习者面前,有利于强化记忆以及帮助学习者利用语境获取语义和总结规律的学习环境。

本文涉及汉译英实践所使用的语料库均来自英语国家语料库(British National Corpus,简称BNC)和Cobuild以及 LDC(Linguistic Data Consortium)。语料库在线检索在日常英语课堂教学中最常见的用途是提供大量典型语例供大家对比参考。

2.1 用于词语的词义的褒贬以及词语的语体色彩

在汉译英过程中,能否根据上下文准确翻译出词义的感彩至关重要,不同的词语出现在不同的语体中,带有不同的语体色彩,很多情况下,借助于翻译词典等工具得不到很好的效果,此时参照语料库中的语料不失为好的方法。

我们知道,翻译语句不仅要注意词语的感彩,同时更要注意他们的语体色彩,以便忠于原作者的观点。下面一则例句就是学生们在翻译过程中,成功借助语料库数据的帮助较好地完成了翻译任务,而且注意了词语的语体色彩。

例句:在这场金融危机中,我们一直讲社会主义,而他们一直讲资本主义。

对于 “讲”这个字,词典中给出的英文单词为preach和advocate,到底哪个讲用preach,哪个讲用advocate,如何使用才能真实而精准地反映出作者的世界观的态度,通过语料库中对两个单词的检索,得到以下预料数据:

Extremists, defined here as intellectuals imbued with (foreign) revolutionary thought, preach violence and terrorism, against which the steadfastness of labour must prevail

Danielwas also a strong advocate for the application of DUL , although he understood the peculiar difficulties of nation-wide utilities in this respect.

We shall make the widening of the Community a priority, and shall advocate speedy admission for Austria, Sweden, Finland and Cyprus, whose membership applications have been or are about to be lodged.

对比分析,preach更多含有鼓动、鼓吹之意,贬义色彩极浓,而preach实则为一种积极奋发向上的宣扬、宣讲。根据作者的态度,我们将此句译为:

We advocate socialism whereas they preach capitalism .

2.2 用于同义词辨析及搭配词的使用

2008年5月12日,四川省北川遭受了一场巨大的地震,词语:“巨大的地震”,字典中给出很多单词, huge , great ,deadly ,devastating .

在China Daily中,我们截选出这样的句子:

The 2008 Sichuan earthquakeor the Great Sichuan Earthquake was a deadly earthquake that occurred on May 12, 2008 in Sichuan province of China.

huge , great ,deadly都含程度大之意,然其语气程度较弱于地震的毁灭性,于是把单词 devastating放到语料库上进行搜索,得出以下例句:

Chinese President Hu Jintao led the charge Monday, ordering ”all out efforts to help those affected” by the devastating earthquake”.

中国国务院总理在英国剑桥大学发表的演讲辞中也有这么一句话,Sichuan Province after the devastating earthquake there last May shocked the whole world.

毫无疑问,巨大的地震用devastating earthquake 表达更为贴切。

2.3 用于词性转换和正确造词

汉译英的过程中,多数情况是把汉语动词转换为英语名词,然有时为了鲜活文章,也会把汉语名词转换成英语动词,相应句中其他词性也应发生转换。

例一、一堂讲授在中俄建交60周年庆祝大会的演讲的中文稿中,给出的句子:

总书记的演讲给我们留下了深刻的印象。

句中名词可以转换成动词的是:“印象”,字典里给出了英文单词: impression ,如果直译就是leave us a deeply impression , 语气极为平淡,通过语料库中impression的搜索,发现了另一个单词:impressed :

Lewis does present in his Preface to 'Paradise Lost'a very convincing impression of having read the poem which John Milton set out to write and meant us to read.

He was always impressed with Leonard's room, which he found to resemble more a study than a youth's bedroom - already the style was evident.

通过检索内容我们可以看出,使用impressed更能传达作者的心情,因此,译句为:

His lecture at the Conference Marking the 60th Anniversary of Diplomatic Relations Between China and Russia impressed me deeply.

由此我们发现只有一个单词具备名词和动词两种词性时才可转换使用,生造词语则会引起句子歧义。

例二、一堂讲授温总理在英国剑桥大学发表演讲的文稿中,给出的句子:

我们仍然是一个发展中国家:人口多,底子薄,发展不平衡, 细看形容词:多,薄,不平衡,字典中“多”的英文有:more , big, large , lots of 等,“薄”在字典中给出: thin , weak,lack of 等意思,“不平衡”给出了unfair , imbalance , inequality三个意思 ,如果直译即为lots of people 、lack of money and imbalanced development.显然这属于生造词语,不符合翻译的原则,当我们对所有形容词进行搜索 :

Clearly the easily accessible position of the Malvern's near big population centers makes them a popular target for picnickers and day trippers.

The former though, brought out once again the weak foundation in national policy for any large-scale resettlement of the long-stay population.

Uneven development has always characterized economic activity in Britain and elsewhere.

从搜索到的语料数据来看,“多”用big ,“薄”用weak,“不平衡”用 Uneven。

因此,译句为There has been no fundamental change in our basic national condition: a big population, weak economic foundation and uneven development.

3、小结

随着信息时代的到来,基于语料库的研究方法会越来越受到老师们的青睐,基于语料库的研究对教师的教学能够产生非常积极的影响,语料库应用于翻译的教学中除了直接影响到教学内容的扩展性,同时对翻译教学的思想和方法有着很好的指导意义。

在以语料库为辅助方式的教学中,教师很容易找到大量精准而生动的例句给学生,帮助他们理解词语在实际应用中的意义和用法,同时,通过检索大量的语言信息,学生会逐步养成探索型的学习习惯,这种以学生为中心的教学模式将引导学生成为独立的学习者,这也是教与学的最大意义所在。

参考资料:

[1]何安平. 谈语料库语言学应用的新发展. 外国语, 2001, (2).

[2]潘盘、冯跃进. 语料库浯言学与外语教学思想的转变. 外语学刊, 2000, (4).

[3]文渤燕. 语料库及其作用. 国外外语教学, 2001, (2).

[4]杨惠中:《语料库语言学导论》,上海外语教育出版社,2002.

[5]王东风英汉词语翻译中的义素对比分析 《现代外语》1997.(1) .

[6]胡显耀基于语料库的汉语翻译小说词语特征研究 《外语教学与研究》2007.(3).

[7]陈 伟翻译英语语料库与基于翻译英语语料库的描述性翻译研究 《外国语》2007.(1).

[8]Chen, S. Q. A study of communication strategies in interlanguage production by Chinese EFL learners[J]. Language Learning, 1990, 40(2):155-187.