计算机辅助翻译软件

2004年度机器翻译评测大纲

一、评测对象

本次评测的对象包括:汉-英,英-汉,汉-日,日-汉,汉-法,法-汉机器翻译系统中的核心技术.

二、评测内容

本次评测组织两种语料的评测,一种是篇章语料,一种是对话语料.领域是通用领域和奥运的相关领域,包括体育赛事,天气预报,交通住宿,旅游餐饮等.

本次评测的评测指标包括译文质量和翻译速度.

三、评测方法

1.评测方式

本次评测为现场评测.

结果评估采用的是以人工评估为主,自动评估为辅方式.

人工评估采用可理解率指标.评估方式是:由评测组织单位将提交的评测结果汇总在一起,然后用计算机随机打乱译文句子的排列顺序.再将所有译文句子提交给多位专家进行可理解率的人工评估.将专家评测的结果汇总,用计算机还原成原来的排列顺序,计算出总的可理解率.

自动评测采用基于n元语法的BLEU和NIST方法.

评测步骤

(1)在评测单位统一提供的评测环境上安装被测系统.系统应安装在指定的目录中.

(2)评测单位给出评测数据.评测数据存放在指定目录中.给出评测数据以后被测单位不得再更改系统参数.

(3)被测单位运行系统,提交评测结果.被测单位应指导评测人员学会操作方法,所有操作由评测人员进行,系统运行时各单位人员应离场.系统的运行应该是批处理方式的,系统读入一个脚本文件(格式后面说明),脚本中存放输入文件名和对应的输出文件名.

(4)评测单位事后进行人工评估.

(5)公布评测结果.

评测标准

(1)人工评测标准

本次评测按0.0–5.0分打分,可含一位小数,最后采用百分制换算评测结果.

等级分得分标准译文可理解率0完全没有译出来.0%1看了译文不知所云或者意思完全不对.不过有小部分词语是译对了的.20%2译文有一部分符合原文的一部分意思,或者全句没有译对,但是关键的词都孤立地译出来了,对人工编辑有点用处.40%3译文大致表达了原文的意思,局部与原文有出入,一般情况下需要参照原文才能改正.有些情况即使无需参照原文也能猜到原文的意思,但译文的不妥明显是由于翻译程序的缺陷造成的.60%4译文传达了原文的信息.不用参照原文,就能明白译文的意思,但是部分译文在词形变化,词序,译词选择,地道性等方面多少有些问题,需要修改.不过这种修改无需参照原文也能有把握地进行,且修改也较容易.80%5译文准确流畅地传达了原文的信息,语法结构正确,除个别错别字,小品词,单复数,地道性等小问题外,只需小修改,或者完全无需修改.100%总的可理解率等于所有句子得分之和/总句数/5×100%

(2)翻译速度评测标准

由主持评测的工作人员现场记录翻译时间,各系统自动显示从第一个句子翻译开始到所有句子翻译完毕所用的时间(不计系统初始化所用时间,只记开始翻译到所有句子翻译完毕所用时间).

4.输入输出文件格式

系统首先接受一个脚本文件作为输入,脚本文件中给出了一系列机器翻译源语言和目标语言文件的文件路径.

系统的源语言文件为一个扩展名为.xml的文本文件,英文,中文,日文的编码为Unicode.目标语言文件的格式要求和源语言文件相同.

下面以汉英机器翻译为例,说明脚本文件,源语言文件和目标语言文件格式.

(1)脚本文件格式:

脚本文件是文本文件,由若干行组成.每行代表一个待翻译的源语言文件.每行分为3个部分,各个部分以空格分开,第一部分为序号,第二部分为源语言文件名,第三部分为目标语言文件名.系统的翻译应按顺序进行,不得更改输出文件名.给出的文件名都是相对于脚本文件所在目录的.


1source\src1xmlresult\dst1.xml

2source\src2.xmlresult\dst2.xml

3等

(2)源语言文件格式:

源文件采用xml格式.每个源语言文件包含一个<,doc>,元素(由<,doc等>,和<,/doc>,括起来的部分),其中<,doc>,元素的属性说明文档相关信息.docid给出文档名称,lang给出文档的源语言,属性值用双引号引起.语言代码中,英语用"en"表示,汉语用"zh"表示,日语用"ja"表示,法语用"fr"表示.

每个<,doc>,元素由若干个<,p>,元素(由<,p>,和<,/p>,括起来的部分)组成.每个<,p>,元素由若干个<,s>,元素(由<,s等>,和<,/s>,括起来的部分)组成,其中<,s>,元素的属性id的值是正整数.每个<,s>,元素的id各不相同,但不一定是连续的数值.每个<,s>,元素可能包含一个或多个句子.

<,xmlversion等于"1.0"encoding等于"Unicode">,

<,docdocid等于"文档名称"lang等于"zh">,

<,p>,

<,sid等于"1">,玻利维亚举行总统与国会选举<,/s>,

<,/p>,

<,p>,

<,sid等于"2">,(法新社玻利维亚拉巴斯电)玻利维亚今天举行总统与国会选举,率比预期更高,选民希望选出的新领导阶层能够振兴经济,改善人民的生活水准,抑制这个南美洲最贫穷国家的劳工骚动.<,/s>,

<,/p>,

<,p>,

<,sid等于"3">,所于下午四时(台北时间七月一日清晨四时)关闭,选务人员说,选举结果将于两小时之后开始发布.<,/s>,

<,/p>,

<,p>,

<,sid等于"4">,稍早,玻利维亚总统与参与选举的候选人援引巴西赢得世足赛冠军为例,鼓励民众踊跃,虽然联邦法律规定,凡达年龄的玻利维亚人都必须.<,/s>,

<,/p>,

<,/doc>,

<,xmlversion等于"1.0"encoding等于"Unicode">,

<,docdocid等于"文档名称"lang等于"en"site等于"单位名称">,

<,p>,

<,sid等于1>,BoliviaHoldsPresidentialandParliamentElections<,/s>,

<,/p>,

<,p>,

<,sid等于2>,(AFP,LaPaz,Bolivia)Boliviahelditspresidentialandparliamentelectionstoday.Withahigherthanexpectedturn-outrate,votershopethenewlyelectedleadershipcanrevitalizetheeconomy,improvethepeople'slivingstandardsandcontrolthelaborunrestinthispoorestcountryinSouthAmerica.<,/s>,

<,/p>,

<,p>,

<,sid等于3>,Thepollingstationsclosedat4p.m.(4a.m.onJuly1,Taipeitime).Thepollingstaffsaidthattheresultsoftheelectionswillbereleasedwithintwohours.<,/s>,

<,/p>,

<,p>,

<,sid等于4>,Earlier,theBolivianpresidentandcandidatesintheelections,citingBrazil'schampionshipattheWorldCupsoccertournament,encouragedthepublictoactivelyparticipateintheelectionseventhougheveryBolivianwhohasreachedthevotingageisrequiredbythefederallawtovote.<,/s>,

<,/p>,

<,/doc>,

四、评测环境

本次评测环境包括:PC环境,操作系统为Windows2000,硬件配置不低于:P41GHz,256M内存,40GIDE硬盘,嵌入式环境,联想天玑210PDA,操作系统为WindowsCE3.0,硬件配置为400MHzCPU,64M内存.

类似论文

计算机辅助翻译软件

摘 要:计算机辅助翻译是信息时代的产物 信息时代的到来,对译者的要求越来越高,不仅要保证质量还要有时。
更新日期:2024-8-2 浏览量:14521 点赞量:4155

化工设备计算机辅助设计软件的开发

摘 要:随着我国国民经济的发展,对化工产品的需求也在不断增加 与此同时,计算机人工智能技术的发展以及计算机技。
更新日期:2024-6-28 浏览量:84233 点赞量:19084

计算机辅助翻译教学的课程与设计

目前,我国翻译市场不断壮大,翻译需求急剧增加,计算机辅助翻译因具有高效、质优的特点,越来越受到翻译服务机构的青。
更新日期:2024-8-13 浏览量:106587 点赞量:23509

计算机辅助翻译与教学设计

【摘 要】在经济全球化发展的大潮下,翻译人才已经成为不可或缺的优秀人才资源,特别是那些适应市场需求的专。
更新日期:2024-6-3 浏览量:13249 点赞量:4214

计算机辅助翻译软件

摘 要:计算机辅助翻译是信息时代的产物 信息时代的到来,对译者的要求越来越高,不仅要保证质量还要有时效性 这&。
更新日期:2024-4-9 浏览量:10347 点赞量:3275

计算机辅助翻译带来的变革和威胁

摘 要:近年来,随着计算机的普及和技术的发展,计算机辅助翻译软件在国内外翻译领域越来越普及起来,成为翻译发展的一种趋势 本文通过。
更新日期:2024-7-25 浏览量:95809 点赞量:21331