文字复制比检测的误区其防范-万方论文查重

[摘要]文字复制比检测存在随意设置文字复制的时间节点,混淆文字的重复性与学术继承性,忽视检评制度性缺失的先天不足,夸大检测系统文献比对源的万能性,将人工理性让渡于工具理性等误区,造成了许多误检误判.为了提高检测的科学性和公正性,必须树立高度负责的精神,采取科学严谨的方法弥补缺陷,克服弊端,推进学术事业的健康发展.

[关键词]学术不端,文字复制比检测,误区,防范

[作者单位]丁明刚,安徽巢湖学院.

[基金项目]教育部人文社会科学研究专项任务资助项目（科研诚信和学风建设）“以质量为导向的科研评价方法研究”（项目批准号：13JDXF005）的阶段性成果.

文字复制比检测是学术不端检测的主要指标之一,在出版、科研、职称晋升、业绩评定等领域有着广泛的应用,对规范学术行为、惩治学术腐败、推动学术进步发挥着重要的作用.这种由检测系统与人工判定相结合的学术评判行为,由于检测系统的局限和人为的偏误等缺陷,在文字复制时间节点的设置、文字重复性与学术继承性的界定、检评制度的贯彻落实、检测系统文献比对源的使用、人工理性与工具理性的博弈等方面存在一定的误区,因此其产生的负面效应不容忽视.

一、文字复制比检测的误区

1.随意设置文字复制的时间节点

学术成果的撰著发生于一定的时间维度内,其文字复制的时间与之契合,文字复制比检测时必须合理确定文字复制的时间节点.现有检测失误中,对时间节点确定不当是主要原因之一.部分检测者随意给出文字复制的时间节点,使之在不经意中成为被检测学术成果文字复制的时间终点,导致“部分文字复制由检测者而产生或消除”的荒谬结果,使得“文字复制比”高于或低于实际情况.

这种情况具体表现在以下几个方面：其一,无视学术成果生成与发表的具体时间,完全以检测时间点来确定文字复制的最后期限.这是学术不端检测的极端现象,要么是对检测规律的无知,要么是不负责任,其产生的检测结果最为不公.2012年,某省高校职称评审中推行代表作文字复制比检测,由于误以检测时间点来确定文字复制的最后时间点,结果导致被检测论文与发表在其后的相关论文产生大量的文字重复现象.这其中不仅有大量引用或抄袭他人论文内容的文章,也包括被检测论文本身的自我重复,这显然违背了文章发表与被借鉴的时间逻辑.其二,未经科学推理,大致确定文字复制的时间节点.根据文章发表的时间去确定文字复制的时间节点,从而得出检测文章的文字复制比.例如,某篇文章发表于某刊2010年第3期,7月初出版,检测者就将检测时间定到2010年7月某日.这种情况未考虑文章定稿、寄送、审稿、发表以及印制、发行等时间周期与文字复制的时间节点的时间差,造成了文字复制时间节点的延后和文字复制率的可能提高.其三,人为将文字复制的时间节点提前至文章生成前.这其实是文字复制检测的另一种极端现象,目的在于将被检测文章的部分重复文字予以掩盖,以达到弄虚作假的目的.这在学术腐败无孔不入的当下并非少见.

2.混淆文字重复性与学术继承性

学术研究是建立在已有成果基础之上的,对已有知识、思想、学理、方法等的继承是科研成果的典型特征之一.这表现在学术论文中,即其部分文字与已有文献中文字有不同程度的重复,在文字复制检测中则为文字复制率.如果不对重复文字进行人工取舍,那么,检测系统就会将文章继承性文字判为重复性文字,无论其为合理引证而形成的继承性,还是其为抄袭剽窃而形成的重复性.这样在实际检测中通常就会造成继承性与重复性的混淆,要么过分倚重文字复制量而将合理的重复误判为抄袭剽窃等不端行为,要么将部分抄袭剽窃的文字判为合理的重复.于是,在有效的检测时间范围内,凡是检测系统确定的文字重复即为文字复制,而文字复制又常被判为学术不端.事实上,即便是进行了初步的人工取舍抑或“专家鉴定”,将检测出来的文字复制现象笼统判为学术不端的情况也是非常普遍的.

3.无视检测制度的先天性缺失

我国文字复制比检测始于2008年12月中国学术期刊（光盘版）电子杂志社和同方知网公司推出的“学术不端文献检测系统”.此前,尽管我国出台过有相关的法规文件对学术行为进行规范与惩治,但其主要基于宏观层面,以主观感悟和粗放评判为主,缺乏科学性和可操作性.学术不端检测系统的推行,从技术层面将学术评判引入了微观领域,大大提高了学术评判的可操作性、客观性和公正性.从检索的现状与发展趋势看,学术不端检测已步入由粗浅检测到不断加深完善的发展阶段.尽管如此,这种检测的先天性制度缺陷已成历史事实,不可避免与忽视.从对已发表文章的检测来看,可以以2009年为分界点,此前发表的文章文字复制率明显高于此后,而从这一年开始,已发表文章的文字复制率总体上呈逐年下降的趋势,这种分化在一定程度上是学术不端检测制度性约束的必然结果[1].然而,在实际检测中,我们经常会发现,2009年及以前发表的文章因文字复制率较高而受到制裁,作者的“鸣冤叫屈”不能不引起我们的反思.事实上,这很大程度上是学术不端检测系统的制度性缺乏造成的,这种制度规范对学术生态的规制、重塑与再生有着无可替代的引导作用.客观地说,因这种制度性缺乏而“产生”出的部分文字重复是合理的,应该允许存在,而非简单粗暴地惩处了事.

4.夸大检测系统比对源的万能性

学术不端检测是将被检测论文与检测系统采用的文献进行比对取舍后得出结论.在检测中,不仅各种检测系统所采用的比对源不统一,就是同一检测系统不同时期采用的比对源往往也不尽相同,因而,即便在检测时间范围完全一致的情况下,对同一篇论文检测出的结果也会不一致.笔者在同一时段内用中国知网检测系统、某省学术鉴定信息管理系统、某社会机构检测系统等三种学术不端检测系统对发表于2012年的某篇论文进行了文字复制比检测,结果得出的文字复制率依次为24.8%、12.6%、7.2%.经比较发现,这三个检测系统的比对源数据库的种类及其收录文献的数量存在较大的差异,直接导致了检测结果的不同.作者对文献参考、引证的多样性与复杂性,特别是在转引、网络引用、非公开出版物引用等引证过程中的不规范行为,导致被引用或抄袭的文献内容无法核查,如果检测比对源未收录这些文献,则会出现检测盲区,造成学术不端的漏判.目前,国内检测系统的比对源中就没有图书、非英文外语语种文献,以及图画、书法等文献,对这些文献的内容进行抄袭根本无从检测.因此,只有作者引用或抄袭了检测系统比对源中的文献,才能检测出结果.而事实上,随着作者引证或抄袭的日趋广博性和复杂性,从理论上说,检测系统比对源永远难以与被检测论文所复制的文字完全匹配.这样,对检测比对源的完全信赖难免会导致检测结果偏离客观事实,犯以偏概全的错误.

5.对检测系统的工具性盲从

在检测时间恰当、文献比对源较为匹配的情况下,学术不端检测系统对论文文字复制的检准率相对较高,这往往使得检测机构对检测系统由信任、依赖变为盲从.“所有的文字复制由机器和系统说了算”成 ;为部分检测人员的习惯性思维和信条,工具理性代替了科学理性,由此导致检测过程中许多合理引证被判为抄袭等学术不端行为,许多不端现象因系统无法检测而蒙混过关.这种因检测的不公而导致的学术不公情况屡屡发生[2],影响了学术事业的发展.

二、文字复制比检测误区的消弭

1.尽量以文章寄送时间来确定文字复制的时间节点

对文字复制时间节点的合理界定直接决定文字复制检测的准确度,这理应由作者寄送论文的时间来确定.对于未发表和已发表论文的检测,具体时间可从以下几方面确定：第一,对于未发表的文章,尽量以寄送时间点为检测点.鉴于电子文稿传输的瞬时性,杂志社或编辑系统接受稿件的时间与作者投寄时间几乎一致,此时,该文的“文字复制”行为已经停止,以此时间点作为该论文文字复制的最后时间最为准确和科学.杂志社收到论文的电子稿时,应该以收件时间作为文字复制的最后时间,即便稿件暂不检测,也应该在文首或文后为其标注收稿时间.同时,对于寄送的纸质稿件,应该以邮戳或快递始发时间点作为作者论文文字复制的时间终点和文字复制检测的时间节点.第二,对于已发表论文,如果标注了“收稿日期”,电子投稿的可以该时间作为检测时间点,纸质投稿的则应考虑稿子邮寄或投递的周期.寄送的周期大致可以确定为：电子投稿1日,快递1～2日,平信2～7日,挂号一周左右,确切日期应以具体寄送天数为准.将收稿日期减去投寄周期,得到的日期就可以确定为可以接受文字复制检测的日期.第三,如果已发表论文上没有标注“收稿日期”和“出版日期”,则应从论文的寄送周期、审稿周期、发表刊期、出版时间等方面综合考虑.论文的审稿周期一般以稿约规定的期限为准,发表刊期则要考虑到月刊、双月刊、季刊等出刊周期,出版时间为编辑、定稿并制版的时间,必须核实确定.可见,作者论文投稿日期远远早于“出版日期”,将这几段时间累加,就可以用“出版日期”来确定论文的检测时间：检测日期等于出版日期（出版周期+审稿周期+寄送周期）.事实上,审稿周期、出版周期往往不是固定不变的,我们应尽量核查准确再予以确定.

2.对继承性与重复性的合理区分与界定

文字复制包括合理引证、过度引用、抄袭（含自我抄袭）、剽窃、重复发表等多种情况.仅仅从检测出的文字重复量就轻率地判定其为合理继承或抄袭剽窃是不科学的.判定合理继承,首先应该看其文字是否属于合理引证.判定合理引证,既有《著作权法》《文后参考文献著录规则》等法规和文件可作理论依据,也有相关研究成果可资借鉴[3].总体而言,合理引证应该是内容必要、文字适量、标识清晰的引用,这与抄袭剽窃有着本质的区别.即使是在内容必要的情况下,抄袭剽窃往往也是引用文字过量、未予以合理标识的引用.因此,对检测出的重复文字的继承性与重复性的区别,首先要看其重复文字引用量是否适中,引用文字是否进行了合理标识,同时,更为重要的是要对那些“形式合理”的引用给予实质性剖析,将那些伪引、作者或刊物沽名的自引与互引、无从查证的参引（含转引和不确定引证源的引用）、错引等不合理引用判为学术不端.对重复文字的继承性与重复性的评判,是学术不端检测的核心、焦点与难点,唯有标本兼查,才能得出最为客观的结论.

3.后检测的制度性修复与标准确立

检测制度是由检测规则、检测系统及其技术、检测标准、检测反馈及惩治等一系列要素构成的.鉴于检测制度2008年及其之前的缺失、2009年及其以后的日趋规范与严谨的发展规律,在检测中就应该区别对待.2008年及以前发表的论文,检测时,除可以将文字重复过多（一般高于30%以上）的明显抄袭的论文判定为学术不端外,其余论文的文字复制率一般可以允许在30%以内.2009年及其以后发表的论文,其文字复制比总体上应该是一个从高到低并停留在一个较低水平上的标准,其数量值严格控制在20%以下.这其中对于文献综述类等需要大量引证的文章,可以允许文字复制率略高于其他类型的文章（在40%左右）.如此,我们在检测中,不仅能够从宏观上总体把握和控制文章的文字复制率,而且能够灵活地区别对待不同时期、不同类型的文章,促进学术生态的良性发展.

4.比对源的完善与弥补

检测系统比对源收录数据库越全面、各种文献收录越完备,则检测出的结果就越趋近实际,因此,检测系统应不断增加和充实检测比对源.例如,某省2013年在2012年使用的比对源数据库基础上,增加了“港澳台学术文献库”“优先出版文献库”“互联网文档资源”等文献,就使得检测的比对精度有所提高.同时,鉴于文字引证的复杂性,检测时要求作者提供文章引证的详细说明和引证文献的原件或复印件等证明材料,这样就可以有效弥补部分文献因“无从核查”而出现的无法比对的漏洞,让抄袭剽窃等不端行为无处藏身.

5.科学理性的回归

学术不端检测的检出率与检准率受多种因素的影响,其中主观因素往往占据主要方面,包括系统在内的客观因素起着相对次要的作用,特别是在需要做出合理判定的情况下.因此,对检测系统的盲从无疑是一种不负责任的行为,是对科学理性的漠视与逃避.实际上,作者撰写论文的文字复制现象非常复杂,在实际检测中,检测人员不仅需要对被检测论文从时间、文献类型上予以设定,还要从内容上对其进行剖析[4],揭隐显微,对真引、伪引、抄袭等予以准确判定.只有将检测中的工具理性与科学理性紧密结合,并以科学理性为主导,才能对文字复制及其实质做出科学的判定.

[1]张放.学术不端文献检测系统对《中国医学影像技术》刊登论文检测结果的分析[J].科技情报开发与经济,2011（26）：125-127.

[2]刘认军.别让“学术不端”成“学术不公”――学术不端检测软件使用浅谈[J].出版广角,2012（6）：58-59.

[3]赵蔚.学术不端检测结果的修正标准初探――基于“文字复制比”与“文章抄袭率”的辨析[J].中国出版,2011（11下）：20-23.

[4]孔艳,颜帅.关于不端文献检测软件的思考[J].中国出版,2010（11下）：28-30.

文字复制比检测的误区其防范

一、文字复制比检测的误区

二、文字复制比检测误区的消弭

类似论文