关于设定全国中小学教师教育技术水平考试合格标准的

【摘 要】

标准设定是实施全国中小学教师教育技术水平考试(NTET)的重要环节,但又往往被人们所忽略.本文从教育测量的角度,系统阐述了标准设定的概念和基本原理,详细总结了国际上常用的标准设定方法和实施标准设定的基本流程;最后针对NTET的命题和实施特点,重点分析了NTET标准设定中存在的四个问题,并给出了自己的一些思考.

【关 键 词】全国中小学教师教育技术水平考试;标准设定;合格标准

【中图分类号】G451.2【文献标识码】A【文章编号】1009—458x(2013)03—0049—05

一、引言

为了加快推进基础教育信息化进程,适应全面实施素质教育和基础教育课程改革的需要,教育部于2005年4月启动了“全国中小学教师教育技术能力建设计划”.作为该计划的重要组成部分,教育部委托教育部考试中心研发了全国中小学教师教育技术能力水平考试(NationalTeacher’sSkillTestofApplyingEducationalTechnologyinSecondaryandElementarySchool,NTET).NTET是面向全国在职中小学教师的教育技术能力认证考试,代表着国家意志;它以《中小学教师教育技术能力标准(试行)》(简称“《标准》”)为依据,主要考查中小学教师的教育技术应用能力是否达到《标准》的最低要求[1].

NTET基于先进的任务式测验(task-basedtest)理念,采用工作分析法提炼出教师在信息化教学环境中的典型工作任务,编制成若干任务型试题,通过教师完成上述任务时的实际表现,达到评价教师教育技术应用能力的目的.NTET采用主客观相结合、情境化题目组的命题方式,充分吸收了标准化考试和表现性评价的优点.不仅如此,NTET采用网络化的机考平台,贴近教师日常教学的真实环境,实现寓教于考,以考促教[2].NTET的这些创新与突破,博得了专家、学者和考生的较好认同[3].

笔者认为,NTET属于典型的标准参照测验(CriterionReferencedTest,CRT)[4].这是因为,NTET需要设定一个绝对的合格标准(或称“合格线”、“及格线”、“分界分数”),以判定考生的教育技术能力是否达到《标准》规定的最低要求,这一过程被称作“标准设定”(StandardSetting)[5].标准设定对于实施标准参照测验至关重要,倘若所设定的NTET合格标准明显高于《标准》规定的最低要求,将会导致实际上合格的考生被误判为不合格,错失通过认证的机会,进而引发考试公平性问题;反之,则将会导致一些实际上不合格的考生被误判为合格,侥幸通过认证,进而影响师资队伍的质量.可见,我们必须科学准确地设定NTET的合格标准.

通过对个别考生进行网络访谈、检索考生参与的BBS论坛和博客,笔者了解到许多中小学教师也非常关注NTET标准设定的过程和结果.但通过检索文献,笔者尚未发现国内关于NTET标准设定的研究论文或报告.本文从教育测量的角度,系统阐述了标准设定的概念和基本原理,详细总结了国际上常用的标准设定方法,以及实施标准设定的基本流程;最后针对NTET的命题和实施特点,重点分析了NTET标准设定中存在的四个问题,并给出了自己的一些思考.希望能对NTET的科学化发展有所帮助.

二、标准设定的概念和原理

1.标准设定的概念

标准设定涉及两个重要的概念,一个是表现标准(performancestandard),它是关于被试应该具备的知识、技能和能力(Knowledge,SkillandAbility,KSA)的各种等级或表现水平(performancelevel)的定性的文字描述.在NTET中,设有两个等级:不合格与合格.NTET《考试大纲》中的总体要求基本对应了合格等级的表现标准.另一个是合格标准,它是测验分数尺度上的某个具体分数,用以将考生划分为两个或多个类别.在NTET中,合格标准将考生划分为合格与不合格两个类别.如果说表现标准是从理论上对各等级的KSA进行抽象的界定,那么合格标准则是从操作上对其进行数量化的界定[6].因此,标准设定也被形容为“把定性的表现标准‘翻译’为定量的合格标准”[7].

2.标准设定的原理

笔者曾用图1来阐述标准设定的基本原理[8];结合NTET,这里稍作了修改.该图由两个连续谱构成:

首先是教育技术能力连续谱,它是将所有考生的教育技术能力按其水平由低到高排序而成.显然,在这个连续谱上存在一个所谓“最低要求”的分界线.位于该分界线左端的考生的教育技术能力低于《标准》规定的“最低要求”,因此属于不合格者;而位于其右端的考生的教育技术能力高于“最低要求”,因此属于合格者.

其次是NTET分数连续谱,它是将所有考生的NTET得分由低到高排序而成.当NTET满足基本的信度和效度要求时,位于能力连续谱最左端的考生,其NTET得分也将位于分数连续谱的左端;而位于能力连续谱最右端的考生,其NTET得分也将位于分数连续谱的右端.更进一步,对于教育技术能力恰好处于“最低要求”分界线的考生,他们的考试得分也将会在分数连续谱上形成一个分界线,我们称之为“合格标准”.此时,我们便可以推断:得分位于合格标准左端的考生,由于其教育技术能力未达到“最低要求”,故将被判定为不合格;反之,位于合格标准右端的考生将被判定为“合格”.NTET的标准设定,就是要将教育技术能力连续谱上的“最低要求”转换为NTET分数连续谱上的“合格标准”.

理论上,由于教育技术能力或素养的内隐性和文字描述的抽象性,“最低要求”常常是一个模糊区间,它应该位于两个表现水平(合格与不合格)之间;而NTET考试本身必定存在一定的测量误差,因此NTET合格标准也是一个模糊区间(如图1中段阴影部分所示).但为了维护考试的权威性和可操作性,NTET合格标准总是一个确定的测验分数(如图1中的竖线所示).这意味着,“最低要求”与合格标准之间并不存在严格的一一对应关系,合格标准必然存在一定的测量误差.为此,一方面在报告合格标准时,都会提供合格标准的测量标准误(StandardErrorofMeasurement,SEM)和置信区间(ConfidenceInterval,CI).更重要的是,我们应尽量选择严谨的标准设定方法.三、标准设定的方法和流程

1.标准设定方法的分类

为了更好地完成“翻译”工作,人们提出了很多标准设定方法.早在1996年,美国测量学家RonaldBerk就总结出50余种应用较为广泛的标准设定方法[9].总体来看,标准设定方法可被划分为专家驱动型(judge-drived)和数据驱动型(data-drived)两类.前者统指根据专家的主观判断设定合格标准,典型的如Angoff法[10];后者统指根据客观测验数据的统计分析设定合格标准,典型的如聚类分析法[11].由于数据驱动型的标准设定方法缺乏可靠的测量理论基础,因此常作为专家驱动型标准设定方法 0340;补充.根据专家判断的对象,专家驱动型标准设定方法又可进一步划分为试题中心型(item-centered),如Angoff法、Ebel法和Bookmark法等;考生中心型(examinee-centered),如对照组法、边界组法等;以及兼顾试题与考生的折中法(promisedmethod),如Beuk法、Hofstee法等[12].Angoff法操作简单、计算方便、统计可靠,是目前国际上广为流行的标准设定方法.我国目前实施的国家医师资格考试、高等教育自学考试等大规模标准参照测验的标准设定都参考了该法.

2.Angoff法的基本思想

Angoff法由美国学者WilliamAngoff于1971年在一本《教育测量》的教材中首次提出,后经多次修订,演变至今[13].其核心思想是:选择一批代表性的学科内容专家,虚构一组知识、技能或能力恰好界于合格/不合格之间的考生,即恰好合格考生(JustQualifiedCandidate,JQC);然后逐题估计这组考生在测验试题上的作答表现(得分),将这些得分相加即为合格标准.实际判断时,往往要求专家在头脑中“虚构”100个恰好合格考生,然后估计他们答对该题的概率.我们用一个例子来说明Angoff法.假如某测验有10道试题组成,每道试题满分为3分,答对计3分,答错计0分,总分为30分.某专家采用Angoff法的判断结果如下:

上表中,我们将该专家在10道试题上的判断结果相加,乘以各题题分,即得到该专家推荐的合格标准(15分).计算所有专家推荐的合格标准的集中值(如:平均数、中位数)和标准差,就能得到专家组最终推荐的合格标准,并推导出它的测量标准误和置信区间.

根据专家的判断方式,人们又提出了各种Angoff法的变式(modifications),从而极大地扩展了Angoff法的应用场合[14].比较常用的变式有:①对错判断,即专家判断JQC能否答对试题;②概率区间,即专家判断JQC答对试题的概率区间(而非一个概率值);③概率选择,即专家从给定的若干个概率选项中选择一个概率值,通常给出0.05-1区间内间隔0.05的若干个概率值;④均值法,即对于简答题、论述题、写作题等多级计分的试题,专家判断JQC的平均得分;⑤最可能得分法,即专家判断JQC在试题上最有可能的得分(而非平均得分).实际应用中,人们可以结合测试题型和计分规则,选择一种或多种Angoff法的变式进行标准设定.

3.标准设定的基本流程

标准设定的核心方法虽然简单,但其流程却十分强调系统化,包含一系列配套活动[15].典型的标准设定流程一般包括以下几个环节:①遴选专家;②组织专家界定JQC;③判断练习;④正式判断;⑤提供反馈与再修改;⑥标准设定数据的统计分析;⑦综合决策;⑧效度评估.各环节的主要任务或操作如表2所示.

四、NTET标准设定的问题与策略

掌握了标准设定的方法和流程,NTET的标准设定并非就能顺利开展.NTET的一些特点及其自身所面临的一些问题必然会给标准设定带来难题.因此,必须结合NTET的实际情况,采取可操作的标准设定策略.

1.如何应对多种题型的问题

NTET综合采用了客观题型和主观题型.客观题型主要有单选题、多选题、填空题、匹配题,以及有唯一答案的软件操作题;主观题型主要有设计题和一些答案不唯一的软件操作题.从计分规则来看,有二值计分的试题,如:单选题,答对计3分,答错则计0分;有多级计分的试题,如:多选题、匹配题,全部答对计3分,部分答对计2分或1分,答错则计0分.除此之外,每道试题的满分并不完全相同,如:单选题和多选题的满分一般为3分,而软件操作题的满分则有3分、5分、9分不等.

NTET的题型和计分方式的多样性决定了标准设定方法也必须多样化.以Angoff法为例,我们应该综合采用Angoff法的多种变式.对于二值计分的单选题,可以让专家判断“100个JQCs平均答对试题的概率是多少?”;对于多级计分的多选题,可以让专家判断“100个JQCs在试题上的平均得分是多少?”;对于满分不等的设计题和软件操作题,可以让专家判断“JQC在试题上最有可能的得分是多少?”.值得注意的是,在向专家提供反馈信息时,应确保反馈信息的形式与专家判断方式的一致性.具体来说,如果专家判断的是“答对概率”,那么所提供的反馈信息就应该是考生在试题上的实际答对概率(也即测量意义上的试题难度);而如果专家判断的是“平均得分”,那么提供的反馈信息也应是考生在试题上的实际平均得分.同样,如果专家判断的是“最有可能的得分”,那么提供的反馈信息应是考生实际得分的频数分布图.

2.如何应对频繁设定合格标准的问题

NTET每年都会开考两次,每次考试的题目均有变化;那么,前后两次或历年的NTET合格标准是否相同呢?若上次的NTET合格标准被确定为61分,而本次的NTET合格标准被确定为59分,那么本次考试的59分就等价于上次的61分.在没有建立起基于考试等值的分数体系之前,就需要针对每次考试单独设定合格标准.也就是说,标准设定组织方必须每次开考后,都在全国范围内遴选专家,召开标准设定会议,组织专家进行标准设定,最终确定本次考试的合格标准.这不仅增加了历次NTET考试的工作量和经费投入,也会延长NTET分数公布的周期.进行NTET合格标准的等值处理,能够较好地解决这一问题.关于合格标准的等值处理,不能简单地认为:可以人为地将合格标准固定为60分.这只是形式上的等值,并无科学依据.实际操作中,我们总是将合格标准的等值与考试分数的等值联系在一起.换句话说,我们只需编制一份标准试卷,组织专家设定标准试卷的合格标准,然后通过等值设计与统计处理,将每次考试的分数都等值转换到标准试卷的分数体系上,最后报告给考生的分数是基于标准试卷的分数,这就确保了不同考试的合格标准稳定一致[16].常用的等值技术有经典测量理论(ClassicalTestTheory,CTT)和项目反应理论(ItemResponseTheory,IRT)之分.我国教育与心理测量界泰斗张厚粲教授早年曾撰文指出:CTT等值有可能降低合格标准附近的测量精度,IRT等值技术恰好弥补了这一不足[17].

3.如何应对多测验版本的问题

NTET以学科为载体,按照学段和学科共设19项考试科目,并有初级与中级之分.这样的话,NTET每年的测验版本就多达38种.由于不同学段、不同学科、不同级别的考试内容、考生对象存在较大差异,必须有针对性地遴选相关领域的学科专家和培训讲师分别进行标准设定.按照每种类别的专家数不少于15人计算,则至少有570人参加标准设定活动.对于标准设定组织方来说,这些专家的差旅费、招待费和薪酬等将是一笔不小的开支.当然,这一问题随着NTET等值体系的建立,将大大缓解.但每当有必要进行标准设定活动时,该问题就会出现.值得庆幸的是,借助于Inter的开放性、共享性和交互性,可以开发在线标准设定平台,专家在本地即可完成培训、讨论、练习和正式判断等标准设定活动,从而节省大量人力、物力和财力.已有研究表明,专家在本地通过网络开展标准设定与集中参会所设定的合格标准并无明显差异[18][19].笔者认为,标准设定的组织方可酌情开展类似的试验研究与论证工作,确保基于Inter的标准设定同样适用于NTET.

4.如何应对地区差异的问题

我国基础教育信息化发展极不均衡,全国中小学教师教育技术能力水平存在显著差异,这在研制NTET考试大纲(初级)时就已是严峻挑战[20& #93;.对于实施NTET的标准设定来说,同样如此.NTET采用全国统一的合格标准,必然在一些区域的考生群体看来过高,而对其他区域的考生群体而言则过低,这从不同省份历次的NTET合格率存在较大差异就可以看出[21].而测验分数的区域性过低或过高现象,其实是对考试公平性的破坏[22].那么,如何在标准设定环节上确保NTET的公平性呢?笔者认为,应在全国范围内广泛遴选参加标准设定的专家,加大一线培训讲师的比例,同时注重参会专家的人口学代表性,如地域、性别、民族和专业背景等,最大程度地覆盖全国所有考生,使每一个考生群体都有自身利益的代言人.目前,这一策略广泛应用于高风险、高利害性的执业资格考试中.美国和我国的医师资格考试为了增强专家的代表性,甚至邀请刚刚通过考试的考生参加次年的标准设定会议.笔者认为,这一做法是值得NTET借鉴的.


责任编辑日新

类似论文

关于中小学教师教育技术能力培训模式的

摘 要:在信息化时代,中小学教师教育技术能力培训呈现出新的理念 传统的培训模式对提高教师教育技术能力起着重要௚。
更新日期:2024-3-25 浏览量:47766 点赞量:11909

中小学教师教育技术能力总结

徐州市中小学教师初定考试复习提纲一、师德方面 1,简述新时期中小学教师职业道德的主要内容2,对教师要"关爱学生"的。
更新日期:2024-6-5 浏览量:13896 点赞量:4464

中小学教师教育技术能力中级培训的

【摘 要】中小学教师从信息技术培训到教育技术能力的培训,是沈阳市“十二五”教师继续教育的全员培训项目 可以说整。
更新日期:2024-7-26 浏览量:96333 点赞量:21556