(86)755 - 21606888
教育测评研究成果
Research findings

考试的信息化发展及现代测量技术的应用


发表时间: 2013-11-18 12:44:36

【关键词】考试 信息化 现代测量技术

1. 引言

信息化是全球考试发展的大势所趋。通过信息化技术和工具,可以让考试更加的科学、便利,更加充分的发挥考试在整个教育流程中的重要作用。

我国大力支持和积极推进教育信息化的发展,在很多方面已经取得了长足的进步。在考试信息化发展这方面,目前存在着一些困难,还没有充分利用教育测量技术的最新研究成果,还有许多问题值得进一步探讨,尤其是这些现代测量技术在实际考试中的应用空间和应用方式。

2. 考试信息化的发展

2.1. 基础设施

经过多年发展,我国校园的信息化设施建设已具备良好基础,特别是大学以及经济比较发达地区的中小学,基础设施建设相对比较完备。我国逾90%的高校、35%的中等职业学校、38000多所中小学基本建成校园网。以山东省为例,截至2007年底,全省共有71.02%的小学建立了微机室,28.2%的小学和70.2%的中学建立了校园网,高中基本建立了校园网;小学人机比达到17:1,中学达到12:1,全省实验室及功能教室仪器器材设备总价值41.4亿元,藏书量达1.36亿册;小学中建有图书馆(室)的学校数为9648所,占学校总数的78.38%;中学中建有图书馆(室)的学校数为3251所,占学校总数的95.62% 。

2000年全国中小学信息技术教育工作会议提出:要推进网络的普及和应用,使学生学会充分利用网上资源;要全面实施中小学“校校通”工程,努力实现基础教育的跨越式发展。并指出“校校通”工程目标是:用5至10年时间,加强信息基础设施和信息资源建设,使全国90%左右独立建制的中小学校能够上网,使中小学师生都能共享网上教育资源,提高中小学的教育教学质量 。“校校通”工程在教育部的统一部署下,于2000年底开始启动,目前已在全国中小学校展开,特别在东部经济发达地区已经取得了很好的效果,如上海、江苏等地基本实现了“校校通”。

2.2. 技术和工具

随着中国教育信息化整体进程的加快、基础设施水平的提高,在考试中应用信息化手段已经很普遍。跟10年前相比,目前在国家级的考试中,信息化工具的应用程度已经得到了大幅度提高。以举国瞩目的高考为例,从报名、考试到录取,都有网上报名系统、网上评卷系统以及网上录取系统等,每一种信息化工具都有相应的管理方法,而且相关的国家标准也都在制定中。

2.2.1. 纸笔考试的信息化

目前在纸笔考试中得以大规模应用的是高考网上评卷系统。网上评卷是以计算机网络技术和图像处理技术为依托,以控制主观题评卷误差、实现考试公平公正性原则为最终目的,把多年来人工评卷积累起来的丰富经验和现代高新技术相结合,客观题由计算机自动判分,主观题由评卷教师在计算机网络上对考生答卷的电子图像进行评分,最终由计算机系统自动进行核分和成绩校验的一种新的评卷方式。教育部考试中心2003年在沈阳召开国家教育统一考试网上评卷工作会议中就提出网上评卷是今后评卷工作的方向,鼓励、支持各地根据实际情况对网上评卷工作进一步研究和探索。2005年高考教育部下发通知,要求各地推广网上评卷系统,最大限度地减少评分误差,提高工作效率,保证评卷工作的稳定性和可靠性。为了做好国家教育考试网上评卷工作,2007年教育部制订《国家教育统一考试网上评卷工作管理办法》。2008年全国高考已有25个省市实行网上评卷,覆盖率达到80.64%。

但是,跟高考等国家级大型考试相比,校园考试的信息化水平还处于较低水平。目前在区、县、校一级小规模的考试中,很少应用网上评卷系统。目前可以使用的有海云天校园网上评卷系统,应用于考生名单管理、网上评分、成绩分析等方面。

海云天校园网上评卷系统由数据采集、网上评卷、数据分析三部分组成,其中数据采集包括了制卷、题卡扫描、图像处理、考生信息提取、客观题自动评卷等功能;主观题的网上评卷实现了“多评机制”,并且进行实时误差控制。评卷教师使用网页浏览器登录评卷界面,对照答卷图片进行评分,评卷组长可对评卷的进度和质量进行实时监控,并可对已阅答卷进行抽查,有问题的可重新给分。

在评卷过程中发现模糊不清、答错位置等答卷应提交为问题卷,问题卷的处理和分析对培养学生熟悉网上评卷的考试模式、避免非学术失分有很大的帮助。

评卷完成后将主、客观题的分数合成并做数据校验,对校验后数据做个人、班级、学校多级别数据统计、分析,为学生、家长、教师及校领导提供科学、全面的数据挖掘报告。

基于校园网上评卷系统收集的考试数据进行统计分析,一方面可为省/市教委、地区教委、学校教务部门了解学校的整体教学质量,为地方、学校教育管理部门的改进管理提供决策支持;另一方面可帮助教师/家长了解学生的学习情况,对学生的能力状况做出综合评价,以便有针对性地进行教学、辅导。

整体来看,海云天校园网上评卷系统不但是一个考试评卷系统,也是一个教学质量评价系统。教学质量的评价对象并不局限于学生,还应包括教师、学校管理者等,校园网上评卷系统在教育测量专家悉心指导下针对网上评卷特有模式开发决策模型,提供学生、班级、科目、教师历届学生考试情况等丰富、详实的分析数据及报表,为学生自我评价、促进学习,教师和管理人员进行教学研究、改进教学提供科学、客观的量化依据。

2.2.2. 网络化考试和计算机辅助测验

随着计算机网络的普及和技术的发展,网络考试系统得到大力发展。特别是在远程教育中,网络化考试得到了最广泛的运用。

目前,各地出现了一批网络测评系统和或实现类似功能的系统,如上海电视大学的网上教学支持工具、上海交通大学远程教育中心开发的远程考试系统、北京师范大学的VClass网络教学系统、清华云舟网络评价系统、宝冠多媒体网络教室等,另外一些有条件的中学也开发设计了一批功能类似的系统。

这些网络考试系统一般都具有对客观题目的自动评分功能,有些系统还开发了大批的题目库,按照设定的组卷条件可以自动从题库中选择题目组成试卷。但是从整体上看,存在着课程、试题、试卷、作业等教学资源不易管理,系统功能整合不够,测评反馈信息不充分等方面的问题,部分系统采用了联机测评的形式,但是专用的系统,需要针对不同的测评内容,做不同的程序开发,系统通用性较差,一般的非计算机专业的人员难以掌握。总的说来,目前现有测评系统的功能还不能令人满意,还没有形成统一的标准和规范。

这些网络化考试系统中,大部分是将纸笔考试的内容按照电子形式展现出来,通过网络进行测试,仅仅是将考试的工具换作了计算机,并不是真正意义上的计算机辅助测验。

随着IRT研究的不断成熟,题库建设和组卷技术在实际应用中越来越多的使用了IRT理论 ,从而使得计算机辅助测验和网络化考试更加有效地结合起来。计算机辅助测验最有代表性的应用就是计算机化自适应测验。将IRT付诸实际应用将大大增加生成试卷的工作量,同时也必须以一个庞大的试题库为基础,只有通过计算机管理的试题库系统才可完成这一任务。

跟国外相比,我国的考试信息化发展还处在初级阶段,对于现代测量技术的信息化应用研究还较少。目前国内在计算机化自适应测验、认知诊断测验等方面的研究还有待于进一步的实际应用推广。

2.3. 实际应用水平

早在上个世纪70年代,美国学者、哈佛大学教授理查德•诺兰(Richard.L.Nolan)经过深入研究,总结和归纳出了信息化发展的一个一般规律:即诺兰模型。诺兰模型认为信息化从起步到成熟,大致经过了六个阶段:初始阶段(初始的局部计算应用,如报表、开票)、扩展阶段(单机版应用增加、计算机代替手工)、控制阶段(开始注重规划,网络版单项应用增加)、集成阶段(开始统一技术平台,进行一体化集成,消除部门之间壁垒)、数据管理阶段(统一规划组织内的信息资源,开始全面的数据综合利用)和成熟阶段(全面整合内外部资源,形成完整的信息管理、辅助决策)。

我国教育信息化经过十年的努力,目前的信息化发展水平还处在发展阶段,即从控制阶段向信息集成阶段迈进的关键时期 。

校园网在学校行政管理、学生管理、教师管理、自主学习、资源共享等方面都发挥着重要作用。但是目前在大中小学校园,普遍存在着“重建设、轻应用”的现象。校园网络只是用来作为学校信息化标志的一面旗帜,绝大部分应用还处在传递简单的通信信息的低级水平,甚至简单到只是互联网的接入工具,把“校校通”理解成“校校建”,以为建立一个学校网站,联通了互联网,做几个漂亮的页面就是实现了“校校通”,

即便是基于学校网络的软件开发也多是应用在学校管理、电子校务建设方面,如学籍管理系统、校园卡系统等,这些软件目前还是大部分学校建设新一代数字校园的重要组成部分。

从教育的角度出发,信息化肯定不能等同于简单的互联网的概念,而应该是一个更加广阔的平台,将信息网络及技术,变成辅助学习、帮助教学、方便管理的工具。信息化技术在考试应用上具有极大的价值有待挖掘。

3. 测量技术在考试信息化中的应用

3.1. IRT理论和计算机化自适应测验

计算机化自适应测验(Computerized Adaptive Testing,CAT)是现代测验研究中的一个新领域。它对于提高测验效率与质量有着重要意义。CAT 最早是由Lord 于1971年首先提出的 。 它的出现不仅打破了两千多年沿袭下来的以纸和笔作为作答工具的方式而改为计算机显示屏呈现、键盘与鼠标进行作答的方式,而且与传统的测验相比,测验思想也发生了巨大的变革:它通过给每一个被试建立一个个人化的测验来达到更为准确的测量,因为项目的选择是根据被试的能力水平定身度量而成的,因而被试所做的每一个题目的难度都是与其能力相匹配的。也就是说,水平高的被试能够避免做到相当简单的题目,而能力低的被试能够避免做到超出其能力范围之外的题目。CAT具有几个明显特征:(1)有一个由一定量精选而来的测题所组成的题库作为支持;(2) 按照一定的策略进行选题并根据被试的作答情况不断地调整测题;(3)按一定的规则终止测验,评分在施测的过程中进行 。

CAT测验是建构在现代测验理论——项目反应理论(Item Response Theory,IRT)基础之上的,从题库的建设到测题的选择再到最后的评分,都是以IRT为指导进行的。CAT也被认为是现代测验理论对测验的最大贡献。在构建标准参照测验题库时,必须估计出待入库试题的参数(如:难度),除了根据考生在试题上的作答资料,采用极大似然法、贝叶斯方法和Newdon-Raphson、EM等优化方法,进行估计外,余嘉元等还使用人工神经网络方法对项目参数进行估计,发现可以很方便地应用于实际的参数估计工作中 。

如今在美国,CAT 已在教育测验、职业测量、人事测评等领域中大显身手,如美国研究生入学考试(Graduate Record Examination)、工商管理类研究生入学考试(Graduate for Management and Administration Test)以及全美护士国家委员会资格考试(Nurse National Committee License Test)等都已采取了CAT 的方式。不难看出CAT代表了今后教育、心理测验发展的方向与重点 。

3.2. 数据挖掘在学习评价中的应用

随着信息化技术的普及,以及基础设施的逐步完备,收集信息越来越容易,各级教育部门也积累了越来越多的信息和数据。这中情况下,存在几点担忧:第一,信息过量,依靠传统的信息处理手段很难及时处理;第二,垃圾信息多,将真假信息有效区分开的难度较大;第三,信息安全难以保证;第四,信息形式不一致,难以统一处理。在这种情况下,跟需要新的技术来有效的“扔掉消息”,并且能够从庞大繁杂的数据中及时发现有用的知识、提高信息利用率。

数据挖掘技术的出现让人们看到了解决这个难题的希望。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息与知识的过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术 。

数据挖掘具有以下主要的功能:概念/类描述、特征化和区分:对每个类的汇总、简洁、精确的描述可以通过数据特征化、数据区分和数据比较来实现。数据特征化是指目标类数据的一般特征或特征的汇总,如一年的成绩汇总;数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般性比较,如A学校和B学校的比较。

在教学科研网络普遍建立的今天,利用数据挖掘工具,对学生的学习成绩数据库,行为记录数据库,奖励处罚数据库等进行分析处理,可以即时得到学生的评价结果,对学生出现的不良学习行为进行及时指正。这种系统还能够克服教师主观评价的不公正,不客观的弱点,减轻教师的工作量。此外,利用数据挖掘还能对学习者特征进行分析,可以帮助学习者修正自己的学生行为。通过对学习特征分析结果和事先制定的行为目标标准进行比较,教师能够帮助学习者修正学习行为,提高学习能力,完善人格,有利于学生在各方面素质的和谐发展。学习者特征分析包括 :

人机互动:学习者可以向系统手工添加学习者信息、提出分析要求,同时查看分析结果。

数据收集:收集的信息包括学习者的基本信息,绩效信息,学习历史,学习偏好,知识结构等等。

数据处理:数据库按照元数据标准进行清理、集成和变换,去掉数据中的“噪声”——不一致的数据。

数据分析:利用经过转化过的数据,按照数据挖掘规则,对数据进行分析处理,得出结果并输出。

美国学校正使用文本分析和数据挖掘技术研究学生的测验成绩,分析学生纪律报告。路易斯安娜州拉福什教区(Lafourche Parish)学校几年来一直在用SPSS数据挖掘软件分析学生的测验成绩。整个校区系统包括30个学校里的1.5万名学生,去年管理人员就用SPSS的文本分析对450多位教师、管理员和其他学校员工提供的调查进行统计以获得调查结果。最近,该校搜集了去年全年老师和管理员们写下的3.3万份学生纪律报告,利用该学校区的数据挖掘系统专门进行分析。通过分析报告,不仅可以找出学生各种违纪问题,比如迟到、着装违规、打架、毁坏公物等问题的根源,而且还能为学校提供有效的处理方式以及如何公正地推行维护纪律 。

3.3. 作文自动评分技术

从20世纪的60年代起,研究者们开始进行以计算机代替人工来评价作文的研究探索 。目前国外已经成功地研究开发出了许多作文自动评分系统,其中一部分系统已经在实际考试中得到了大规模的应用,取得了很好的效果。

1966年,Page等人开发出PEG系统,打破了这一僵局,开创了作文自动评分研究的先河 。在该项研究中,Page等人抛开了让计算机像人一样理解作文、然后进行评价的传统思路,而是通过数学方法,从作文中提取出语言形态学上的特征,并将其量化之后作为自变量,构建出多元回归模型,从而预测人工评分的结果。可以说,PEG系统的评分其实仅仅是对人工评分结果的模拟,而不是对人工评价过程的整个模拟。通过使用一些量化的语言学特征指标,间接的实现对作文质量的评价。

E-rater (Electronic Essay Rater)是ETS开发的一套作文自动评分系统,从1999年2月开始用于GMAT,每年大约要评价36万份作文 。不同于传统的、分析性的作文评分方式,E-rater采用的是整体评分(holistic scoring)。这种评分方式依靠读者的总体印象。一般来说,如果某篇作文针对问题的论述有很好的组织结构、使用丰富多样的词汇、有较好的句法结构,那么就会得到高分。E-rater综合使用了统计方法和自然语言处理的技术来提取作文的语言特征。它识别的反映作文质量的特征是完全和人工评分的标准相一致的。

台湾师范大学心测中心最新研发出了一套“中文写作自动化评分系统”(ACES),该软件能自动分析初中基准测试考生的作文程度,并给于6个等级的评分。根据实测结果显示,阅卷老师与软件测试的评分一致度高达90%,目前第二代系统已经在开发之中。据悉,这将是全球首套“中文作文电脑阅卷系统 ” 。

4. 结语

中国目前具备了良好的教育信息化环境,各级教育部门都有齐全的信息化设备,联通了网络,也储备了足够的信息技术人才。可以说,这为考试的信息化打下了良好的物质和人才基础。而且,在传统纸笔考试领域,信息化的推进步伐比较快,在许多方面都超过了国外。比如在网上评卷工作中,我国高考的信息处理量之大,世界上没有任何考试可以比拟。这些成功的经验都值得借鉴和推广。

但是,我国在计算机化的测验方面应用还比较薄弱。在计算机化自适应测验以及IRT理论的应用上,还都没有达到大规模应用的层次。相比GRE等考试,我们还有一定的差距。今后的考试信息化工作更多的需要注重理论研究的实际推广,在应用中检验技术。根据我国的实际情况,加强考试管理部门、研究部门和考试服务机构的合作,积极展开现代考试技术的实验,逐步完善相应的技术标准,开发出更多的应用系统,才是我国考试信息化的快速发展之道。

 

 

 【参考文献】

王金满,王立军;山东省71%小学建立微机室 推教育信息化[J];大众日报;2008.08.29

 陈至立; 抓住机遇,加快发展,在中小学大力普及信息技术教育——在全国中小学信息技术教育工作会议上的报告(节选) [J];教育信息化; 2000年12期; 5-10

  漆书青;现代测量理论在考试中的应用[M],武汉:华中师范大学出版社2003年

  信息化教育通讯;2007年1期;转自中国教育和科研计算机网;[EB/OL].http://dzzz.e21.edu.cn/content.php?acticle_id=2511&magazine_id=20&item_id=22;2008.9.22

  Lord M F. Applications of item response theory to practical testing problems . Hillsdale NJ: Erlbaum,1990.

  李虹,车宏生;计算机化考试的研究和发展[J],心理科学进展,1999年6月7卷2期;

  余嘉元;项目反应理论及其应用. [M]南京:江苏教育出版社,1992.79~84

  Weiss D J.Improving measurement quality and efficiency with computerized adaptive testing . Applied Psychology Measurement,1982,6:473-492.

  [美]Jiawei Han,Micheline Kamber 等著,范明,孟小峰译,数据挖掘:概念与技术,[M]北京:机械工业出版社,2001

 彭玉青等, 数据挖掘技术及其在教学中的应用,[J]河北科技大学学报2001,(4)。

  数字化教育:学生违纪数据分析系统走进校园;信息周刊;http://www.cioage.com/art/200704/45570.htm

  曹亦薇,杨晨;使用潜语义分析的汉语作文自动评分研究[J];考试研究,2007年1月,第3卷第1期,63-71

  Rudner L., Phill G.. An overview of three approaches to scoring written essays by computer [EB/OL].http://PAREonline.net/getvn. asp?v=7&n=26 .2005-9-20

  Bursein J.. The E-rater Scoring Engine: Automated Essay Scoring With Natural Language Processing[A]. in: Automated Essay Scoring: A Cross-Disciplinary Perspective.[C]Lawrence Erlbaum Associates Publishers,2003. 113-121

 陈至中;台北报导,中国时报 2007.12.26;[EB/OL].http://news.chinatimes.com/2007Cti/2007Cti-News/2007Cti-News-Content/0,4521,110501+112007122600089,00.html

教育测评研究成果