目前国内外对超常儿童教育的评估主要集中在能力鉴定和教育项目评估两个方面,本文主要介绍超常儿童的选拔标准。无论在现实实践中,还是研究者对超常儿童的选拔标准建构的理论中,使用多重标准成为研究专家的共识。本文将通过能力评估、成就评估、计算机自适应评估、绩效评估、动态评估五个方面来论述超常儿童选拔标准。
一、能力评估
能力测试是在超常儿童评估中使用时间最长的测试之一,通常是衡量个人的智力能力或学习潜力的标准化工具。各种各样的现代能力评估在个体焦点、目标年龄组、标准化严格程度、测量媒介、管理要求以及与CHC认知能力层次模型的理论联系上有所不同。主要的能力评估包括传统能力测试、群体能力测试、非语言能力测试和简短能力测试。
1 传统能力测试
传统的能力测试是由注册心理学家和其他训练有素的专业人员对个别考生进行的能力测试,是许多学校系统中典型评估程序的基本组成部分。这些测试相对于其他评估工具的优势在于管理的个性化。在测试中不仅会测评考生分数,而且在测试管理期间内还可以观测考生行为。因此,可以对考生的注意力水平、情绪独立性和解决问题的策略等做出判断。在传统能力测试中,斯坦福比奈智力量表(Stanford Binet Intelligence Scale)的使用历史最长。斯坦福比奈智力量表是基于个体的大量规范样本,根据五个认知因素衡量个体一生中的认知表现,这些认知因素大致基于CHC层次模型:知识、定量推理、视觉空间加工、工作记忆和流体推理,可能会产生多个分数,包括综合总分,以及五个认知成分中的每一个语言和非语言分数。韦氏系列测试,尤其是韦氏儿童智力量表(WISC),被认为是识别超常儿童最常用的能力测试之一。与其他传统的能力测试不同,韦氏智力测试系列由三个不同的测试组成,分别针对不同的年龄组进行测试:韦氏学前和初级智力量表(WPPSI;2:7 - 7:7岁)、WISC(6:00 - 16:11岁)和韦氏成人智力量表(WAIS;16:00-90:11岁)。这些量表已被翻译成几种语言,而它们的使用有效性已在多个国家得以证实。
2 群体能力测试
群体能力测试是对大量学生同时进行的能力测试,通常由非注册心理学家的考试管理人员进行。与传统的能力测试相比,这些测试工具通常被认为是一种更实用、更经济的选择,因为在很短的时间内可以进行大量的测试,而且考试管理者和考生之间需要的互动较少。随着越来越多的证据表明这些工具的心理测量的严密性,使用群体能力测试可能代表了认知评估方式的重大转变,在教室环境中识别天才学生的认知评估。美国最常用的是认知能力测验(Cognitive Abilities Test, Form 7,CogAT7),这个考试是由爱荷华大学教育系教授 David F. Lohman和斯坦福-比奈智力量表的合作者Elizabeth P. Hagen共同创立的。通过多项选择来对K到12年级的孩子进行能力评估,通常会和爱荷华基本技能测试(Iowa Tests of Basic Skills)一起使用,综合评价学生能力。这个考试一共有三个部分,语言(verbal),数学(Quantitative),和非语言(Non-verbal)测试。我国也编制了《鉴别超常儿童认知能力测验》,已进行了两版修订。
3 非语言能力测试
非语言能力测试是以视觉刺激的形式呈现的项目,如具体的物体、直线画或空间可视化,要求非语言反应代表从考生对这些刺激的推论、演绎或外推等。一些常用的非语言能力测试包括瑞文推理测验(RPM)、韦氏非语言能力量表、通用非语言智力测试(UNIT)、 Naglieri非语言能力测试、TONI非语言智力测试、和认知能力测试的非语言部分等。PRPM由英国心理学家瑞文(J. C. Raven)于1938年创制,在世界各国沿用至今,用以测验一个人的观察力及清晰思维的能力。它是一种纯粹的非文字智力测验,所以广泛应用于无国界的智力/推理能力测试,属于渐近性矩阵图,整个测验一共有60张图组成,由5个单元的渐进矩阵构图组成,每个单元在智慧活动的要求上各不相同,总的来说,矩阵的结构越来越复杂,从一个层次到多个层次的演变,要求的思维操作也是从直接观察到间接抽象推理的渐进过程。通用非语言智力测验一种智力和认知能力的一般测量方法。与传统的智力测试不同,UNIT不要求考生具备语言接受能力或表达能力。标准测量大约需要30分钟进行管理,由四个子测试组成:符号记忆、立方体设计、空间记忆和类比推理。与韦氏量表相似,单元子测试所用的度量标准是熟悉的量表得分。
4 简短能力测试
简短能力测试是指传统的全面能力测试的短版本,旨在提供对考生认知功能水平的评估,减少管理和时间投入。通常简短能力测试试图通过一些子测试来捕捉天赋的概念化。一些常用的缩写能力测试包括简短智力能力测试,该测试使用了伍德考克·约翰逊认知能力测试(Woodcock–Johnson Tests)子测试,以及考夫曼简短智力测试(KBIT)等。尽管缩略能力测试方便高效,但人们似乎对其使用存在一些担忧,包括使用缩略和原始工具获得的分数往往存在很大差异,这类测试可能倾向于在非常狭窄的天赋定义和有限的效度和信度证据下确定哪些学生是天才。因此,简短的能力测试可能需要谨慎使用,特别是在需要准确估计个人能力的高风险测试情况下
二、成就评估
成就测试旨在衡量个人对某一内容领域的了解程度,而不是他们的一般能力或潜力。关于大多数年级水平成绩测试的普遍看法是,它们可能不适合用于天才学生或超常儿童的评估,因为它们并非专门针对此类学生设计的测评工具,可能不能完全捕捉这些学生的能力,但是天才教育学者们认为使用成就测试,如水平以上测试,或标准参考测试,在一些情况下也可以反映出其能力水平。
1 水平以上测试
这类测试多为高年级或年龄较大的学生设计,也包括对有天赋的学生进行成绩测试,因此在适用超常儿童上存在缺陷,许多学者认为,在水平以上的测试中存在的高上限,与许多其他工具相比,它们在评估天才儿童时并不友好和精确,因为这类测试与有天赋的学生的知识、技能和能力相适应,而不是与他们实际年龄相适应。在人才鉴别中,水平以上测试是一种特别受欢迎的做法,北美一些常用的高水平考试工具包括SAT,ACT和EXPLORE。作为更高水平的考试,SAT和ACT是针对7 - 9年级的天才学生的,而EXPLORE是针对4 - 6年级的天才学生的,但这些测试与我国高考相似,均不太适用与超常儿童的测试,但有一些在学术能力上天赋异禀的学生,也有可能在该类考试中表现出色。一些研究表明,一些适用于低龄儿童的水平以上测试,如爱荷华州基本技能测试(ITBS;最初是为K-8年级的学生设计的)和爱荷华教育发展测试(ITED;最初为9-12年级学生设计;警告,2014)作为以上水平的测试,在评估低龄天才上是有效的。
2 标准参照成就测试
标准参照成绩测试是个人测试结果可以与某一特定人口群体同龄人的成绩进行比较。一些常用的针对天才学生的标准参照成绩测试包括斯坦福成绩测试-10(Stanford-10),ITBS,伍德考克·约翰逊成绩测试(WJ-IV-ACH),考夫曼教育成绩测试第三版(KTEA-III),以及韦氏个人成绩测试第三版(WIAT-3rd edition)等。但由于所有这些测试都是在美国开发和规范的,因此在其他国家使用时应进行本土化。此外,许多学者建议,在可能的情况下,应该依赖地方规范而不是国家规范。这是会减少偏见和提供更准确成绩信息最有效的方法。
三、计算机自适应评估
适应性测试的设计目的是在测试过程中只展示与考生能力水平相适应的项目,而不是一组固定的项目。这些工具通常基于一个项目反应理论模型,即每个问题是根据被试对之前问题的回答选择的。它们也通常被称CAT,通常是在基于计算机的设置下管理的。这些测试的多个优点包括:对传统成就测试中常见的天花板和地板效应的有效管理,减少测试管理员和考生的时间投入,在更大的测试调度灵活性,更大的测试安全度,而且通常情况下考生完成考试的动机水平更高。这些测试可用于评估能力或成就,即可针对个人进行,也可针对群体进行。CAT在教育领域得到了广泛的研究和应用。尽管这些方法在超常教育中还没有得到足够的重视,但诸多学者正在积极探索其在鉴别天才儿童和学生的运用。
四、表现评估
在基于表现的评估中,学生被要求按照规定的方式行事,或做出原创的产品或回应。一些超常教育研究人员提倡使用基于表现的评估作为一种比能力测试、成就测试或评级量表更真实的天才评估方法。在基于表现的评估中需要完成的任务可能从写一篇短篇小说或一个电脑程序,到创建一个政治策略或一个筹资计划。基于表现的评估所产生的成绩或产品通常是用评估标准来判断。一般来说,天赋和智力行为的复杂概念化,比如好奇、专注、坚持、发现问题,与传统上用于评估天才学生的工具相比,在基于表现的评估中可能更容易、更精确地评估真实任务的完成。因此,使用基于表现的评估可能会发现更多的超常儿童,而这些儿童可能在传统测试中没有被发现。尽管表现评估有许多优点,但同时在使用方面也存在一些挑战。首先,对评估分数(即有效性)的使用和解释因缺乏明确的测量内容而比较困难。此外,一些学者注意到,使用表现评估,相对于使用标准化能力测试和成就测试确定的天才学生的学业成绩上有很大差异,且准确性不不如以上两种。因此,表现评估往往用于补充作用,即识别那些不同于传统评估工具识别出的天才学生群体。
五、动态评估
在动态评估中,评估个体对适应性教育干预的反应,以确定他们的学习能力,而不是他们目前的成就状况。动态评估主要关注学生在接受针对其具体弱点的教学后,在能力测试或成就测试中提高成绩的程度。在现有多种形式的动态评估中,通常遵循一种测试前指导后测试的形式,即首先对学生进行测试,然后根据测试结果向他们提供指导,然后再次进行测试。通常,非语言测试,如RPM,被用作前测和后测阶段的评估工具。自20世纪90年代以来,动态评估在超常教育领域的使用反映出,与传统上使用的测量工具相比,它会更公平地评估天才学生,特别是那些来自少数民族或因家庭阶层原因没有接受良好教育的学生,他们可能经历的教育劣势会让其在一开始的竞争中处于不利地位。此外,动态评估对超常教育干预的规划可能有效,因为它可以收集关于需要后续注意问题的具体信息。但是与使用动态评估作为鉴别超常儿童的方法相比,它对超常教育的规划和干预有效性还需要进一步研究。
参考文献:
[1] 戴海琦&张锋&陈雪枫.心理与教育测量:暨南大学出版社,2011:231-232
[2]Fives C J, Flanagan R. A review of the universal nonverbal intelligence test (unit) an advance for evaluating youngsters with diverse needs[J]. School Psychology International, 2002, 23(4): 425-448.
审核:马智慧