外语能力,测评体系

首页 > 教育知识 > 人文百科 > 外语能力,测评体系

时间：2017-08-08 来源：人文百科点击：

【www.gbppp.com--人文百科】

外语能力,测评体系(一)：朱正才：英语能力等级量表描述语量表化的可行性方案探讨

朱正才：英语能力等级量表描述语量表化的可行性方案探讨

作者：朱正才，上海交通大学教授，博士生导师。

原文刊载于《中国考试》2015年第4期。

摘要：本文在参照国内外语言量表研制经验基础上，结合我国的实际情况，提出中国英语能力等级量表描述语量表化的一个可行方案。对如何抽取学生语言行为样本、收集描述语和学生语言行为表现的匹配数据、设计带锚题的描述语调查问卷等提出解决方法，以期为国家外语能力测评体系建设提供智力支持。关键词：外语能力测评体系；英语能力等级量表；描述语量表化 1

引言

英语能力等级量表描述语量表化是英语能力等级量表研制的关键环节，直接关系到量表的科学性和可操作性。本文在主要参照《欧洲语言共同参考框架：学习、教学、评估》（CEFR）等世界著名语言能力量表研制和国内外众多语言能力标准制定经验的基础上，结合我国的实际情况，尝试对中国英语能力等级量表描述语的量表化提出一整套解决方案，以期为国家外语能力测评体系建设提供智力支持。

２

描述语的分类和能力等级确定

描述语量表化的基本程序是：第一步，描述语的撰写者、收集者或者改写者在讨论的基础上，凭经验确定描述语的分类和能力等级；第二步，对描述语广泛征集各方意见，进行问卷调查和调查数据的分析；第三步，综合调查数据的分析结果以及专家意见，最终确定每条描述语适合的类别以及能力等级。

2.1 抽取有代表性的学生语言行为样本

心理学的“能力连续统”（Continuum）假设认为，人的任何一种心理特质（包括语言能力），从总体上看，其分布都是连续的，从极端的无能到完美的熟练，呈现一种正态分布形态。中国英语学习者的英语能力也应该符合这个假设：从低端的、很有限的英语能力，到高端的专业翻译能力，中间是连续的正态分布。描述语量表化的第一步需要有一个足够大的、有代表性的学生语言行为样本。如果能从中国英语学习者（或使用者）总体中抽取一个很大的样本，并且使

用科学的抽样方法，那么，这个样本的代表性就会很高。这样，就有可能通过这个样本对中国英语学习者的英语能力表现进行全面而细致的描述验证。

首先，中国英语能力等级量表的适用对象主要是中国教育系统的英语学习者，故可以在中国各级各类学校中“分层随机”地抽取学生样本，其他英语教育系统和英语自学群体则只要抽取少量学生样本作为补充数据。不同层级的学生组成比例要符合两个原则：第一，在校学生数多的层级相应地要抽取更多的样本；第二，社会迫切需要描述其英语能力的学生层级也要抽取更多的样本，因为针对这部分群体相应的描述语也会更多。

如何确定合适的样本大小呢？这主要看项目的真实需要和可行性，两个方面要做一个平衡。假设需要数据验证的量表数目有100个,每个量表9个等级, 那么，将形成900个交叉描述语网格。如果每个网格最后平均需要2条描述语（这里参考了CEFR的经验，中国英语能力等级量表可以更多），则共需要1800条描述语。再假设数据验证过程要淘汰大约30%的描述语，那么，最终应该有2 500条左右描述语需要收集调查数据。接下来，将50条描述语组

成一份问卷（暂不考虑锚题），共产生50 份问卷。根据IRT多级评分模型，题目难度参数估计要求的一个比较低的样本容量是100人，按照这个最低要求每份问卷要调查100人，则至少需要5000名学生。这就是样本量的一个下限，实际执行时只能多不能少。

在抽取学生时要按照班级抽，好、中、差兼顾，比如一个市只抽3所学校，一定要好、中、差各一所；抽2所学校时，好、差各一所；抽一所学校时，抽中等的。在抽取班级时，同时要考虑英语任课教师，必须是连续2年以上负责该班教学的有责任心的教师，因为填写调查问卷的是教师。在抽取学生时，建议参考CEFR中North的做法，要求教师先将自己“熟悉的学生”（也可能来自不同班级）按平时英语成绩和课堂表现从高到低排序，然后再从中抽取10~20人（其中：差生1~2名，中下2~3名，中等3~4名，中上3~4名，最好学生2~3名）。不过，North发现这样做，得到的学生样本代表性也不是很好，因为不完全随机。但是，如果不做这样要求，教师就倾向于只抽好学生，样本代表性会更差。

2.2 收集描述语和学生语言行为表现的匹配数据

有了学生语言行为样本，接下来要做的是将描述语和语言行为“匹配”（Matching）在一起，也就是收集描述语和语言行为的匹配数据。目前，国际上主要有三种做法：教师评判法、学生自评法和专家评判法。

（1）教师评判法：就是由最了解学生的任课教师来评学生。教师了解所教学生的英语能力行为表现，能够比较准确地把描述语和每个学生的英语能力匹配起来。笔者认为，中国英语能力等级量表应该主要采用这一方法收集数据。

（2）学生自评法：由学生自己评自己。这一方法存在的问题是：第一，对于小学生，他们还没有“自我感知能力”，而且还不一定看得懂描述语；第二，学生撒谎，不会的也说会。因此学生自评数据的可靠性有问题，笔者建议中国英

语能力等级量表可少量收集自评数据作为效度研究的一个补充，不能作为主要证据。

（3）专家评判法：用文档、录音、录像等收集学生的语言行为表现（包括课堂表现、试卷、竞赛、答辩、演说等），专家通过观看这些资料完成描述语的匹配。这一方法的优点是：第一，专家有专业素养，评判数据的可靠性高；第二，资料可以复制，允许多人反复评判，能显著提高描述语匹配数据的可靠性。但专家评判法的缺点也是明显的，收集学生的英语能力行为样本费力费钱，无法实现大样本的数据收集。因此，笔者建议，中国英语能力等级量表可以少量收集这类数据，作为大规模调查数据校验用。

2.3 设计带锚题的描述语调查问卷

2.3.1 科学与道德——量表效度研究的新视角

设计“描述语调查问卷”是描述语量表化的又一个关键环节。如何将全部描述语科学而合理地分配到不同的调查问卷中？先来看North在瑞士项目1994年调查中的做法。North先将能力等级和英语学习者群体进行了大致的关联，见表

1。针对每个不同层次学生所用的问卷，其所含的描述语是最适合其“目标学生群体”的，在组卷时，要依据给描述语预设的三方面信息来分配它们，即描述语的临时等级、描述语适合的目标群体以及描述语的难度。North把全部280条描述语分成7份问卷，每份问卷含50条描述语，含10道锚题。分配方案：口语任务24 条，理解4 条，交互策略7 条，口语质量12条，写作任务3条。7份问卷中，W1和W2是平行问卷，T1和T2是平行问卷，含平行锚题。不同等级问卷之间交叉重叠少部分题目，即含垂直锚题，其中B与W1交叉，W2与T1交叉，T2与I交叉，I与E交叉。

中国英语能力等级量表的问卷调查可基于上述原理，设计50份问卷，每份问卷50~60条描述语，含10道左右的锚题，可以分配为：听力10条，口语8条，阅读理解10条，写作8条，翻译4条，语言知识运用5条，语用知识运用5条，可行方案见表2。其中同一个层级的是平行问卷，含一组平行锚题，如A1-1和A1-2是平行问卷；相邻层级之间是垂直问卷，含一组垂直锚题，如A1-1

和

A2-1交叉，A2-2和A3-1交叉，A3-2和B1-1交叉，B1-2和B2-1交叉，B2-2和B3-1交叉，B3-2和C1-1交叉，C1-2和C2-1交叉，C2-2和C3-1交叉。

2.3.2 科学与道德——量表效度研究的新视角

描述语调查问卷可以通过互联网发送给教师，教师在网上填写。为保证调查数据的数量要求，同时保证被评学生有良好的代表性，问卷分发时应满足以下要求：（1）每份问卷只评测对应的同一层级的学生；（2）每份问卷至少评100名学生。如果每位教师评20名学生，那么每份问卷就要至少被随机地分发给5位不同的教师；（3）每位教师至少要评完一份问卷（即用一份试卷分别评20名左右的学生）。如果时间精力允许的话，一位教师也可以评多份平行问卷。此外，按照听、说、读、写、译、语言知识运用等语言能力分类的描述语应在同一个学生样本上完成问卷调查。这样，各类描述语的难度参数在经过等值后，其量表零点在同一个位置上，即在被调查学生样本的能力均值上。这无疑会给后面的量表等级划分带来极大的方便。否则，各类描述语得到的是相互独立的量表体系，需要有一个把难度参数标定（Calibrating）到一个新的共同量表上的环节，由于误差累积效应，会严重影响描述语难度参数的估计精度。

2.3.3 锚题组设计

“锚题”可以从描述语库内各位专家公认为 “好”的描述语中选出。平行等值的“锚题组”含全卷15%~20%的题量，无论是结构上，还是题目质量上，都是所在问卷的代表性题目。

垂直等值的“锚题组”由高一级问卷中较易的题和低一级问卷中较难的题组拼起来，难度在两个等级中间，结构上对上下两个层级问卷都要有一定的代表性。

2.4 教师评判松紧度问题的解决方法

描述语与学生的语言行为表现的匹配程度通常用“5点里克特（Likert）量表”评分，用0表示这条描述语对某个学生的语言行为表现是不适合的，学生肯定达不到描述语所描述的水平；用4表示学生的语言表现水平肯定达到或超过了描述语所描述的水平；用2表示描述语相对学生语言行为来说，是中等程度的符合；1介于0与2之间，3介于2与4之间。

通常教师在对学生进行评定时，对于描述语与学生符合程度的判断，在“松紧度”（Severity）的把握上会有很大差异。每个人所评分数，会围绕分数量表的中心点（即量表的参照点或者称零点）上下移动。为了不让这个零点在评分时任意“飘移”（Floating），有必要对全体评分员进行培训，以统一评分的松紧度。

North的瑞士项目采取“看录像打分”的培训程序，值得借鉴。瑞士项目1994年做的主要是“口语及互动量表”（含写作），因此North的录像中录的是学生的口语表现，一个考官、两个水平相当的学生，共11个录像，不同录像里面的学生水平都不一样。North为每个录像编了一组描述语（5~7条），不同等级录像的描述语还有交叉的锚题（比如2题），这样全部录像里的描述语难度参数后续就可以直接等值。North要求参加描述语问卷调查的教师先浏览一遍描述语，再看录像，同时试着给每条描述语评一个临时分数，看完录像后，反复核对全部评分情况，看看是否都合适，个别学生成绩是否要修改。最后，确认自己的评分。

在此程序基础上，North提出两种解决教师评分松紧度的方法：①行为观察量表法（Behavior Observation Scales，BOS）：根据录像培训所得数据可以估计每个教师评分的松紧度参数，教师无需改变自己的评分习惯就可以开始评分。后续在估计每条描述语的难度参数时，计算模型会根据评分教师的松紧度对描述语的难度参数进行相应调整。②行为描述量表法（Behavior Summary Scales，BSS）：经过培训后的教师，把自己评分的松紧度主动调整到一个给定的“统一标准”上。显然，这里需要制定一个统一的评分标准。

很多研究都发现，BSS量表法行不通。因为师经过培训后，评分松紧度有的改了，有的改不了，更多的评分员可能是第一天改了，第二天、第三天又回到原来的习惯。因此，对于中国英语能力等级量表的评分松紧度问题，推荐用BOS量表法解决。

North的1994年瑞士项目只包括口语与互动，他大概认为作文与口语评分具有共通性，因此在培训评分松紧度时，只用了口语录像资料。但如果是听力和阅读描述语评分，松紧度问题又如何解决呢？是否教师的评分松紧度在口语录像培训上统一后，就可以自然地迁移到听力、阅读评分上去，还是松紧度本来就和量表类别关系不大？此外，评分员评分时常有“趋中”现象，这是否也需要有一个事后的统一调整呢？这些问题都有待进一步研究。

３

外语能力,测评体系(一)：英语词汇量测试量表

【英语词汇量测试量表】

本表是英语能力测评体系的一部分，用来测试学生的词汇量。词汇量测试共100道题，分为 6个级别词汇量的计算方法：Level 1答对的题目数×180 + Level 2答对的题目数×280 + Level 3答对的题目数×073 + Level 4答对的题目数×170 + Level 5答对的题目数×192 + Level 6答对的题目数×192=？

（注：为了确保测试结果真实对得起自己凡是不确定的词汇请选择E选项凭猜测的正确答案与真是词汇量无关系） Level 1

1. sure A.治疗 B.确信的 C.纯粹的 D.诱惑力 E.不认识 2. feather A.两者都不 B.天气 C.皮革 D.羽毛 E.不认识 3. poor A.贫穷的 B.门 C.地板 D.粗野的人 E.不认识 4. housework A.建房 B.工地 C.家务活 D.家庭作业 E.

不认识 5. bread A.面包 B.面条 C.水果 D.甜点 E.不认识 6. sugar A.糖 B.醋 C.雪茄烟 D.饥饿 E.不认识 7. onto A.到…之上 B.到…里 C.此外 D.依然 E.不认识 8. manager A.饲料槽 B.乘客 C.邮递员 D.负责人 E.不

认识 9. unit A.点 B.直到…才 C.单位 D.套装 E.不认识 10. ignore A.打鼾 B.忽视 C.点燃 D.可耻的 E.不认识 Level 2

11. financial A.最终的 B.财政的 C.结束 D.有限的 E.不

认识 12. immigrant A.移民 B.流动的 C.不流动的 D.留鸟 E.

不认识 13. roller A.酿酒厂 B.角色 C.冷却器 D.压路机 E.不认

识 14. ambition A.环境 B.救护车 C.雄心 D.歧义的 E.不认

识 15. hydrogen A.氦 B.氧 C.氢 D.氯 E.不认识 16. pine A.松树 B.葡萄酒 C.矿坑 D.进餐 E.不认识 17. surplus A.此外 B.超级的 C.惊喜的 D.剩余 E.不认识 18. fireman A.失业者 B.消防员 C.狙击手 D.纵火犯 E.

不认识 19. outset A.摆放 B.外接装置 C.开始 D.安置 E.不认识 20. confusion A.迷惑 B.传播 C.灌输 D.大量 E.不认识 Level 3

21. reliance A.义务 B.信赖 C.宽慰 D.遗迹 E.不认识 22. collide A.碰撞 B.巧合 C.滑行 D.滑翔 E.不认识

23. sniff A.僵直的 B.东西 C.全体员工 D.嗅…味道 E.不

认识 24. shaft A.工艺 B.草稿 C.箭杆 D.气味 E.不认识 25. cordial A.走廊 B.珊瑚 C.心脏的 D.真挚的 E.不认识 26. foul A.灵魂 B.污秽的 C.折叠 D.高尚的 E.不认识 27. idiot A.笨蛋 B.习语 C.闲混 D.偶像 E.不认识 28. inertia A.内部的 B.无活力 C.妨碍 D.间隔 E.不认识 29. stall A.安装 B.闲逛 C.凳子 D.畜栏 E.不认识 30. prone A.有倾向的 B.促进 C.宣布 D.敏捷的 E.不认

识 31. shabby A.阴暗的 B.松弛的 C.褴褛的 D.贪婪的 E.不

认识 32. exotic A.异国风味的 B.色情的 C.神经病的 D.外因

的 E.不认识 33. cumulative A.刺激性 B.同化 C.清晰的 D.累积的 E.

不认识 34. corpse A.庄稼 B.汇编 C.尸体 D.兵团 E.不认识 35. bishop A.平台 B.主教 C.鱼竿 D.商店 E.不认识 Level 4

36. explicit A.剥削的 B.驱逐的 C.明确的 D.附加的 E.不

认识 37. dynamite A.动力的 B.炸药 C.氢弹 D.王朝 E.不认识 38. idealist A.理想主义者 B.现实主义者 C.唯物论者 D.

虚无主义者 E.不认识 39. benevolent A.青少年 B.低下的 C.无知的 D.慈善的

E.不认识 40. downfall A.落后 B.垮台 C.谷底 D.市中心 E.不认识 41. extinct A.卓越的 B.不同的 C.明显的 D.灭绝的 E.不

认识 42. reptile A.两栖动物 B.爬行动物 C.哺乳动物 D.脊椎

动物 E.不认识 43. canteen A.食堂 B.瓦罐 C.糖果 D.腌制 E.不认识 44. hiker A.劫机犯 B.绑架者 C.徒步旅行者 D.登山者 E.

不认识 45. fragile A.易碎的 B.易怒的 C.坦诚的 D.狂乱的 E.不

认识 46. indefensible A.固若金汤的 B.不可原谅的 C.攻无不

克的 D.胸怀坦荡的 E.不认识 47. lime A.石灰 B.四肢 C.羔羊 D.羊肉 E.不认识 48. adventurous A.广告的 B.新兴的 C.喜欢冒险的 D.原

创的 E.不认识 49. drumstick A.鼓槌 B.指挥棒 C.支架 D.杠杆 E.不认

识

50. sway A.席卷 B.摇晃 C.膨胀 D.打旋 E.不认识 51. respectful A.受人尊敬的 B.表示尊敬的 C.各自的 D.

回顾的 E.不认识 52. alphabetical A.按年代顺序 B.断代的 C.逆序的 D.按

字母顺序 E.不认识 53. scalar A.标量 B.矢量 C.位图 D.矢量图 E.不认识 54. ruthless A.违法的 B.残忍的 C.虚幻的 D.混乱的 E.

不认识 55. paraphrase A.释义 B.比较 C.空头 D.跳伞 E.不认识 Level 5

56. ballast A.爆炸 B.虚夸 C.导火索 D.压舱物 E.不认识 57. corroborate A.搭配 B.合作 C.证实 D.详细说明 E.不

认识 58. scatterbrain A.失忆的人 B.脑残的人 C.脑力激荡 D.

注意力不集中的人 E.不认识 59. halter A.缰绳 B.制动装置 C.离合器 D.马蹄铁 E.不

认识 60. heinous A.不合理的 B.令人发指的 C.可笑的 D.荒

谬的 E.不认识 61. rearmament A.援军 B.解除武装 C.重置装备 D.后备

力量 E.不认识 62. trek A.艰辛的路程 B.轨道 C.踪迹 D.路线 E.不认识 63. rasp A.竖琴 B.匆忙 C.粗锉刀 D.皮疹 E.不认识 64. barrister A.律师 B.障碍 C.美发师 D.炮药桶 E.不认

识 65. testator A.测试人员 B.见证人 C.品酒师 D.立遗嘱的

人 E.不认识 66. sappendicitis A.糖尿病 B.阑尾炎 C.附录 D.肺炎 E.

不认识 67. quixotic A.顽固的 B.不实际的 C.愚忠的 D.势利的 E.

不认识 68. maniac A.疯狂的 B.冷静的 C.残忍的 D.忧郁的 E.不

认识 69. transposition A.运输 B.位置互换 C.传播 D.传染 E.

不认识 70. stamina A.疯狂 B.绝望 C.苦难 D.耐力 E.不认识 71. woe A.誓言 B.悲哀 C.愤怒 D.哭泣 E.不认识 72. prod A.调查 B.序言 C.有倾向的 D.戳、刺 E.不认识 73. arrears A.贫欠款 B.后方 C.空地 D.面积 E.不认识 74. forefront A.最前方 B.额头 C.前足 D.前景 E.不认识 75. malign A.雄性的 B.高大的 C.有害的 D.无知的 E.不

认识 Level 6

76. tauten A.淘气 B.拉紧 C.唆使 D.奚落 E.不认识 77. athletics A.抽象艺术 B.神学 C.美学 D.体育运动 E.

不认识 78. volubility A.自愿 B.环绕 C.喋喋不休 D.旋转 E.不认

识 79. fosse A.苔藓 B.护城河 C.浮渣 D.总的 E.不认识 80. decorticate A.装饰 B.煎药 C.漂泊 D.剥皮 E.不认识 81. permissive A.纵容的 B.迷失的 C.思念的 D.长久的

E.不认识 82. crochet A.蟋蟀 B.蚂蚱 C.钩针编制 D.螳螂 E.不认

识 83. purblind A.漩涡的 B.愚钝的 C.流动的 D.默默的 E.

不认识 84. remonstrance A.抗议 B.回忆 C.传奇 D.汇款 E.不认

识 85. decrepit A.堕落的 B.收到 C.欺骗 D.破旧的 E.不认

识 86. outmaneuver A.失控 B.以计谋胜过 C.操作失误 D.

退出 E.不认识 87. tepefy A.使微热 B.为…典型 C.磁化 D.使钝化 E.不

认识 88. apocrypha A.佛典 B.箴言 C.伪经 D.咒语 E.不认识 89. ringlet A.耳环 B.卷发 C.耳坠 D.耳垂儿 E.不认识 90. disinclined A.不屈的 B.执着的 C.虚伪的 D.不情愿

的 E.不认识 91. nethermost A.恒温的 B.最下面的 C.热固性 D.冷血

的 E.不认识 92. sibilant A.姐妹的 B.四肢的 C.齐名的 D.发滋滋声的

E.不认识 93. sheathe A.讲…差入鞘 B.犀牛皮 C.坚固的 D.坏死

的 E.不认识 94. eugenic A.优生的 B.遗传的 C.引起过敏的 D.卤素的

E.不认识 95. lien A.外星的 B.扣押权 C.亚麻布 D.逗留 E.不认识 96. invective A.无礼 B.忤逆 C.刺激 D.咒骂 E.不认识 97. liberated A.手工的 B.危险的 C.放纵的 D.上方的 E.

不认识 98. precipitation A.沉淀物 B.预期 C.预防 D.占据 E.不

认识 99. innovation A.原始的 B.主动的 C.革新的 D.刺激性

的 E.不认识 100. wrack A.残骸 B.没用的人 C.愤怒的 D.海藻 E.不认

识

答案Keys：

001—010 B D A C A AA D C B 011—020 B A D C

本文来源：http://www.gbppp.com/jy/364445/

推荐访问:国家外语能力测评体系国家外语能力体系

推荐阅读文章:

外语能力,测评体系

外语能力,测评体系(一)：朱正才：英语能力等级量表描述语量表化的可行性方案探讨

外语能力,测评体系(一)：英语词汇量测试量表

最新文章

热门文章