中国教育政策评论:2019:2019

产品详情

内容简介

《中国教育政策评论》每年一辑，是由袁振国编，以评论我国教育政策热点及难点问题为主要内容的刊物，在教育决策、教育研究以及教育实践领域产生了广泛而深远的影响，已连续被确立为CSSCI核心来源集刊。本辑主要对大规模测量与评估研究作了专门探讨。

Chapter 1 敬畏大规模评估的力量：什么是不能测量的Chapter 2 义务教育结果不均等程度及其影响因素分析——基于东部某省大规模测评数据的实证研究Chapter 3 随迁子女是否实现了教育机会均等Chapter 4 “新机制”政策对东部农村县级教育经费支出的影响——基于双重差分和三重差分的实证研究Chapter 5 有条件的现金转移支付资助项目对贫困学生社会信任的影响研究Chapter 6 我国的基础教育吗——基于比较的视角Chapter 7 教师能动：内涵、维度与测量Chapter 8 中小学教研员专业素养：发展与提升路径——基于自评和他评数据的分析验证Chapter 9 城乡教师交流如何能乡村教师质量提升——基于多重中介效应的实证研究Chapter 10 中小学教师远程培训满意度实证研究Chapter 11 父母参与方式和程度如何影响子女的学业表现——子女自我教育期望和父母教育期望的中介作用Chapter 12 家长视角下的北京市基础教育：成绩、问题及建议——基于连续十年教育满意度调查结果的分析Chapter 13 中国四省市学生校园欺凌的现状及策略——来自PISA 2018的证据Chapter 14 上海市中小学学业质量绿色指标综合评价的十六年探索Chapter 15 以学为本的大学课程教学质量评价研究Chapter 16 高校综合评价录取方式的问题研究——基于2015—2019年两所高校招生录取结果的分析附：《中国教育政策评论》简介及投稿须知

摘要与插图

敬畏大规模评估的力量：什么是不能测量的

袁振国赵勇

摘要： 2019年12月，经济合作与发展组织（Organization for Economic Co-operation and Development，简称OECD）公布了2018年学生评估项目（Programme for International Student Assessment，简称PISA）成绩。中国（北京、上海、江苏、浙江）在阅读素养、数学素养、科学素养三项测试中均位列世界。在看到中国基础教育成的同时，我们也应关注大规模评估（Large Scale Assessment，简称LSA）的种种作用与影响。2018年10月华东师范大学举办首届教育先锋论坛，论坛的主题是“大规模评估：问题与前景”。与会括哈佛大学（Harvard University）的理查德·埃尔莫尔（Richard Elmore）教授、康涅狄格大学（University of Connecticut）的罗纳德·贝格托（Ronald Beghetto）教授、普渡大学（Purdue University）的张华华教授、华东师范大学的袁振国教授以及堪萨斯大学（University of Kansas）的赵勇教授等。论坛的目的不是讨论LSA的技术问题或对其作出评价，而是讨论LSA的使用（或滥用）、LSA在教育中的作用，以及从哲学层面讨论在教育领域中用LS行评估的可能与局限。换言之，我们更感兴趣的是讨论LSA不能做什么，而不是它能做什么。我们更关注LSA对教育的负面影响，而不是积极影响。

关键词：经济合作与发展组织；学生评估项目；大规模评估

世界各地的教育系统都面临着技术变革带来的挑战。越来越多的人认为，教育需要改变，以培养适合未来的人才。大规模评估（LSA）已被作为推动变革的有力工具。例如，在美国，《不让一个孩子掉队法案》（No Child Left Behind Act）将LSA作为一项主要的政策工具，试图让学校和教育工作者对缩小学业成的差距负责。中国在过去几十年中一直努力开展高考改革以教育变革括减轻学业压力，培养多元化和创新型人才。韩国利用LSA对大学招生作出了重大改革，目的是减轻教育压力一步培养21世纪所需的人才。影响力巨大的学术能力评估测试（Scholastic Assessment Test，简称SAT）对试行了修改。PISA也计划扩大其业务范围，将新增对5岁儿童的评估，即幼儿PISA，以及对创造力、合作力和全球竞争力的评估。各国也越来越有兴趣开展21世纪技能或软技能评估，如创业思维、创造力、合作能力、成长思维等。因此，研究LSA的潜在负面影响是重要的。

一、大规模评估的力量

LSA在教育方面具有巨大的力量。用于比较的LSA（如PISA）会影响教育政策和教育实践，引发媒体的关注，给政治家和教育施加压力，并激起全球公众的情绪。用于问责的LSA，如美国各州的问责评价制度，广受公众和媒体的关注，决定着课程和教学，改变着教育者的生活括将一些人监狱），并影响着学校的命运。用于筛选学生的LSA，如中国的高考，每年决定着数百万青年的命运，决定着校内外的教学内容，并形成了一种教育文化。

LSA的力量源自许多方面。首先，正如已故的哈佛大学生物学家和科学历史学家斯蒂芬·杰伊·古尔德（Stephen Jay Gould）所指出的，人类倾向于“将抽象概念转化为实体”。评估本质上是一种将诸如心智能力、创造力等抽象概念转化为有形东西的方法。一旦转化完成，这种“有形的东西”也变成抽象概念。因此，智商被认为是一个人心智能力的发展。

其次，正如古尔德所指出的那样，人类“倾向将复杂的问题简化为一种逐级递增的排序”。简单来说，我们喜欢排名。我是想要根据排名对行分类，了解谁更好以及谁更糟糕，并以此为依据给予他们不同的命运。为了排名，我们需要一个工具来将复杂的变化简化为一个简单的数字。同样，这个数字一旦产生，无论它代表了什么，都会被认定为一个有效评价指标。然后，人们被告知必须接受排名。

再次，除了以上两点之外，LSA在物质方面也产生了重大影响。它被用于定义和判断未来取得的能力。判断还会被用于分配资源和机会。例如，被的学校录取，这被认为可以带来更好的工作和生活，因此学生努力在大学入学考试中取得好成绩。

LSA还被用于判断教师和学校，评判教师和学校帮助学生获得未来的能力。这种判断作为对教师的声誉、薪酬或工作条件加以奖惩的基础。因此，教师尽其所能地帮助学生在LSA中取得好成绩。这种判断也传递给负责整个教育系统质量的政治家和官员，因此政治家和官员也会受到LSA的影响。

二、大规模评估对社会的影响

人们从心理上将LSA视为衡量能力的有效标准，同时，LSA对社会产生的物质和政治影响，使LSA成为塑造人类社会有力的工具。这种塑造主要通过两种方式来实现：首先，LSA对儿童的教育经历产生重大影响，因为它引导着社会中教育资源的消耗，引导学生、教师、家长和政治家将精力、时间和金钱集中在测试的内容上。因此，课程被窄化为测试的内容。教学和学注重测试的内容，而未经测试的内容被排除在外。今天学校的学生是明天社会的公民和。因此，他们今天在学校的经历会影响人类社会，决定着社会将来会有什么样的公民。

其次，LSA决定培养什么样的人才，以及哪些人才将被压抑或者任其自生自灭。每个人具有各种不同的能力，在不同的领域有各自的优势和劣势。尽管各种类型的人才都是有价值的，社会繁荣依赖多元化的人才，但LSA只能测量有限的几种能力。因此，恰好在LSA领域具有优势的人可以获得更多的资源和机会，并在社会中变得更有价值，而拥有的才能不在测量之列的人则会被视为失败者，从而被压制或忽视。用LSA评估儿童，其结果通常直接或间接地影响他们将获得的教育机会。例如，有些孩子可能被安排到课外补提高阅读技能，因为LSA表明他们不像其他孩子那样精通阅读。结果，这些孩子失去了体验其他可能的时间和机会，如数学、艺术、音乐或体育，这意味着他们可能无法挖掘并发展这些方面的天赋和热情。此外，一些儿童在资源充足的学校读，其他儿童因考试成绩不理想而无法获得资源，这意味着一些儿童在很小的时候注定是失败者了。

因此，LSA在人才方面决定了社会公民的构成质。例如，中国古代的科举考试，是老的LSA之一，这导致形成一个由学者型官员的社会，他们是植根于儒家传统的文学专家，而在技术、科学等其他领域有才能的人在很大程度上被忽视了。这导致严重的后果，中国古代缺乏启动工业的人才储备，尽管在经济条件上我们先于英200年已经具备开启工业的条件。

三、敬畏大规模评估的力量

伴随力量的是巨大的责任。力量可以同时具有建设和破坏。LSA可以带来理想的结果，也会造成巨大的伤害。因此，应该谨慎和负责任地对待LSA在教育中的应用问题。

要负责任地使用LSA，我们需要把LSA无法测量的内容放在心上。LSA的量使其对教育产生了巨大的影响，它们测量的内容对政策制定者、教育工作者、学生、家长和公众都很重要，但是LSA有很多无法测量的东西。即使没有压制或拒绝，LSA不能衡量的东西也往往被忽视。对社会和个人而言，未测量的东西可能更为重要。

，LSA无法测量它们无意测量的内容。这个看似显而易见的事实在教育中经常被忽略。尽管LSA（即使是效的LSA）只测量它们被设计用来测量的东西，但得出的结果往往被过度泛化。例如，PISA的结果已被扩大化以反映教育系统的质量，尽管它们只是反映了不同系统中15岁儿童在数学、阅读和科学的PISA评估中的表现。大学入学考试（如中国的高考和美国的SAT）的结果被解释为一个人是否入大学做好了准备，尽管大学的入学准备内容不仅括考试成绩。结果研究发现，LSA的评估并不能有效预测大学阶段的学业表现。

，LSA无法测量未知的内容，只能衡量已知的内容。因此，LSA不可能为未知结构设计测试。例如，在发现智力的构成之前无法测量智力。在“创造力”这个概念还未被提出之前，我们无法测量创造力。在“全球竞争力”概念出现之前，我们无法衡量全球竞争力。教育中当然还存在一些尚未被发现或尚未被开发出的概念可能比已知概念更重要的情况。研究表明，我们测量的内容无法预测个人和社会的与否，还有一些其他因素在起作用。

第三，LSA无法测量例外情况。丹麦诺贝尔奖得主物理学家尼尔斯·玻尔（Niels Bohr）指出了测量的本质：测量的实体不能脱离测量的工具。换句话说，“数学能力，实际上任何能力，都不是个人的内在属，而是个人和测量工具的共同特”。因此，即使在它们想要测量的领域内，LSA也只能在设计的限度内测量能力，无法测量超出这一范围的能力。例如，一名参加三年级数学考试的数学家可以得到满分，但他的数学能力肯定超过那个同样得到满分的三年级学生。如果爱因（Einstein）参加高中物理考试，他的成绩也只能是满分，但我们不能说他在物理学方面的能力与同样获得满分的高中生一样。

第四，LSA无法测量动态的、流动的、不明确的和依赖情境的内容。LSA也许能够评估相对稳定且被明确定义的能力，但许多能力是不明确的、流动的、动态的和依赖情境的。例如，创造力、批判思维、沟通能力、全球竞争力、企业家精神以及许多其他的21世纪技能都是不明确的，因为它们都有不同的定义。同时它们也动态化，因为它们会根据个人和情境发生很大变化。例如，在某个领域可能具有创造，但在其他领域则不具备创造。它们通常也受背景和文化的约束。例如，在某种背景下被认为富有创造力的表现可能在其他背景下并非如此，在某些文化中被认为是有效的沟通技能可能在其他文化中被认为是无效的，甚会产生相反效果。

第五，LSA无法衡量个体的。LSA常常被用来测量一群个体的某些能力，只能判断个人能力的某些方面，而无论我们开发了多少个LSA，都无法评估能力的所有方面。此外，个人的能力是能力、个和兴趣的组合。换句话说，能力并不是不同要素的简单叠加。例如，一个人获得大学的能力并不是他在数学、语言、科学、创造力和个方面的简单相加，每个人都有综合的能力特征。

LSA并不会消失。我们需要记住：可以计算的也许并不重要，重要的可能并未被计算。