“更高水平的人才培养体系”需要怎样的质量评价观?——基于排行性评价视角的哲学省思
为庆祝我司取得国家级高新技术企业资质证书及国家级科技型中小企业资质证书,现将我司自主研发的专业认证辅 助系统--OBE教学设计与形成性评价系统,永久免费开放给各位高校教师使用,请点击以下链接进入。
内容提要:最近十年,有关高等教育质量的各种排行性评价层出不穷,引发了诸多争议。排行榜作为全球高等教育质量评价一个重要的热门指标,既有其便捷合理的一面,存在的问题同样显而易见。在哲学方法论上,有关高等教育质量评价的种种论争深受具有自然主义倾向的实证主义与具有人文主义倾向的反实证思潮的影响。20 世纪中期西方世界著名的“两种文化”的交锋就基本反映出这两种学术文化的强烈互动。要正确认识并引导好高等教育评价的导向问题,最终还需要深入了解高等教育的基本功能与核心理念,研究和理解现代大学有关知识的创新、传播与转移之间的本质关系,掌握现代研究型大学中“科研-教学-学习联结体”双螺旋群体的作用机制,并借此契机探索构建合乎中国国情学情的科学的高等教育质量评价和更高水平的人才培养体系。
关键词:高等教育质量评价;科研-教学-学习连接体;双螺旋群体;人才培养体系
习近平总书记在全国教育大会讲话中指出,要深化教育体制改革,健全立德树人落实机制,扭转不科学的教育评价导向,坚决克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾,从根本上解决教育评价指挥棒问题。在 2018 年五四青年节和北京大学建校 120 周年校庆日即将来临之际,他到北京大学考察并发表重要讲话指出,人才培养体系必须立足于培养什么人、怎样培养人这个根本问题来建设,可以借鉴国外有益做法,但必须扎根中国大地办大学,形成更高水平的人才培养体系。2018 年 8 月,教育部、财政部、国家发展改革委员会联合发布了《关于高等学校加快“双一流”建设的指导意见》,将人才培养确定为“双一流”建设的根本任务,明确提出加强建设过程的指导督导,探索建立并完善中国特色“双一流”建设的综合评价体系。由此可见,正确认识和引导高等教育评价导向问题,以便“形成更高水平的人才培养体系”已经成为我国高校“双一流”建设中迫在眉睫的重大战略问题。
一般来说,广义的高等教育质量评价包括专业评估、学科评估、特色评价、质量认证等,又大致可以分为专业性评价(同行评议)、行政性评价(水平评估)、社会性评价(第三方、排行榜)等类型。最近十年,有关高等教育质量测度的排行性评价层出不穷,尤其是在当下“双一流”建设语境下,多种多样的大学排行榜不断拨动着社会的敏感神经。其中,美国新闻与世界报道(U.S.News)、夸夸雷利·西蒙兹公司(QS)、泰晤士报高等教育(THE)和上海软科教育信息咨询有限公司(ARWU)四大知名大学排名机构发布的最新年度世界大学排名,部分重点高校排名的跌宕起伏常常引发热议。追捧者赞扬其系统 的评价指标与透明的统计数据表明高校办学质量可以相互比较,且确有高下之分;质疑者认为排行榜依赖的评价指标不严肃、不科学,以偏概全,在短期内助长了唯论文、唯高引用率(高被引率)的风气,且导致大学办学趋向一致性和同质化,抑制了多元化与特色化。这表明,作为全球高等教育质量评价一个重要的热门指标,排行榜在提升一流大学综合影响力的同时,也引发了各利益相关者的激烈论争。
一、排行性评价的种类、哲学基础及其局限性
高等教育质量测度因其自身的复杂性和高难度,在国际学术界一直未曾达成一致意见(李子联,魏畅,2018)。复杂性体现在依据不同的质量观,评价指标的选择与侧重点不同;高难度体现在质量评价既可以是客观标准,也可以是主观标准。高等教育基本职能包括人才培养、知识创新和服务社会三大功能,通行的质量评价标准基本也是以教学、科研和社会服务作为其核心指标。当然,不同层次不同类别的高校在三大基本功能的定位上有所侧重,而目前国内主流声音一般认定人才培养(立德树人)是高等教育的根本职能,因为人才培养这一根本目的决定着大学同其他社会机构、社会组织之间的根本区别(吴康宁,2017);在高教界甚至一些官方话语体系里,现代高校的首要功能也由“教育教学”的概念变换为“人才培养”的概念(袁靖宇,2019)。这一基本认知也会强烈地体现在官方组织的高等教育评估与各种大学排行性评价及其指标体系设计中。
(一)排行性评价的基本种类及其异同点
据统计,目前全球影响较大的大学排名组织约有 45 家之多(刘念才等,2009,第 6 页)。尽管各大机构对中国高校进行排名时都基于高等教育的教学、科研和社会服务三大基本功能,但由于其所考察的侧重点不同,指标和赋权的不同,因此评价结果经常会出现一定的差异。
就国内有关高等教育质量的社会性评价而言,中国的大学排行性评价已经走过了近 30 年的发展历史,例如教育部教育质量评估中心会同部分机构发布的《中国高等教育质量报告》、中国大学评价课题组、中国校友会网、最好大学网、网大网等都分别从高等教育的核心内涵着手,构建了包括人才培养、科学研究、社会满意等维度的综合评估体系,对中国高校的综合实力进行了排名,其发布的排行榜尽管会因为数据来源的可靠性、指标体系整体设置的科学性等方面不可避免地引发种种是非争论,但同时却也不可否认地带来了广泛而深远的社会影响。
就国际有关高等教育质量的社会性评价而言,影响较大的主要是四大机构发布的排名榜,包括美国新闻与世界报道(U.S.News)、夸夸雷利·西蒙兹公司(QS)、泰晤士报高等教育(THE)和上海软科教育信息咨询有限公司(ARWU)。U.S.News 自 1983 年以来对美国大学及其院系排名,是全美最早、最有影响力的大学排名机构。受全球化影响,2009 年开始公布全球前 200 的大学排名,2014 年开始扩展到前 500 所。它依据卡内基教学促进基金会高等学校分类法对大学进行分类,对同类大学进行对比,选取学术声誉、出版物、学术会议、标准化论文影响力等 12 项主要指标,为世界各地学生和家长选择大学提供参考数据,帮助他们在全球范围内选择理想的大学。QS 于 2004 年开始独立发布世界大学排名,侧重同行评议、雇主评价两个主观性指标,所占比重高达 50%,是唯一获得联合国教科文组织大学排名国际专家组(IRCG)认证的世界大学排行榜,主要倾向于为学生提供选择大学的资讯和一定程度的就业指导。THE 于 2004-2009 年出版世界大学排名,降低了同行评议权重,新增工业收入一级指标,为学生选择大学提供一份备选名单。ARWU 于 2003 年首次独立研究发布大学排行榜,以国际可比的科研成果和学术绩效作为主要指标,侧重于大学的学术地位排名,最初目的是希望在全球范围内定位中国大学位置,找出与世界一流大学的差距,引导政府和高校制定科学的政策方针。尽管这四大世界大学排名榜的评价标准不同,侧重点存在差异,但其一级指标均涉及教学、师资、科研、声誉、收入、国际化六个维度,采用可验证的客观数据,以国际可比的科研成果和学术表现为主要指标,而且都同时把科研能力作为一级指标,反映了科研在全球知识经济背景下的核心地位(邱均平,董西露,2018)。显然,这四大排行榜反映的是世界一流研究型大学的卓越状况及其显著特征。这种排名也是科学技术与知识创新体系在全球化竞争格局中地位显赫的一种重要表征,它借助量化的指标评价各国顶尖大学的办学质量,被认为是比较世界各国高等教育绩效和生产力的一种非常重要的形式。
(二)排行性评价需要直面自然主义与人文主义的双重拷问
实证主义与反实证主义作为西方哲学史上的重要思潮,不仅深刻影响到哲学社会科学自身的发展及其研究方法论,同样会辐射到高等教育系统中与自然学科、社会学科、人文学科等相关学科序列的组建、发展与评价问题。实证主义哲学强调感觉经验,排斥形而上学传统,产生于 19 世纪 30—40 年代的法国和英国,其形成标志就是 1830 年出版的孔德《实证主义教程》。其中,19 世纪以孔德为代表的实证主义称为老实证主义;20 世纪与罗素、怀特海的基础数学相结合的维也纳逻辑实证主义,称为新实证主义。
既然存在实证主义哲学思潮,必然会产生反实证主义流派。反实证主义是 19 世纪末至 20 世纪初在欧洲大陆兴起的一种与实证主义相对立的主观主义思潮。自然科学的迅速发展推动着有关人自身的生理心理研究的长足进展和大量的新发现,这些研究成果开始打破科学中的机械决定论模式,助长了自然科学中的某些唯心主义倾向。它反对实证主义从自然科学中寻找可以运用于人文科学和社会科学的方法,提出要从个人的、主观的动机或体验的认识中寻找认识社会的方法,从而形成了反实证主义的主观主义哲学思潮,包括新康德主义、法兰克福学派、现象学学派等理论。
高等教育质量评价在哲学基础和方法论上既深受孔德实证主义“唯实证的知识才是科学知识”思维的支配,还受到了高等教育理性主义与工具主义哲学的深刻影响。实证主义偏重主观经验现象的客观事实,具有自然主义倾向。这种思想伴随着 17 世纪科学革命时期物理学、生物学、化学等自然科学的快速发展,逐渐渗透并有成为人文社会科学研究主流方法论的趋势。实证主义者强调一切科学知识建立在经验事实的基础上,自然科学和人文社会科学的研究对象之间不存在本质性差别,自然科学研究方法同样可以应用于人文社会科学。因此,排行性评价就是实证主义者极力主张将大学之间的可比信息进行整理,以一种直观透明的方法向外界展现出来,在一定程度上满足不同利益相关者了解相关大学各种信息的需求。事实上,大部分高等教育质量评价就是通过基于自身三大基本功能,构建可量化、可操作的评价指标体系,收集各种主客观数据,对大学状况进行综合性或排行性评价。
反实证主义者明确反对把自然科学的方法运用于人文社会科学研究,认为人文社会科学必须基于个人的、主观的动机或体验来寻找认识社会的方法。20 世纪中期西方世界著名的所谓“两种文化”甚至是“三种文化”之间持续了很 长一段时间的激烈论争基本就是两类学术文化的反动 ①。反实证主义思潮偏重于构成主观经验现象的内在因素方面,具有人文主义倾向,构成了高等教育哲学中的存在主义立场。存在主义者认为,在高等教育质量的评价领域,大学系统面临诸多复杂的无法比较的情境。一所大学的办学理念、特色模式、人才培养过程、社会满意度、师生关系等诸多主观指标都是极为重要的评估维度,其中蕴藏着许多难以评价的隐性因素。人才培养过程中的教学过程中,面对的学生不同,教师选择的教学内容、方法和过程可能就有所不同,这需要师生之间的不断调适,才能出现教师创造性的教学,学生创造性的学习,这样才能尽量让“高深学问”在学生身上产生化学反应,萌生出对知识本身不断追问的个性化教学、师生面对面的互动。这种微观的教学过程与人才成长经验无论如何是无法计量的,无法科学地纳入所谓唯实证的客观数据排行指标中的。
(三)被过度寄予厚望的专业性评价与同行评议制度
现代大学的发展无疑需要接受社会各界的评价,同样需要承受得起多种多样的评价,关键是必须理解并尊重高等教育的基本功能和特殊规律,还必须对各种质量评价活动本身的局限性了然于胸。在各种各样的大学评价中,形式越来越多的社会性评价尽管体现了作为第三方的广泛民意,社会影响很大,有利于引导大学及其管理机构对社会需求做出愈加积极的、及时的反应,但又常常被专业人士批评具有强烈的功利性和目的性,其评价指标体系被认为存在极大的局限性和风险性,因而难以得到学术界和政府管理机构的高度认可。
行政性评价在各种评价中无疑具有非常特殊的地位,因为它一般是由政府机构或上级管理部门组织的高等教育质量评价,具有声望巨大、权威性高、导向性强等特点。由于该类评价的过程与结果往往与政府及其相关机构所管控的各类建设工程(如“211 工程”“985 工程”等)完全勾连,且和院校资源配置、声望高低、规模等级紧密相关,所以几乎是所有高等院校最为看重的一种质量评价形式。其具体类别大致包括了现在流行的督导督察、院校评估、专业评估、学科评估、质量认证等,比如当前的“双一流”建设评估。行政性评价由于把评估结果与资源配置紧密联系在一起,就难免涉及如何处理好公平与效率、资源高度垄断、非均衡发展、管理行政僵化、院校阶层固化等多种尖锐的矛盾与困境(郭伟,张男星,2019)。
相对于上述排行性与行政性两类评价,专业性评价无疑最受业内人士推崇。一般常常被引用的经典说法是“因为高深的学问处于社会公众的视野之外,在如何对待学问上遇到的问题方面,公众就难以评判学者是否在诚恳公正地对待公众的利益。基于学者是高深学问的看护人这一事实,人们可以逻辑地推出他们也是他们自己的伦理道德准则的监护人”(布鲁贝克,2002,第 121 页)。也就是说,只有真正的学科同行和相关专业管理人员才最有资格去评价尖端的前沿的科学研究的价值以及一所大学办学质量的好坏高低。
然而,专业性评价实际上还是最复杂的一种评价机制。至少,我们容易忽略的地方就是,一套程序相对完整的专业性评价必须基于相对成熟的学术共同体及其可以依存的环境和土壤。在西方学术界,专业性评价最典型的制度形式就是现在人们耳熟能详的同行评议(Peer Review)制度。英国同行评议调查组曾经在一份咨询报告中认为,同行评议就是“由从事该领域或接近该领域的专家来评定一项研究工作的学术水平或重要性的一种方法”(NSFC 政策局,1992,第 17 页)。由此推断,学术界公认的同行评议大概就是指利用若干同行的知识和智慧,按照一定的评价准则,对科学问题或科学成果的潜在价值或现有价值进行评价,或对采取某种方法来解决特定问题的科学性及可行性给出判断的过程。同行评议的具体操作由来已久,使用形式多种多样,最早始于 15 世纪欧洲专利申请的查新。17 世纪中叶,英国皇家学会刊物在创刊时期开始采用同行评议制度作为一种重要参照,系统评审可以公开发表的科学论文。20 世纪中叶以后,同行评议制度被正式确认为科技期刊出版的基石,它成为后来数量快速增长的科技期刊出版质量保障的重要条件。20 世纪 50 年代初,美国国家科学基金会(NSF)采用同行评议评审科研项目,以决定是否予以资助,首开同行评议在科研管理中应用的先河(郭碧坚,韩宇,1994)。大致而言,同内外采用同行评议的基本方法包括专家小组(或委员会)同行评议、通信同行评议、现场同行评议等,具体的操作形式则可以根据作者与评议人之间相互了解的程度大致分为单隐、双隐、公开三种评议方式。一是单隐(Single-Blind Review),即单向隐匿,指只有评议人知道作者的信息;二是双隐(Double-Blind Review)即双向隐匿或盲评,指作者和评议人彼此不知道对方是谁;三是公开评议(Open Review),即作者与评议人彼此知道对方信息。
到了 20 世纪 80 年代,西方学术界开始在传统的同行评议与以论文为主的数量评价之间徘徊,激烈争论是否以论文引文数量评价来取代同行评议。譬如,意大利曾力主利用文献计量学方法,但受到学术界的普遍诟病而被迫取消;法国运用同行评议方法,但因工作量太大而改为“独立、便于操作、程序简单并具有合理科学性及透明度”的方法;德国科学委员会则以同行评议为主,文献计量数据提供给专家同行参考,评价的目的不是分配资源,而是找出研究不足之处;英国于 2014 年 12 月以国际同行评议为主对全国 154 所大学的科研质量进行评价,目的就是为了更加有效地配置科研经费和其他资源。2012 年 12 月美国细胞生物学学会年会期间,一些学术期刊的编辑和出版者提出反思科研评价问题,在此基础上形成了“旧金山宣言”,呼吁停止使用期刊影响因子等期刊计量指标作为替代指标来评价单个研究论文或学者个体的贡献,或是作为聘用、晋升、资助等方面的依据。2013 年 5 月,共计 78 个科学组织的 155 位科学家签署了这份宣言;2015 年 3 月,由欧洲 21 个最知名的大学组成的欧洲研究型大学联盟声明支持该宣言(李立国,2019)。2014 年,在荷兰莱顿召开的一次国际会议上,美国佐治亚理工学院教授西格斯(Diana Hicks)等提出了合理利用科学评价指标的七条原则,后来扩充为十条,并于 2015 年 4 月 22 日发表在《自然》杂志上,被称为“莱顿宣言”。该宣言强调指出,量化指标只是辅助性的,同行评议的质性评价应是第一位、主导性的;不是要取消量化评价,而是克服量化评价的不足,并与质化评价有机结合;同行评议虽在公平性、透明性以及成本方面有其不足,但由于其针对性、专业性强,误判率较低,在缺乏跨领域、全范围评价体系的情况下,目前还没有能替代同行评议作用的指标体系(张凯,刘英杰,2016)。近些年来,由于知识和信息的爆炸性增长,学科的整合或分化,专业的重组或细分,交叉学科或融合专业的兴起,以及各个学科研究范式与基础理论体系快速的发展更新,导致学术共同体短时间内分化组合成为常态,专家队伍遴选局限性的暴露,专业性评价及其同行评议遇到了愈来愈多的挑战与困境,跨界性评价与多元评价方式迅速成为高等教育质量评价的可能选项。
高等教育质量的专业性评价在最近若干年来一直遭遇到了许多全新的难题和困惑。比如,因为今天的高深学问在价值自由、学术中立和遵循客观性方面,已经和从前的情况相距甚远,正日渐一日地卷入到市场经济、社会舆情、政府政治的广阔舞台,高等教育管理与评价机构越来越趋向于由同行专家与高校外、院系外或学科外其他人士共同或混搭而成,这样的学术治理体制与内外共同监管的情况看似存在一定的局限,实际上却能使院校在发展过程中尽量避免信息的失真失灵和决策的狭隘僵化,使大学的日常运作在社会实际环境中更加准确高效。而且,全球各国高等教育系统的权力中心确确实实已经从大学内部转到大学外部,从学术界转到公共领域,从大学历史上的特权和豁免权地位转到承担义务和责任的地位(布鲁贝克,2002,第 33 页)。这其中就包括了诸如同行评议、第三方评价等,因为关涉各个利益相关者的重大利益问题,政府和公众已经很难做到完全相信学术机构能够自己公正地审定和评价自身的质量保障与责任承诺。这实际涉及一个由来已久的难题:“谁来监管监管人呢?”甚至人们还发现,与其任命一个更高级别的监管人或监管机构来管控或问责高等教育,还不如在高校内外维持一种不稳定的平衡关系,反而可能成为维持高等教育质量保障和责任承诺中比较受到各方欢迎的一种可靠方式。
高等教育的快速扩张与数量繁荣必然具体表现为科研成果与论文数量的极大繁荣和爆炸性增长,实质上体现出中国在推进社会现代化和教育现代化进程中对高深学问的生产、传播、交流、评价等方面的强烈渴望、需求和期待。这就迫切需要借鉴国际高等教育改革、发展与评价的先进经验,建设基于国际国内学术共同体的专业评价制度。但平心而论,相对于国际上现行的专业性评价和同行评议制度,我国目前的同行评议机制、风气和土壤还不够理想,制度也极不完善,还有很长一段路要走。并且如上所述,专业性评价也并非一般人理解的简单几个指标或数据,而是要深入高等教育功能与理念的最核心部件,这就需要我们深入研究和理解现代大学知识创新、传播的本质及其有关教学、学习的核心机制。
二、重新认识和理解现代大学的核心特征及其人才培养观
尽管伴随全球化与信息化时代的到来,世界高等教育的表现形态、发展进程与体系格局都发生了深刻的变化,但构成高等教育活动的深层内核与本质特征其实未曾真正发生太多的改变。在传统和现代的高等教育活动中,“高深学问”依然是一个最基本、最普遍的现实存在,是产学研教的基本内容,也是对高等教育现象的最高抽象,还是构成高等教育学本质的核心要素。高等教育系统就是大致围绕着何谓高深学问、由谁探求和传授高深学问、向谁传授高深学问等基本问题组成。