自今年三月份 OpenAI 发布 GPT-3.5 以来,至今已有半年时间。短短半年内,国内外科技公司纷纷效仿,于半年内陆续推出了通用大模型。除了像 BAT 这样势头强劲的老牌网络公司,大模型的垂直类端口也取得了革命性的突破。在其中,教育板块,由于其自身带有的各种属性,包括对于知识资源的需求,对于对话交际的依赖,与大模型的结合呈现出高度匹配性。
随着 AIGC 概念兴起,大模型赋能的智能学习硬件、AI 语言教学、AI 虚拟老师等产品也随之吸引了一关注。「大模型能否替代老师的职能」这一议题,掀起了各方热议。有人认为,
近日,各地 2023 年下半年教师资格考试落下帷幕。教师工作司司长任友群在 9 月 6 日教育部举行的新闻发布会上表示,教师资格考试和定期注册制度已全方面实行,教师资格考试报名人数由 17.2 万人次跃升至今年的 1144.2 万人次。
由此,笔者萌生了用教资试题这块「试金石」,测验大模型能否成为「教师的教师」的想法,并选取了科大讯飞的讯飞星火大模型、百度的文心一言以及阿里的通义千问这三个通用大模型进行检验。
根据考纲,教师资格笔试主要考核申请人从事教师职业所具备的的教育方法的理念、职业道德和教育法律和法规知识;科学文化素养和阅读理解、语言表达、逻辑推理和信息处理等基本能力;教育教学、学生指导和班级管理的基本知识;拟任教学科 (专业)领域的基本知识,教学设计、实施、评价的知识和方式,运用所学知识分析等。
本文选取了 2023 上半年教师资格证《幼儿综合素养》、《小学教育教学知识与能力》、《中学综合素养》的笔试真题。题目范围覆盖学科常识、逻辑判断、规范条例、综合素养等多个角度,力求从多维度比较衡量大模型答题能力。除了最基本的准确性之外,如果想让大模型「当老师」,其给出的回答也应该具备一定的逻辑性和知识补充作用。更有甚者,如果为了「追赶」真人教学效果,答题技巧也成了必要的一环。
图片顺序从上往下依次为科大讯飞的讯飞星火大模型、百度的文心一言以及阿里的通义千问。
1、在 Word 编辑状态,选择了文档全文,要在段落对线 磅的格式,下列选项中应选择的是( D )。
计算机办公软件应用常识题,三者都实现了正确作答。文心一言的回答对于 Word 行间距的知识点进行了补充。
3、中位数是一组统计数据中的代表性数值。在一次考试后采集到一组数据{ 54,66,87,74,78,81,73,83,77 },则这组数据的中位数是( C )。
均正确作答,讯飞星火对中位数概念进行了详细的补充,并和文心一言一同给出了作答过程。在诸多对于大模型的测评中,数学能力普遍成为国产大模型的薄弱项,即使是最先进的大语言模型也难以正确地回答大量数学问题。本题因为教资学科常识题,题面设置简单,而面对实际生活中或者数学竞赛题中众多的「弯弯绕绕」,还是要警惕大模型产生的「幻觉」。
4、在组织活动教学幼儿认识图形时,李老师说:「请小朋友找出活动室里有圆形和正方形的物品」,李老师的做法体现的幼儿教育的特点是( D )。
均作答准确,文心一言表现更突出。讯飞星火仅给出答案,而通义千问的答案更像把题目复述了一遍,文心一言则对于相关规范以及作答模板呈现出了一定的专业性,在提供答案的同时起到了知识点补足的作用。
作答均正确,文心一言在答题的基础上对每个选项进行了详尽的说明,包括对于「交叉关系」、「种属关系」和「并列关系」专业名词的解释。
6、「 10 以内的数字」一课教学结束时,为巩固所学内容,李老师让学生诵读儿歌:「1 像铅笔细长条, 2 像小鸭水上漂,3 像耳朵听声音, 4 像小旗迎风飘......」这种结课方式属于( C )。
讯飞星火作答错误,并没有给出具体的解释。通义千问的回答还是存在着「复读机」的毛病。值得一提的是,笔者将本题归类到「逻辑判断」中,是由于学生真人在进行作答时,尽管可能没有对于相关知识点进行背诵,但仍旧能根据每个选项的字面阐发联想,进而推理得到正确答案。而大模型进行作答时,尽管也体现了一定的逻辑判断能力,其根基还是由海量数据投喂而成,由此丧失了一定的灵活性。
7、明明的父母怠于履行监护者义务,让明明一直处在无人照顾的状态,根据《中华人民共和国未成年保护法》,当地民政部门应当采取的措施是( A )。
通义千问回答错误。其他两个大模型均引述了《中华人民共和国未成年保护法》条例,讯飞星火具体定位到了条例的第四十二条,而文心一言则对于此列举得更加全面,主体界定更加清晰,同时也指出了 C 混淆选项的错误。对于法院,可以依法撤销监护人的资格;对于民政部门,能够直接进行临时监护。
本部分选择了三道综合性题目,分别从教学观念、教育设计和师风引导方面分析大模型的作答能力。从总体的篇幅和结构能够准确的看出,大模型已经比较可以胜任长段落文字的输出,并且均体现了一定的答题技巧和结构,尤其是在「教学设计」一环节,表现得颇为出彩,环节详尽。
8、周老师组织「太阳当空照」教学活动时,阳阳举起手,大声地问:「老师,哪里有太阳,根本看不见啊!」周老师说:「看不见太阳?那太阳到哪里去了呢?」阳阳眨着眼睛,想了一会儿说:「我妈妈说了,太阳让乌云遮住了。」
9、如指导第二学段学生学习本文,试拟定教学目标,并设计第一课时教学活动并简要说明理由。
远看长城,它像一条长龙,在崇山峻岭之间蜿蜒盘旋。从东头的山海关到西头的嘉峪关,有一万三千多里。
长城修筑在八达岭上,高大坚固,是用巨大的石条和城砖筑成的城墙顶上像很宽的马路,五六匹马可以并行。城墙外沿有两米多高的垛子,垛子上有瞭望口和射口,每隔三百多米就有一座方形的城台,是屯兵的堡垒。打仗的时候,城台之间可以可以互相呼应。
想起古代建筑的劳动人民来,单看这数不清的石块,一块就有两三千斤重,那时候没有火车,汽车,没有起重机,就靠着无数的肩膀,无数的手,一步一步的抬上这陡峭的山岭。多少劳动人民的血汗和智慧,才凝结成这前不见头,后不见尾的万里长城。这样气魄雄伟的工程,在世界历史上是一个伟大的奇迹。
通义千问此题表现不佳,没有成功提炼出题干多段文本中的答题要求,而讯飞星火和文心一言均表现不错,课程环节设计体现出了一定的递进性。
10、初一时,晓斌经常逃课去网吧,还学会了抽烟,在学校,为了显示自己的「厉害」,他经常欺负其他同学,不遵守班级纪律,同学们对他避而远之,班主任说他「无药可救」,晓斌反驳说:「对啊,我没人管没人问的!我就是无药可救!不要你管!」
初二时,班主任换成了李老师,李老师一开学就认真了解班级每个同学的情况,给每个同学建立成长档案,通过跟班级同学和其他老师的交流,他发现晓斌「变坏」是从他父母离婚后开始的,李老师还发现,晓斌虽然有些坏毛病,但也有一些特长,比如他篮球打得好,曾经带领班级篮球队参加比赛获过奖,还喜欢做航模,李老师耐心与晓斌做沟通,让晓斌担任篮球队队长并领头组建航模社团。在班级里,李老师安排学习委员做他的同桌,在学习上给他提供帮助。随后,李老师主动联系晓斌的父母,反映晓斌的情况,想让他们给予晓斌更多关爱。在李老师耐心地帮助和引导下,晓斌逐渐转变了态度,学习成绩也不断提高。
三者回答格式基本正确,基本遵守了「定性+分段回答」的格式,而文心一言和通义千问的回答则彰显出了一定的技巧性,比如,将要点作为短句精华放置在每个段落的最前,从人工批阅的角度看更符合阅卷规律,而不是直接分析材料,轻易造成误差。
本次测评中,笔者选取了教资考试中的部分题目,选取了科大讯飞的讯飞星火大模型、百度的文心一言以及阿里的通义千文这三款国产大模型进行了一个比较粗糙的测评。题目范围覆盖学科常识、逻辑判断、规范条例、综合素养等多个角度,也是想从多重维度去考察大模型的真实能力。
仅从本次测评来看,文心一言的回答呈现出最高的准确性和规范性,更符合考生的需求。比如,除了提供正确答案之外,对于题目中所要考察的知识点也进行了补充和追溯,在综合大题中也注意到了一些考试技巧。当然,这一结果与训练数据库包含内容挂钩,所谓的「答题技巧」的呈现也存在偶然性,不能因此判断各个厂商是不是在训练过程中有意地引导。不过,这依然使得一些能够优化改进点的地方浮现出水面。
使用大模型进行题目作答,并非突发奇想,而是本在今年三月 GPT-3.5 出示之时,就有相关预测表示,大模型强大的文本生成能力能够使其成为教师进行备课和教案制作的好帮手,从而帮助老师们减负增效,更好地将精力投入到课堂教学中去。三月以来,已经有多家公司公开宣称已经将大模型运用到机构的教案编撰、绘本编写等环节中去,极大地加快了企业内容生产的流程,并压缩了其中的人力成本。
相信,如果在人工二次校对的基础上,使用国产大模型对于历年教资材料来梳理,其速度也将远远快于手工编写,并且还能形成一套对话系统帮生巩固知识点。我们已能从中看出各大国产大模型的进步以及长足的野心。在未来,期待各个国产大模型能够充分的发挥好技术特点,在正确性、规范性和个性化上不断取得突破,长效赋能未来教育。