在市教委指导和市科委支持下,北京师范大学智能技术与教育应用教育部工程研究中心联合北京教育科学研究院和北京智源人工智能研究院共建“北极星”基础教育大模型评测场(www.bnueval.com),“北极星”评测场具备紧扣新课标、聚焦教育应用、多学科多场景的特点,是首个基础教育领域的大模型评测场。
继首期榜单发布后,“北极星”评测场面向近期更新的大模型开展新一轮评估与分析。10月28日,“北极星”评测场发布并解读多款近期发布或升级的大模型在智能解题、智能答疑、智能出题、教案生成、口语练习、作文批改、学情分析7大场景下的评测结果。
本次评测结论与一期榜单基本保持一致,并增加以下详细分析:
1. 通用模型迭代较快,教育模型仍处积累阶段。相比于一期榜单,本期评测的模型中,多个主流模型系列已完成版本替换或迭代升级,如GPT、Qwen、GLM等均推出更先进模型,整体能力更强。相比之下,教育模型更新频次较低,部分首期模型因版本未变未再测评,展现出教育模型仍处技术积累阶段的特点。
2. 模型教育引导能力仍显不足,未能有效支撑核心素养导向教学。在出题、教案等任务中,模型在结构、逻辑等基础维度上表现稳定,但在素养导向、情境创设与启发引导等关键维度上得分普遍较低。这表明当前大模型虽具备完成教学任务的基础能力,但在内化新课标理念、服务素养导向教学等方面仍存在短板。
各场景深层洞察分析结果如下,完整榜单请点击查看《“北极星”基础教育大模型评测场二期评测榜单发布:7大场景,升级模型迎来再对决》。