您所在的位置: 首页» 资讯» 学术动态» 北京师范大学发布“北极星”基础教育大模型评测场第三期评测榜单

北京师范大学发布“北极星”基础教育大模型评测场第三期评测榜单

2026年4月,教育部等五部门联合印发《“人工智能+教育”行动计划》,明确了“十五五”期间的重点任务。规范智能产品进校园是其中的重点任务之一。面向人工智能与教育深度融合的新要求,科学评价教育大模型能力、推动智能技术规范进入教育场景,已成为服务教育数字化转型的重要基础工作。


为落实国家“人工智能+教育”行动部署,回应基础教育智能化发展需求,在北京市教委指导和北京市科委支持下,北京师范大学持续推进教育大模型评测体系建设。学校专门成立非建制科研机构北京师范大学信息系统与安全评测中心,为“北极星”基础教育大模型评测场建设和相关评测工作提供支撑。


日前北京师范大学智能技术与教育应用教育部工程研究中心、教育人工智能北京市重点实验室,联合北京教育科学研究院、北京智源人工智能研究院,发布“北极星”基础教育大模型评测场第三期评测榜单。本次评测榜单由北京市数字教育中心资助。


“北极星”基础教育大模型评测场依据团体标准《人工智能 基础教育大模型评测指标和方法》(标准编号:T/CESA 1395-2025)构建,紧扣新课标要求,聚焦教育真实应用场景,持续开展多学科、多场景评测。


自首期榜单发布以来,评测场已连续开展三期评测,逐步形成面向基础教育大模型的评价体系,为模型研发优化、教育产品改进和人工智能赋能教育实践提供参考。


本期评测面向近期发布或升级的多款大模型,围绕智能解题、智能答疑、智能出题、教案生成、口语练习、作文批改等基础教育典型场景开展系统评测,对各场景的任务与指标进行了不同程度的深化更新。评测结果显示,大模型在基础教育典型应用场景中的整体能力持续提升,已能够在备课、答疑、练习、口语互动和作文评价等环节提供一定辅助支持。同时,随着评测任务更加贴近真实教学过程,模型在学科知识准确性、复杂推理、多模态理解、教学引导和细粒度错误诊断等方面的不足也进一步显现。各场景深层洞察分析结果请点击链接阅读全文(https://mp.weixin.qq.com/s/CyNsm71nmKXTJUGF138QFA),完整榜单请登录官网查看(www.bnueval.com)。


近年来,北京师范大学持续推进人工智能与教育深度融合,围绕教育大模型评测、智能教育应用等方向开展研究与实践。下一步,学校将继续完善基础教育大模型评价体系,深化真实教育场景中的评测研究,推动形成更加科学、规范、可信的教育人工智能评价与应用生态。

TOP