数据堂教育高质量数据集构建及应用
推荐单位:北京市政务服务和数据管理局
申报单位:数据堂(北京)科技股份有限公司
一、背景
针对教育数据“多模态对齐难、大规模标注慢、高质量评测难”等问题,研发攻关多模态语义表征对齐、高效半自动数据智能标注、多维度数据集质量评测等关键技术体系;建设教育行业分布式自动采集、标注工具及智能化生产平台;数据集构建速度提升80%,标注准确率达到97%以上,整体效率提高60%~80%,降低人工智能数据“卡脖子”风险,有效保障教育行业高质量数据集自主供给能力,显著促进教育大模型开发效率和应用落地,推动教育AI产业化发展。
教育高质量数据集建设总体架构
二、方案和成效
一是关键技术攻关,破解标注难题。研发攻关多模态语义表征对齐技术、高效半自动数据智能标注技术、多维度数据集质量评测技术等关键技术体系,破解“多模态对齐难、大规模标注慢、高质量评测难”等难题。“音-图-文”达到亿组级的对齐能力,标注工具开发效率提高80倍,整体标注效率提高30%~40%,数据集多维度高质量评测已成体系。
二是生产平台研发,全面智能标注。基于关键技术,建设教育行业多模态数据集治理及质量评测智能化平台,实现了多模态数据采集、存储、清洗、标准化、标注等流水化、智能化以及规模化治理及数据集质量多维度评测,智能化程度达80%。
三是核心数据构建,加速模型研发。构建教育行业文本/图像/音频/视频多模态预训练数据集、调教数据集、评测数据集。大规模高质量多模态预训练数据集帮助企业缩短模型开发周期平均可达40%~50%,为企业节省模型研发成本20%~30%。
四是提升模型能力,助力应用落地。经过评测的多模态高质量数据集,保障了极高的输入精度,大大降低因数据误差导致的模型偏差风险,提升教育模型的安全性与可靠性等性能,助力教育AI应用落地及产业化发展,已实现收入5000万元以上,未来收入规模巨大。
三、创新点
一是自动化数据集构建保障教育数据供给能力。流程化、工具化、自动化数据采集、标注平台,自动化生产能力80%以上,吞吐量达15PB/年,保障了教育数据集的自主供给能力。
二是多维度评测体系确保数据集应用效果。高质量数据评测平台通过探针自测、程序评测、人工校对等多维度质量控制,数据集准确率达99%以上,显著提升教育类大模型精度,应用效果极好。
三是全生态多模态数据集促进教育AI产业化。数据集覆盖小学、初中、高中、大学各阶段中英文教材、资料、讲座、培训、考题、竞赛、专利、论文、文献、期刊、杂志等,包含文-图-音-视等多模态的预训练数据集、调教数据集和评测数据集,内容全面、模态丰富、种类齐全,高效赋能教育AI产业化发展。