中国电信网络大模型高质量数据集
推荐单位:国务院国资委
申报单位:中国电信集团有限公司
一、背景
大模型落地信息通信行业面临通用性与专业性差距、知识冲突与幻觉、深度数据缺乏等挑战,中国电信网络大模型高质量数据集确立以云网知识体系为基础,以组织、流程、运营和安全为支柱,建设统一的知识管理平台的科学体系化建设方法,整合通信领域多源复杂数据,构建云网知识体系,打造5大类高质量数据集及数百个场景化知识库。通过数据集工具、关键技术研发与高效运营,形成“专业深度+实时进化”双能力,促进人才转型,支撑云网运营AI化及自智水平达L4级,显著提升运营效率与稳定性,成效惠及企业及行业客户,促进产业链协同。
网络大模型高质量数据集构建方法
二、方案和成效
一是确立科学体系化数据集构建方法。以“5+2”云网知识体系为基础,建设统一知识管理平台,重构组织流程与安全体系,形成领域全覆盖分类标准,实现跨域知识穿透协同,建成大规模、高质量、多模态领域数据集,提供分钟级建库工具、数据增强服务及动态管理能力,知识增强服务检索量达千万次,准确率超90%。
二是突破数据治理技术瓶颈。融合多源智能解析、动态清洗、多级去重及数据合成技术,研发隐私保护算法与知识图谱流水线。自研SIE分层建库技术实现多模态数据分钟级建库入库,创新多模态混合检索架构及重排序技术,攻克通信数据规范难题,隐性知识发现效率提升5倍,召回准确率提升35%;建成高质数据治理范式。
三是构建全生命周期运营模式。建立“规划-采集-应用-评估-反馈”闭环。提出集团+省多级协同机制,通过职责分工、质量追溯、周期联动等创新管理,保障动态更新,建成5大类数据集,支撑数百个知识库高效运行。
四是规模化赋能产业转型。提升云网运营效率,助力云网自智达L4级。培养千余名“三懂”复合人才(懂业务/网络/模型),支撑数十类云网AI助手与数字员工,覆盖全网。
三、创新点
一是高效数据加工增强技术创新。融合多源解析、动态清洗、多级去重、隐私保护、知识图谱及数据合成技术,首创SIE(来源-索引-编码)分层建库技术实现分钟级建库,创新多路混合检索及重排序、检索交错生成与时序数据均衡技术,打通实时数据与大模型动态交互链路。
二是全生命周期管理模式创新。建立“规划-采集加工-应用-评估”闭环管理机制,依托“5+2”知识体系分类分级数据,通过平台精准治理,结合AI+场景转化高安全性知识。
三是两级联动长效运营机制创新。构建多级闭环管理机制,明确语料审核、定期通报及数据报送职责;强化协同联动,创新知识入库时效管理,建立问题跟踪闭环,形成“组织-流程-协同-时效-反馈”运营体系。