中国联通信息通信领域高质量数据集
推荐单位:中国联合网络通信集团有限公司
申报单位:中国联合网络通信集团有限公司
一、背景
为了解决信息通信行业海量数据资源管理难、多源异构数据融合难、场景化应用不足等问题和挑战,本案例通过标准化治理与技术创新,进一步升级中国联通数据治理体系,结合重点大模型应用需求,构建信息通信领域高质量数据集,打造人工智能数据产业底座,显著提升运营效率与服务质量,推动数据要素产业生态发展。
高质量数据集建设整体框架图
二、方案和成效
聚焦信息通信领域,深度挖掘并高效汇聚结构化、非结构化数据资源,构建多模态、高质量行业数据集,同步打造一套平台工具、一套保障体系,提升数据供给质量,提高开放共享效率。
一是构建一套高质量数据集。基于“企业自建+合作共建”的数据集建设模式,发挥集约化数据资源优势,统一归集与处理全域数据,组织专家标注,打造网络运营、客户服务、电信反诈、经营管理等6个信息通信高质量数据集,总量达53.5TB,数据集质检合规率超98%。
二是打造一套数据集平台工具。贯通“采、洗、标、测、用、评”全流程数据生产流水线。自研智能数据处理算子43项、智能标注能力26项,建立数据集质量评价体系,通过70+可量化指标,实现数据集高效高质供给。
三是形成一套数据集保障体系。围绕数据集元数据、分类、质量等方面开展关键标准研制,形成国家与行业数据集相关标准12册。创新设计数据集端到端协同运营流程,构建数据集全生命周期安全体系,实现数据安全共享与有序运营。
四是赋能多个人工智能场景应用。聚焦公司生产经营领域,推进高质量数据集进入数字化、网络运营和信息安全等应用场景,高效供给30个大模型训练与微调,赋能近百项细分场景应用,有效提升公司运营管理效能。
三、创新点
一是技术突破驱动效能跃升。突破传统规则型处理算子局限,融合大模型能力实现算法级效率跃升,推出多模态AI增强框架,支持代码生成、负样本蒸馏等高阶场景,垂直领域生成准确率超98.3%。自研分布式TB级向量引擎,实现跨模态统一表征,支持百TB数据实时检索,较传统方案提升3倍。
二是功能升级驱动业务增效。平台提供零代码智能数据加工流水线,可降低90%重复开发成本,实现分钟级构建DataOps工程。建立体系化质量检测机制,在政务场景中将问政准确率提升至90%,达到业界标杆水平。
三是体系创新驱动治理变革。从无到有构建了一套面向人工智能的数据治理及运营体系,创新性地构建了数据集治理及运营“七步法”,有效指导各领域数据集治理与运营。