高质量数据集典型案例 | 中国移动人时空三元组高质量数据集

  • 2025.09.24
  • 来源:国家数据局
  • [ 打印 ]
中国移动人时空三元组高质量数据集
  推荐单位:国务院国资委
  申报单位:中国移动通信集团有限公司、北京航空航天大学、交通运输部规划研究院、中国移动通信集团山东有限公司
  一、背景
  通信信令数据蕴含着大规模群体7×24小时连续的动态位置信息,在交通运输等领域具有重要应用价值。针对当前原始信令数据质量较低、质量评估不足、语义信息缺失、敏感等级较高的问题,本案例构建了“质量增强-质量评估-语义标注-管理运营”四位一体的数据治理技术体系,形成了一套高质量的人时空三元组数据集,并基于此数据集训练形成了具备出行分析、区域洞察等能力的行业大模型,可支撑交通调查、客流预测等需求。

人时空三元组高质量数据集构建整体框架图
  二、方案和成效
  一是构建体系化数据质量增强技术,夯实高质量数据底座。针对原始信令数据质量较低的问题,从位置异常、数据缺失等层面,以多规则综合判别与深度自监督学习相结合的技术路线,提升数据准确性与完整性,形成超3000亿条约50TB合格率达98%的高质量人时空三元组数据。
  二是设计多元化数据质量评估体系,全方位评估数据质量。针对信令数据质量评估不足的问题,结合行业标准和数据特性,设计一套定制化指标和通用性指标相结合的多元化质量综合评估体系,并开发2大类评测算子,实现对人时空三元组数据的全方位质量评估。
  三是打造专业化时空信令标注工具,生成多维度数据标签。针对信令数据语义信息缺失的问题,打造一款可视化、智能化标注平台,支持对出行方式、职业画像等信息的高效标注,自动化率达70%,辅助生成1套出行语义标注数据集,并联合打造1个省级数据标注基地。
  四是形成全周期数据管理运营机制,保障数据安全与流通。针对信令数据敏感等级较高的问题,建立覆盖数据全生命周期的安全管理运营机制,形成从数据采集到智能处理再到场景化输出的生态闭环,赋能北京交通委、东莞交通局等10余家单位的出行调查、流量监控、交通规划等20多种业务场景。
  三、创新点
  一是技术创新驱动数据质量增强。首创基于深度自监督学习的异常信令修复和轨迹路径重构方法,实现对异常数据的修复、缺失数据的插补以及数据准确性的提升,将原始信令数据转换为可准确反映群体出行特征及人地交互关系的高质量人时空三元组数据集。
  二是工具打造赋能标注效率提升。打造专门面向时空信令数据的轨迹语义标注平台,综合考虑信令数据的时空动态性和专业性,以地理信息可视化结合交互式引导的方式,实现对信令数据背后所蕴含的活动语义的高效标注,降低标注难度和标注成本。
  三是机制建设促进数据流通利用。构建数据安全合规审查体系和数据飞轮管理运营机制,并形成产业生态闭环,实现数据全生命周期的安全合规、顺畅流转与价值释放。
附件: