电网调度负荷预测高质量数据集
推荐单位:国务院国资委
申报单位:中国南方电网有限责任公司
一、背景
电力负荷预测是保障大电网安全以及社会民生用电的重要基础。然而传统“人工经验”的预测模式面临准度差、效率低等突出问题,迫切需要建设高质量数据集、开创“AI+负荷预测”新范式。通过构建“数据治理—数据增强—数据飞轮—赛马竞技”方法论体系,南方电网沉淀了一套服务于南方5省区60余个地市的高质量负荷预测数据集,涵盖了能源电力行业10余大类规模超300TB核心数据,并基于此训练出网省地一体化的AI负荷预测模型、全面实现“机器代人”,有力促进电力行业上下游产业链发展。
电网调度AI负荷预测数据集概况及应用
二、方案和成效
一是破解全生命周期的数据治理和数据安全难题。基于全国产化安全可控的软硬件技术路线,采用元数据探针、流式计算、时序异常检测算法等先进技术,解决了50余类细分数据从采集、传输、存储、供给、销毁的全链路质量监测、异常识别与智能修正等难题,实现数据质量验证100%自动化操作。
二是攻克数据增强技术解决稀缺场景预测难题。融合调度领域知识、生成对抗网络、时间序列局部压缩等技术,实现空调/采暖负荷、复工复产、景气指数等400多维数据特征的自动化构造以及样本增强生成,极端天气、节假日等重大保供电稀缺场景下的负荷预测准确率相比传统人工模式提升约3~5个百分点。
三是构建数据飞轮和赛马机制持续保持生命力。提出自主进化的数据飞轮技术,将实时产生的电网负荷、新能源出力、精细化气象等数据(日均增量超20GB)自动加工成新的数据集,持续迭代增量训练AI模型。首创“产学研融合”的同台竞技赛马机制,通过比武不断精进数据集质量。基于该数据集,成功训练出全网一体化AI负荷预测模型并服务于南方5省区60余个地市。
三、创新点
一是全国产化软硬件技术架构支撑数据安全高效治理。基于国产时序数据库、加密技术,确保了全生命周期数据安全;采用LSTM-Autoencoder等先进时序异常检测算法识别负荷数据异常,结合历史相似日、高阶插值算法对异常值进行智能修复。
二是提出融合调度领域知识的数据增强技术。通过提取调度领域知识、并结合时间序列局部压缩等技术,实现空调/采暖负荷、复工复产、景气指数等400多维特征的自动化构造,有效增强极端天气、节假日等重大保供电稀缺场景下的数据样本和质量。
三是创新赛马机制永葆数据集生命力。搭建能源电力时序预测领域高水平交流平台,通过比武不断精进数据集质量,实现“预测越准-获得奖金越多-研发投入越多-数据集质量越高-预测越准”的螺旋上升。