视联网多行业空间治理数据集
推荐单位:中国铁塔股份有限公司
申报单位:中国铁塔股份有限公司平台创新中心、铁塔智联技术有限公司
一、背景
为提升自研和生态合作的算法服务质量,解决数据分散、数据分类难、标注低效等问题,我司以高价值应用场景为牵引,汇聚超过800TB多模态样本数据,研发AI数据处理工具链,建设视联网空间治理数据集,应急、交通、环保、低空、文旅等业务场景超过500个高质量数据集支撑经纬大模型、400多种小模型算法和产学研合作落地,赋能视联网重点行业的高质量发展。
视联网多行业空间治理数据集整体架构图
二、方案和成效
一是依托工具链与系统快速构建高质量数据集。样本库系统自动汇聚多源样本数据,构建AI数据处理工具链提高样本数据治理水平,基于高价值业务场景与算法需求快速按需构建高质量数据集。目前已构建应急、环保、农业、交通等多行业的数据集超过500个用于算法训练与测评。
二是数据集赋能大小模型质量提升。构建交通、应急、环保等行业多模态数据集支撑经纬大模型研发,70多个下游任务目标检测精准率超过90%;超过90种中高点位视频监控核心算法的生产准确率大于80%,其中应用于复杂场景的烟火监控算法泛化能力显著增强,有效规避云雾、扬尘、灯光等目标干扰,准确率超过95%。
三是数据集复用实现复利效应。数据集用于自有算法研发,通过安全手段支撑40多家算法生态合作伙伴的算法优化,服务于与北京大学等高校产学研合作项目,促进上下游生态协同,实现了样本数据的有效复用。2025年上半年,拉动视联网业务收入28.22亿元。
三、创新点
一是智能工具链赋能样本数据治理。研发多层次数据分类模型,形成超过31亿有效标签,使分类效率提高95%,将大模型与搜索引擎技术结合实现亿级数据的秒级智能检索,多样化的预置标注模板将标注任务周期缩短80%。
二是跨模态对齐挖掘样本数据价值。建立基于“图像/视频+时间+位置+PTZ+影像内外参数”的跨模态数据对齐关系,形成超过3亿的图文数据对与视频文本数据对,赋能视联网业务高质量发展。
三是数据集运营实现全生命周期管理。洞察数据集规模、分布等构成,依托样本库系统实现数据集的可视、可管、可用、可追溯,维护数据集版本与上下架,实现数据集的全生命周期管理。