高质量数据集典型案例 | 青岛港人工智能多模态高质量数据集

  • 2025.10.28
  • 来源:国家数据局
  • [ 打印 ]
青岛港人工智能多模态高质量数据集
  推荐单位:青岛市大数据发展管理局
  申报单位:青岛港国际股份有限公司
  一、背景
  港口行业数据涵盖船舶作业、货物流转、设备运行等全链条信息,在港口生产、资源调度、物流协同等领域有不可替代的应用价值。当前港口行业数据存在格式杂乱、质量参差不齐、多源数据融合度低、安全风险突出等问题,严重制约了港口领域人工智能的深度应用。2025年山东港口青岛港获批港口行业唯一的国家人工智能应用中试基地,对高质量数据集需求迫切。本案例创新构建“数据转化→应用落地→价值释放”闭环主线,形成港口行业高质量数据集,为行业数智化建设提供数据底座,促进数据流通交换,打造交通领域数据要素市场化可复制的行业标杆。

青岛港高质量数据集建设框架
  二、方案和成效
  一是建设全流程自动化数据工具链。覆盖数据从“业务场景”到“价值迭代”的完整生命周期闭环,实现多模态数据的融合治理、加工标注与质量管控,提升数据资产工程化管理能力,依托AI4Data的大模型自动化标注能力,标注效率提升50%,数据准确率达98%以上。
  二是打造全场景行业数据集图谱。面向船舶作业调度、安全生产、智能理货等核心业务流程,梳理智能化场景34个,规划数据集数量40个,数据集规模70T+,支撑排泊、作业调度、安全生产等5个大模型,实现“数据-模型-应用”的闭环,验证港口高质量数据集对行业智能发展的支撑价值。
  三是构建港口行业全链数据标准体系。基于港口高质量数据集建设成果,规划“国家战略响应→全链标准构建→实践迭代验证”路径,作为国家信标委港口工作组组长单位,依托人工智能基地,通过“体系化建标+场景化验标”,开展15项人工智能标准建设,为港口行业数据集标准化提供可参照的“青岛样本”。
  四是形成“数据要素×港口行业”价值生态闭环。围绕智慧港口和国家人工智能中试基地发展需求,基于建设合作、供需对接、收益共享、协同合作四大机制,发展10+数据提供方、数据需求方、数据运营方等生态伙伴和上下游企业,打造行业可信数据空间,组建港口产业联盟,创新“监管、运营、供给、消费、服务”“五位一体”运营模式,激活行业数据要素流通市场化潜能。
  三、创新点
  一是创新构建港口数据增广方案。将港口业务规则与算法和大模型进行融合,通过数据蒸馏,根据港口业务规则开发数据算子,结合大语言模型开展数据增广,在时间和业务场景广度上提高数据集的丰富度和泛化度。
  二是打造AI4Data“港口数据飞轮”。对海量原始数据进行自动化预标注,大幅提升标注效率,降低人工标注成本,实现数据集从构建到使用的正向循环,“数据越积越多,AI越用越聪明”。
  三是打造业务-技术价值共驱机制。打破技术堆砌陷阱,构建按需驱动的技术与港口业务的深度融合体系,确保80%以上新技术应用直接作用于核心业务场景,业务上线周期缩短20%以上,实现技术为业务赋能,业务为技术验效。构建跨平台异构协同创新体系,突破多系统、多厂商、多业务的异构协同壁垒,实现技术融合效率与稳定性双提升。
附件: