光伏缺陷检测跨域难题,江行智能用跨模态对齐技术给出答案
光伏电站的规模越来越大,但巡检的难题也随之而来。
一个现实的问题是:当无人机从A电站飞到B电站,地形变了、光照变了、相机参数变了——原本精准的缺陷检测模型,突然就不准了。
这意味着什么?每到一个新电站,都要重新采集数据、重新标注、重新训练模型。重复劳动、高额成本、漫长的等待——这是当前光伏行业巡检的真实痛点。
而江行智能给出的答案,不是简单地堆数据、练大模型,而是从物理世界的底层逻辑出发,用跨模态对齐的技术思想,让AI真正理解不同模态之间的语义关系。
我们的最新研究成果 DD-LIVM 被国际移动计算领域顶级会议 ACM MobiCom 2025 收录。在来自4个城市、9个真实场景的7078张红外-可见光图像上,实现了平均检测准确率87.7%,超越现有最优方案17.3个百分点。
大模型不是万能药,关键在于“对齐”
过去两年,大模型席卷各行各业,但在工业现场,一个核心问题始终没有被很好解决:数据分布变了,模型就不灵了。
光伏缺陷检测依赖无人机同时采集红外图像(捕捉热斑)和可见光图像(捕捉外观)。然而,这两个模态之间存在严重的“语义不对齐”:
● 红外图像能看到所有缺陷引发的热斑,但只能区分4种形状(点、条、块、片),无法判断具体是什么缺陷;
● 可见光图像能看到外部缺陷的形态(杂草、灰尘、破损等),但内部缺陷(断路、二极管故障等)在可见光下完全不可见。
不同的巡检场景条件指标差异巨大
简单地把两个模态的特征拼接在一起训练,会出现一种糟糕的“错配”:模型在训练时记住了某些背景信息(比如特定电站的阴影方向),一换场景就被打回原形,甚至学到错误的相关性(比如某个内部缺陷总是出现在图像的某个位置,模型就学会用位置来猜,而不是用真实的物理特征)。
江行智能的技术团队深入研究了这一问题,并将其放在我们的 JX-Phi Universe 三层物理AI模型架构中审视。正如我们在模型层(JX-Phi Brain)中设计的两大核心引擎:
● S-VLM(空间视觉语言模型) ——解决“感知+理解”的问题,让机器理解三维空间、设备关系与业务语义;
● LT-VLA(长任务视觉语言动作模型) ——解决“感知+执行”的问题,让机器人能拆解并执行复杂工业任务。
DD-LIVM正是S-VLM在光伏巡检场景下的关键突破——它的底层逻辑,是如何让两个不同模态的传感器数据在语义层面实现真正的对齐。
跨模态对齐:三步让模型“各司其职再合体”
我们提出的DD-LIVM核心创新在于一套缺陷感知的三步微调策略(DTFT),简单来说就是:先各自修炼,再合体出战。
第一步:让红外编码器专注“找位置”
红外图像能看到所有缺陷的热斑,虽然分辨率不高,但定位能力强。我们屏蔽可见光编码器,只让红外编码器去学习热斑的形状特征——通过对比学习,拉大不同形状热斑(比如点状灰尘与条状杂草)的特征距离,缩小相同形状热斑(比如形状相似的脏污与内部损伤)的特征距离。这样,红外编码器学会了“哪里可能有缺陷”。
第二步:让可见光编码器专注“看形态”
红外图像看不出的缺陷类型,可见光图像却可能看得一清二楚。我们屏蔽红外编码器,只让可见光编码器去学习外部缺陷(杂草、灰尘、破损等)的外观特征。对于可见光完全看不见的内部缺陷,则通过对比学习把它们聚合成一类,与外部缺陷的特征拉开距离。这样,可见光编码器学会了“这个缺陷长什么样”。
第三步:双模态融合,精准判别
前两步完成后,我们再联合两个编码器,进行全缺陷的检测与分类微调。此时,红外编码器已经知道“缺陷在哪”,可见光编码器已经知道“外部缺陷长什么样”。两者融合,既能精准定位,又能精细分类,有效避免了过拟合。
这一思路与我们此前在DyGRO-VLA中提出的“混合专家残差策略”一脉相承——都是通过让不同模块各司其职,避免信息冲突,从而提升多任务、多场景下的泛化能力。DyGRO-VLA在LIBERO基准上达到97.1%的成功率,解决了VLA模型多任务下的“灾难性遗忘”;DD-LIVM在跨域光伏检测中达到87.7%的准确率,解决了“跨域失效”问题。两者殊途同归:让AI在真实工业场景中更稳定、更可信。
不只是实验数据,更是可部署的系统
除了核心的三步微调策略,DD-LIVM还包含两个关键的工程化设计,确保这套技术能从论文走向现场。
一是通用空间对齐算法。 实际巡检中,红外和可见光两个摄像头存在位置偏差,而且不同无人机、不同安装高度下偏差完全不同。我们不需要任何新场景的先验信息,而是利用“光伏面板的宽度在两个模态图像中一致”这一物理规律,通过背景去除、轮廓提取、模板匹配,自动算出两幅图的缩放和偏移量,实现精准对齐。
二是基于热斑特征的智能数据增强。 小尺寸热斑(比如灰尘、污渍)最容易被环境变化干扰。我们通过拉普拉斯算子模拟热扩散过程,自动生成不同太阳辐照、不同风速下的热斑形态变体,让模型在训练时就见过各种“天气变化”,从而大幅提升对真实场景的适应能力。
最终,DD-LIVM在所有9个测试场景的准确率均超过80%,平均87.7%,相较现有最优方案提升17.3个百分点。更难能可贵的是,在场景差异最大的跨域测试中(例如从平原电站到屋顶电站),准确率提升高达14%~23%——这意味着模型真正理解了缺陷的物理本质,而不是记住了场景的表面特征。
工业价值:从“定制化”走向“即插即用”
在真实的运维场景中,一个光伏运营商可能管理着分散在平原、戈壁、屋顶的数十个电站。如果每到一个新电站都要重新采集数据、标注、训练,成本不可承受。
DD-LIVM的技术路径,让“一次训练、多地部署”成为可能。新电站上线后,无需任何额外标注,无人机飞一遍,系统自动就能工作。这正是江行智能三层架构中模型层(S-VLM)的核心能力——用跨模态对齐技术,解决物理世界中传感器数据“说不清、对不准”的问题。
在此之前,我们的VLA模型(DyGRO-VLA)解决了机器人“学了新任务就忘旧任务”的困境;而现在,DD-LIVM解决了“换个场景模型就不灵”的困境。两者共同构成了江行智能物理AI在工业现场落地的两大关键支撑:跨任务泛化和跨场景泛化。
接下来,我们将把DD-LIVM逐步集成到物理AI产品体系中,让每一位光伏运维人员都能享受到“开机即用”的智能巡检体验,让每一个电站,都拥有一个永不疲倦的AI守护者。
论文信息:
DD-LIVM: Pioneering Cross-Domain Photovoltaic Defect Detection Using Large Infrared-Visible Model
ACM MobiCom 2025(国际移动计算领域顶级会议)
合作单位:香港科技大学、江行智能