光伏缺陷检测跨域难题，江行智能用跨模态对齐技术给出答案

光伏电站的规模越来越大，但巡检的难题也随之而来。

一个现实的问题是：当无人机从A电站飞到B电站，地形变了、光照变了、相机参数变了——原本精准的缺陷检测模型，突然就不准了。

这意味着什么？每到一个新电站，都要重新采集数据、重新标注、重新训练模型。重复劳动、高额成本、漫长的等待——这是当前光伏行业巡检的真实痛点。

而江行智能给出的答案，不是简单地堆数据、练大模型，而是从物理世界的底层逻辑出发，用跨模态对齐的技术思想，让AI真正理解不同模态之间的语义关系。

我们的最新研究成果 DD-LIVM 被国际移动计算领域顶级会议 ACM MobiCom 2025 收录。在来自4个城市、9个真实场景的7078张红外-可见光图像上，实现了平均检测准确率87.7%，超越现有最优方案17.3个百分点。

大模型不是万能药，关键在于“对齐”

过去两年，大模型席卷各行各业，但在工业现场，一个核心问题始终没有被很好解决：数据分布变了，模型就不灵了。

光伏缺陷检测依赖无人机同时采集红外图像（捕捉热斑）和可见光图像（捕捉外观）。然而，这两个模态之间存在严重的“语义不对齐”:

● 红外图像能看到所有缺陷引发的热斑，但只能区分4种形状（点、条、块、片），无法判断具体是什么缺陷；

● 可见光图像能看到外部缺陷的形态（杂草、灰尘、破损等），但内部缺陷（断路、二极管故障等）在可见光下完全不可见。

不同的巡检场景条件指标差异巨大

简单地把两个模态的特征拼接在一起训练，会出现一种糟糕的“错配”：模型在训练时记住了某些背景信息（比如特定电站的阴影方向），一换场景就被打回原形，甚至学到错误的相关性（比如某个内部缺陷总是出现在图像的某个位置，模型就学会用位置来猜，而不是用真实的物理特征）。

江行智能的技术团队深入研究了这一问题，并将其放在我们的 JX-Phi Universe 三层物理AI模型架构中审视。正如我们在模型层（JX-Phi Brain）中设计的两大核心引擎：

● S-VLM（空间视觉语言模型） ——解决“感知+理解”的问题，让机器理解三维空间、设备关系与业务语义；

● LT-VLA（长任务视觉语言动作模型） ——解决“感知+执行”的问题，让机器人能拆解并执行复杂工业任务。

DD-LIVM正是S-VLM在光伏巡检场景下的关键突破——它的底层逻辑，是如何让两个不同模态的传感器数据在语义层面实现真正的对齐。

跨模态对齐:三步让模型“各司其职再合体”

我们提出的DD-LIVM核心创新在于一套缺陷感知的三步微调策略（DTFT），简单来说就是：先各自修炼，再合体出战。

第一步：让红外编码器专注“找位置”

红外图像能看到所有缺陷的热斑，虽然分辨率不高，但定位能力强。我们屏蔽可见光编码器，只让红外编码器去学习热斑的形状特征——通过对比学习，拉大不同形状热斑（比如点状灰尘与条状杂草）的特征距离，缩小相同形状热斑（比如形状相似的脏污与内部损伤）的特征距离。这样，红外编码器学会了“哪里可能有缺陷”。

第二步：让可见光编码器专注“看形态”

红外图像看不出的缺陷类型，可见光图像却可能看得一清二楚。我们屏蔽红外编码器，只让可见光编码器去学习外部缺陷（杂草、灰尘、破损等）的外观特征。对于可见光完全看不见的内部缺陷，则通过对比学习把它们聚合成一类，与外部缺陷的特征拉开距离。这样，可见光编码器学会了“这个缺陷长什么样”。

第三步：双模态融合，精准判别

前两步完成后，我们再联合两个编码器，进行全缺陷的检测与分类微调。此时，红外编码器已经知道“缺陷在哪”，可见光编码器已经知道“外部缺陷长什么样”。两者融合，既能精准定位，又能精细分类，有效避免了过拟合。

这一思路与我们此前在DyGRO-VLA中提出的“混合专家残差策略”一脉相承——都是通过让不同模块各司其职，避免信息冲突，从而提升多任务、多场景下的泛化能力。DyGRO-VLA在LIBERO基准上达到97.1%的成功率，解决了VLA模型多任务下的“灾难性遗忘”；DD-LIVM在跨域光伏检测中达到87.7%的准确率，解决了“跨域失效”问题。两者殊途同归：让AI在真实工业场景中更稳定、更可信。

不只是实验数据，更是可部署的系统

除了核心的三步微调策略，DD-LIVM还包含两个关键的工程化设计，确保这套技术能从论文走向现场。

一是通用空间对齐算法。 实际巡检中，红外和可见光两个摄像头存在位置偏差，而且不同无人机、不同安装高度下偏差完全不同。我们不需要任何新场景的先验信息，而是利用“光伏面板的宽度在两个模态图像中一致”这一物理规律，通过背景去除、轮廓提取、模板匹配，自动算出两幅图的缩放和偏移量，实现精准对齐。

二是基于热斑特征的智能数据增强。 小尺寸热斑（比如灰尘、污渍）最容易被环境变化干扰。我们通过拉普拉斯算子模拟热扩散过程，自动生成不同太阳辐照、不同风速下的热斑形态变体，让模型在训练时就见过各种“天气变化”，从而大幅提升对真实场景的适应能力。

最终，DD-LIVM在所有9个测试场景的准确率均超过80%，平均87.7%，相较现有最优方案提升17.3个百分点。更难能可贵的是，在场景差异最大的跨域测试中（例如从平原电站到屋顶电站），准确率提升高达14%~23%——这意味着模型真正理解了缺陷的物理本质，而不是记住了场景的表面特征。

工业价值:从“定制化”走向“即插即用”

在真实的运维场景中，一个光伏运营商可能管理着分散在平原、戈壁、屋顶的数十个电站。如果每到一个新电站都要重新采集数据、标注、训练，成本不可承受。

DD-LIVM的技术路径，让“一次训练、多地部署”成为可能。新电站上线后，无需任何额外标注，无人机飞一遍，系统自动就能工作。这正是江行智能三层架构中模型层（S-VLM）的核心能力——用跨模态对齐技术，解决物理世界中传感器数据“说不清、对不准”的问题。

在此之前，我们的VLA模型（DyGRO-VLA）解决了机器人“学了新任务就忘旧任务”的困境；而现在，DD-LIVM解决了“换个场景模型就不灵”的困境。两者共同构成了江行智能物理AI在工业现场落地的两大关键支撑：跨任务泛化和跨场景泛化。

接下来，我们将把DD-LIVM逐步集成到物理AI产品体系中，让每一位光伏运维人员都能享受到“开机即用”的智能巡检体验，让每一个电站，都拥有一个永不疲倦的AI守护者。

论文信息：

DD-LIVM: Pioneering Cross-Domain Photovoltaic Defect Detection Using Large Infrared-Visible Model

ACM MobiCom 2025（国际移动计算领域顶级会议）

合作单位：香港科技大学、江行智能

← 返回新闻列表

新闻动态

大模型不是万能药，关键在于“对齐”

跨模态对齐:三步让模型“各司其职再合体”

不只是实验数据，更是可部署的系统

工业价值:从“定制化”走向“即插即用”