/ EN

新闻动态

给物理AI大脑加一把“安全锁”:江行智能 Encoder Fingerprinting 入选 ICML 2026

给物理AI大脑加一把“安全锁”:江行智能 Encoder Fingerprinting 入选 ICML 2026

当AI模型成为企业的核心资产,如何防止这些高价值编码器被“偷走”?江行智能的最新研究,为这一问题提供了一种全新的解决方案。

近日,江行智能研究团队在AI模型安全领域取得重要突破。研究成果 Fingerprinting Pre-trained Encoders under Arbitrary Downstream Fine-Tuning via Adversarial Shifting 被国际机器学习顶级会议 ICML 2026 收录。该工作首次实现了下游任务无关黑盒标签-only的预训练编码器所有权验证,为高价值AI模型的资产保护提供了可靠的技术手段。

一个日益紧迫的问题:谁偷了我的模型?

在“预训练-微调”范式成为主流的今天,预训练编码器(Pre-trained Encoder)已成为AI系统的核心组件。以视觉编码器为例,一个在数亿张图像上训练好的编码器,可以被微调适配到数十种不同的下游任务——从工业缺陷检测到自动驾驶场景理解。

然而,这也带来了严峻的知识产权保护挑战:

● 模型盗用:攻击者可以通过非法途径获取编码器,在其上训练一个任务头,并以黑盒API的形式部署服务。由于下游微调会彻底改变编码器的输出语义,传统的模型水印或指纹方法几乎完全失效。

● 验证困境:现有方法要么需要修改训练过程(影响模型性能),要么依赖内部嵌入(黑盒场景下不可访问),要么要求嫌疑模型与受害模型输出空间一致(现实场景中几乎不可能满足)。

这就好比你的面容ID在整容后会发生变化,刷脸的身份识别手段就失效了。我们需要一种整容后依然有效的识别手段。

 

技术突破:对抗性迁移构建“特征孤岛”

江行智能提出的Encoder Fingerprinting方法,其核心理念是:在编码器的特征空间中构建一个不可磨灭的“指纹”。

关键发现:深层特征的稳定性

研究团队首先发现了一个关键现象:对抗样本在深度网络中的传播行为存在显著的分层差异。在浅层网络中,对抗扰动带来的分布偏差几乎可以忽略不计;但随着网络加深,这种偏差会逐渐放大,并在编码器输出层达到最大。这一发现解释了为什么传统的输出依赖型指纹方法会失效——浅层特征缺乏可识别的模式。而基于这一发现,研究团队提出了一种全新的思路:在特征空间中构建内生指纹。

对抗性迁移(Adversarial Shifting)

具体而言,该方法包含三个步骤:

第一步:特征空间表征。通过谱聚类将辅助数据集在编码器特征空间中的表征划分为多个簇,筛选出密度高、语义稳定的目标簇作为指纹锚点。

第二步:对抗性迁移。从其他簇中选取一组基础样本,通过对抗性扰动,将它们“迁移”到目标锚点附近,形成一个紧凑的“特征孤岛”。

第三步:群体投票验证。由于这些指纹样本在特征空间中高度聚集,无论下游任务如何变化、分类头如何重建决策边界,它们都会被预测为同一个类别。通过查询嫌疑模型的API,观察这组样本的输出一致性,即可判断该模型是否使用了受保护的编码器。

 

实证成果:AUC达0.96,全面超越现有方法

研究团队在多个基准数据集上进行了全面评估,包括CIFAR-10/100、STL-10、GTSRB和ImageNet,覆盖了监督学习和自监督学习(SimCLR、MoCoV2、SigLIP)等多种预训练范式。

主要性能对比:

在AUC指标上,该方法取得了0.96的优异表现,远超现有最优方法(第二名为0.84)。

鲁棒性测试在模型微调剪枝模型提取输入扰动嵌入扰动等五类攻击下,该方法均保持了显著高于基线的匹配率:

● 微调攻击:在GTSRB数据集上,即使经过50轮微调,匹配率仍稳定在0.7以上;

● 剪枝攻击:在60%-70%参数被剪枝的情况下,匹配率仍高于0.9

● 模型提取攻击:即使攻击者使用蒸馏方法重新训练,指纹依然可被检测。

 

工业价值:为物理AI模型资产上锁

Encoder Fingerprinting所代表的模型资产保护技术,为物理AI模型的商业化资产化提供了关键安全保障。

在“模型即服务”的时代,江行智能的物理AI模型需要在客户现场部署运行。如何确保这些高价值模型不被盗用、不被非法复制,是构建可持续商业模式的基石。

 

这项技术相当于给每个模型发了一张“身份证”。无论下游任务如何变化、模型如何微调,我们都能通过这张身份证确认模型的归属。这对于保护公司的核心技术资产、维护客户权益,都具有重要意义。

 

相关研究:

Fingerprinting Pre-trained Encoders under Arbitrary Downstream Fine-Tuning via Adversarial Shifting. ICML 2026.

江行智能将持续深耕物理AI前沿技术,在提升模型能力的同时,为模型资产的安全保驾护航。

← 返回新闻列表