给物理AI大脑加一把“安全锁”：江行智能 Encoder Fingerprinting 入选 ICML 2026

当AI模型成为企业的核心资产，如何防止这些高价值编码器被“偷走”？江行智能的最新研究，为这一问题提供了一种全新的解决方案。

近日，江行智能研究团队在AI模型安全领域取得重要突破。研究成果 Fingerprinting Pre-trained Encoders under Arbitrary Downstream Fine-Tuning via Adversarial Shifting 被国际机器学习顶级会议 ICML 2026 收录。该工作首次实现了下游任务无关、黑盒标签-only的预训练编码器所有权验证，为高价值AI模型的资产保护提供了可靠的技术手段。

一个日益紧迫的问题：谁偷了我的模型？

在“预训练-微调”范式成为主流的今天，预训练编码器（Pre-trained Encoder）已成为AI系统的核心组件。以视觉编码器为例，一个在数亿张图像上训练好的编码器，可以被微调适配到数十种不同的下游任务——从工业缺陷检测到自动驾驶场景理解。

然而，这也带来了严峻的知识产权保护挑战：

● 模型盗用：攻击者可以通过非法途径获取编码器，在其上训练一个任务头，并以黑盒API的形式部署服务。由于下游微调会彻底改变编码器的输出语义，传统的模型水印或指纹方法几乎完全失效。

● 验证困境：现有方法要么需要修改训练过程（影响模型性能），要么依赖内部嵌入（黑盒场景下不可访问），要么要求嫌疑模型与受害模型输出空间一致（现实场景中几乎不可能满足）。

这就好比你的面容ID在整容后会发生变化，刷脸的身份识别手段就失效了。我们需要一种整容后依然有效的识别手段。

技术突破：对抗性迁移构建“特征孤岛”

江行智能提出的Encoder Fingerprinting方法，其核心理念是：在编码器的特征空间中构建一个不可磨灭的“指纹”。

关键发现：深层特征的稳定性

研究团队首先发现了一个关键现象：对抗样本在深度网络中的传播行为存在显著的分层差异。在浅层网络中，对抗扰动带来的分布偏差几乎可以忽略不计；但随着网络加深，这种偏差会逐渐放大，并在编码器输出层达到最大。这一发现解释了为什么传统的输出依赖型指纹方法会失效——浅层特征缺乏可识别的模式。而基于这一发现，研究团队提出了一种全新的思路：在特征空间中构建内生指纹。

对抗性迁移（Adversarial Shifting）

具体而言，该方法包含三个步骤：

第一步：特征空间表征。通过谱聚类将辅助数据集在编码器特征空间中的表征划分为多个簇，筛选出密度高、语义稳定的目标簇作为指纹锚点。

第二步：对抗性迁移。从其他簇中选取一组基础样本，通过对抗性扰动，将它们“迁移”到目标锚点附近，形成一个紧凑的“特征孤岛”。

第三步：群体投票验证。由于这些指纹样本在特征空间中高度聚集，无论下游任务如何变化、分类头如何重建决策边界，它们都会被预测为同一个类别。通过查询嫌疑模型的API，观察这组样本的输出一致性，即可判断该模型是否使用了受保护的编码器。

实证成果：AUC达0.96，全面超越现有方法

研究团队在多个基准数据集上进行了全面评估，包括CIFAR-10/100、STL-10、GTSRB和ImageNet，覆盖了监督学习和自监督学习（SimCLR、MoCoV2、SigLIP）等多种预训练范式。

主要性能对比：

在AUC指标上，该方法取得了0.96的优异表现，远超现有最优方法（第二名为0.84）。

鲁棒性测试在模型微调、剪枝、模型提取、输入扰动、嵌入扰动等五类攻击下，该方法均保持了显著高于基线的匹配率：

● 微调攻击：在GTSRB数据集上，即使经过50轮微调，匹配率仍稳定在0.7以上；

● 剪枝攻击：在60%-70%参数被剪枝的情况下，匹配率仍高于0.9；

● 模型提取攻击：即使攻击者使用蒸馏方法重新训练，指纹依然可被检测。

工业价值：为物理AI模型资产上锁

Encoder Fingerprinting所代表的模型资产保护技术，为物理AI模型的商业化与资产化提供了关键安全保障。

在“模型即服务”的时代，江行智能的物理AI模型需要在客户现场部署运行。如何确保这些高价值模型不被盗用、不被非法复制，是构建可持续商业模式的基石。

这项技术相当于给每个模型发了一张“身份证”。无论下游任务如何变化、模型如何微调，我们都能通过这张身份证确认模型的归属。这对于保护公司的核心技术资产、维护客户权益，都具有重要意义。

相关研究：

Fingerprinting Pre-trained Encoders under Arbitrary Downstream Fine-Tuning via Adversarial Shifting. ICML 2026.

江行智能将持续深耕物理AI前沿技术，在提升模型能力的同时，为模型资产的安全保驾护航。

← 返回新闻列表

新闻动态

一个日益紧迫的问题：谁偷了我的模型？

技术突破：对抗性迁移构建“特征孤岛”

实证成果：AUC达0.96，全面超越现有方法

工业价值：为物理AI模型资产上锁