担心自己的AI模型被盗？试试给它打个“胎记”丨腾讯朱雀实验室

萧箫 2021-11-12 16:56:34 来源：量子位

AI知识产权“守护者”

萧箫发自凹非寺

量子位报道 | 公众号 QbitAI

作为一种数字资产，AI模型面临着被窃取的风险。

随着大量AI模型被广泛部署在云端，我们究竟该如何保护AI模型不受“偷窃”？

这两天，腾讯朱雀实验室在全球知名信息安全峰会POC 2021上，进行了题为《AI模型的安全保护》（Towards AI Model Security Protection）的分享。

其中，腾讯朱雀实验室的高级研究员Mengyun Tang和研究员Tony，展示了AI模型攻防实例，并提出了一种新的模型水印生成方法。

这项技术可以防御多种模型窃取方式，并且对原模型的输出几乎不产生影响，为AI模型版权提供有效的保护。

AI模型维权者，往往难以“自证”

AI模型作为技术的核心载体，一旦被窃取，将可能让拥有该技术的企业或组织暴露在风险中。

例如，一家公司的AI模型被黑客恶意盗取后，黑客就可以复制该公司的业务，来抢占市场，获取间接经济利益；或是将模型出售给第三方、甚至勒索该公司，以获取直接经济利益。

在模型窃取方式中，代理模型攻击是一种典型的手段，它通过训练与原模型功能相似的代理模型，来蒸馏原模型的知识：

将原模型的输入作为其输入，原模型的输出作为其训练标签，并进行参数优化，不断拟合原模型的输出，最终达到窃取原模型知识的目的。

△模型窃取流程

在面对模型窃取攻击时，模型的原作者往往容易处于被动。

由于攻击者并不直接接触原模型，原作者无法提供直接证据来证明被窃取的模型中含有自己的知识产权，因此往往会陷入维权困难的境地。

一旦这种模型窃取攻击泛滥，AI的发展也会面临更多挑战。

针对上述问题，腾讯朱雀实验室结合最新的深度学习技术，推出了一套为AI模型提供保护的方法，针对疑似窃取模型进行“取证”，来证明该模型为“盗版”模型。

在预先防护阶段，这套方法会生成肉眼不可见的水印，并将之添加到原模型的输出上，为原模型的输出“烙上”版权信息。

然后，通过经训练的提取器，可以从代理模型的输出中精准地检测到水印的存在，并将预先嵌入的模型版权信息进行高质量的还原，从而为模型原作者提供有力的技术证据，来对抗侵权行为。

△朱雀实验室提出的模型水印生成方法及其保护流程

值得注意的是，这套方法对原模型的输出几乎不产生影响。

当AI模型被攻击时，其附带的水印也会被代理模型学习，进而使得代理模型的输出中也含有该水印。

换而言之，这项技术为AI模型提供了一道“胎记”。

它不仅能够有效地帮助AI模型作者维护自己的知识产权，还能打击“盗版”AI模型，一定程度地遏制模型窃取行为的发生，促进AI行业的生态持续健康发展。

腾讯朱雀实验室，属于腾讯安全平台部，致力于实战级APT攻击和AI安全研究。

朱雀实验室建设有AI安全威胁风险矩阵，专门针对人工智能行业中的潜在风险提供研究和预案，为AI业务提供安全保障。