AI深度学习模型被“骗”？！看研究者如何对抗攻击

2024年4月16日

琶洲实验室

776

深度学习模型，这位机器学习界的“超级大脑”，凭借其惊人的模拟人脑能力，早已成为领域的璀璨明星。它的影响力，就像一阵旋风，从智能手机席卷到自动驾驶，再到安全监控系统，无处不在。而在图片分类这个江湖里，深度学习模型更是以“火眼金睛”著称，一眼扫过，图像特征尽在掌握，分类之精准，令人拍案叫绝。它就像是一位“分类侠”，在图片分类的江湖中独领风骚。

然而，你有没有想过，这位“分类侠”也有可能被“捉弄”？就像武侠小说中的英雄，虽然武功高强，但也可能被一些巧妙的“戏法”所迷惑。琶洲实验室和暨南大学的科研人员们，就像是掌握了这种“戏法”的智者，他们研发出了一种几乎让人难以察觉的“对抗戏法”。只需对图像进行简单的像素修改，就像是给深度学习模型施了一个“障眼法”，就能让它“看走眼”，将图像分类错误。

快快跟随琶科小博士一起通过下文了解这个“对抗戏法”吧！

01『简单的攻击方法』

传统的攻击方法通常涉及对深度学习模型的参数进行访问和获取，然而在实际攻击场景中往往难以获取相关信息，这使传统方法具有一定的局限性。针对这一挑战，研究人员提出了一种基于天牛觅食行为的创新攻击方法，旨在改变传统攻击方式所面临的限制。

天牛寻找食物图解

在天牛觅食过程中，食物会产生特殊气味，吸引天牛向着食物前进。天牛通过其两只触角对空气中的食物气味进行感知，且根据食物距离两只触角的距离远近不同，两只触角所感知的气味浓度也有所差异。当食物处于天牛左侧时，左侧触角感知的气味浓度强于右侧触角感知的气味浓度，天牛根据两只触角所感知的浓度差，向着浓度强的一侧随机前进。通过一次次迭代，最终找到食物的位置。在攻击中也就能找到需要修改的像素，从而选择性地修改这些像素，实现攻击的目的。

02『实验验证』

为了验证攻击方法的有效性，研究人员进行了一系列实验来对图片进行攻击。

攻击前类别：钟攻击后类别：秒表

攻击前类别：橄榄球攻击后类别：降落伞

攻击前类别：蒸汽机车攻击后类别：投影仪

这些攻击结果展示了攻击的有效性，更为重要的是，它们证明了这项技术在对抗样本生成领域的潜力和优势。此外，与其他常见的攻击方法相比，基于天牛觅食行为的攻击方法展现出了更高质量的对抗样本。

03『科技的无限可能性』

总体而言，这些攻击结果为对抗样本生成技术的发展和应用打开了新的可能性。在当今社会中，深度学习模型已经被广泛应用于生产生活的各个领域。然而，随着其应用场景的不断增多，深度学习模型也面临着愈发严峻的安全挑战。

想象一下，在使用手机拍摄照片时，攻击者可能利用对抗样本技术篡改图像中的内容，导致图像分类错误或者识别出不正确的物体。在自动驾驶汽车中，攻击者可能制造对抗样本，误导车辆识别道路标志或者其他车辆，从而引发危险的行为。在安全监控系统中，攻击者可能通过对抗样本来避开监控，实施犯罪行为而不被检测到。

因此，对抗样本生成技术的研究和应用至关重要，它为保护深度学习模型的安全性提供了重要的启示和方向。通过不断改进和加强模型的鲁棒性，我们可以更好地应对这些潜在的安全威胁，确保人们在使用智能技术时能够享受到更高的安全性和可靠性。

资料参考：

[1] Yang C, Zhang Y, Khan A H. Undetectable Attack to Deep Neural Networks Without Using Model Parameters[C]//International Conference on Intelligent Computing. Singapore: Springer Nature Singapore, 2023: 46-57.

作者介绍

张银炎，暨南大学网络空间安全学院研究员，琶洲实验室青年学者项目主持人。2019年博士毕业于香港理工大学。主要研究方向包括多智能体系统控制与安全、计算智能。目前担任IEEE Transactions on Industrial Electronics, Neural Processing Letters等期刊的副编辑。曾入选斯坦福大学发布的全球前2%科学家榜单。

杨晨，琶洲实验室人工智能模型与算法研究中心实习生，暨南大学网络空间安全学院硕士研究生，主要研究方向为对抗攻击。