Adversarial Attack

定义 Definition

对抗攻击：在机器学习/深度学习中，攻击者通过对输入数据加入精心设计的微小扰动（如轻微修改图片像素、文本替换、音频噪声），使模型产生错误预测或按攻击者意图输出结果的攻击方式。常见于图像分类、语音识别、文本分类与网络安全等场景。（该术语也可泛指“以对抗方式发起的攻击”。）

发音 Pronunciation

/ˌædvərˈsɛri əˈtæk/

例句 Examples

The model failed because of an adversarial attack.
模型因为一次对抗攻击而失效了。

Even though the image looked normal to humans, a carefully crafted adversarial attack caused the neural network to misclassify it with high confidence.
尽管这张图片在人眼看来很正常，但一个精心构造的对抗攻击仍让神经网络以很高的置信度把它分错类。

词源 Etymology

adversarial 来自拉丁语 adversarius，意为“对立的、敌对的”；attack 源自法语/意大利语相关词根，意为“进攻、攻击”。组合起来字面意思是“以对立者方式发起的攻击”。在机器学习语境中，它特指利用输入扰动“欺骗”模型的攻击。

文学与著作 Literary Works

Deep Learning（Ian Goodfellow, Yoshua Bengio, Aaron Courville）——讨论对抗样本与对抗攻击的背景与影响。
“Explaining and Harnessing Adversarial Examples”（Goodfellow et al., 2014）——经典论文，系统化了对抗攻击/对抗样本的概念与方法。
Adversarial Machine Learning（如相关学术专著与综述，常以该术语作为核心主题）——集中介绍对抗攻击与防御框架。