对抗攻击:在机器学习/深度学习中,攻击者通过对输入数据加入精心设计的微小扰动(如轻微修改图片像素、文本替换、音频噪声),使模型产生错误预测或按攻击者意图输出结果的攻击方式。常见于图像分类、语音识别、文本分类与网络安全等场景。(该术语也可泛指“以对抗方式发起的攻击”。)
/ˌædvərˈsɛri əˈtæk/
The model failed because of an adversarial attack.
模型因为一次对抗攻击而失效了。
Even though the image looked normal to humans, a carefully crafted adversarial attack caused the neural network to misclassify it with high confidence.
尽管这张图片在人眼看来很正常,但一个精心构造的对抗攻击仍让神经网络以很高的置信度把它分错类。
adversarial 来自拉丁语 adversarius,意为“对立的、敌对的”;attack 源自法语/意大利语相关词根,意为“进攻、攻击”。组合起来字面意思是“以对立者方式发起的攻击”。在机器学习语境中,它特指利用输入扰动“欺骗”模型的攻击。