一文看尽三种针对AI系统的攻击技术及防御策略
发布时间:2022-01-19 20:07:47 所属栏目:云计算 来源:互联网
导读:本文综述了三种针对人工智能系统的攻击技术对抗性输入、数据中毒攻击及模型窃取技术,在每一种攻击的讨论中都加入了具体例子及防御策略,旨在为所有对利用人工智能进行反滥用防御感兴趣的人提供一个概述。 对分类器的高层次攻击可以分为以下三种类型: 对抗
|
本文综述了三种针对人工智能系统的攻击技术——对抗性输入、数据中毒攻击及模型窃取技术,在每一种攻击的讨论中都加入了具体例子及防御策略,旨在为所有对利用人工智能进行反滥用防御感兴趣的人提供一个概述。 对分类器的高层次攻击可以分为以下三种类型: 对抗性输入:这是专门设计的输入,旨在确保被误分类,以躲避检测。对抗性输入包含专门用来躲避防病毒程序的恶意文档和试图逃避垃圾邮件过滤器的电子邮件。 数据中毒攻击:这涉及到向分类器输入对抗性训练数据。我们观察到的最常见的攻击类型是模型偏斜,攻击者以这种方式污染训练数据,使得分类器在归类好数据和坏数据的时候向自己的偏好倾斜。我们在实践中观察到的第二种攻击是反馈武器化(feedback weaponization),它试图滥用反馈机制来操纵系统将好的内容误分类为滥用类(例如,竞争者的内容或者报复性攻击的一部分)。 模型窃取技术:用来通过黑盒探测「窃取」(即复制)模型或恢复训练数据身份。例如,这可以用来窃取股市预测模型和垃圾邮件过滤模型,以便使用它们或者能够针对这些模型进行更有效的优化。 这篇文章依次探讨了每一类攻击,提供了具体的例子,并且讨论了可能的缓解方法。 这篇文章是关于如何使用人工智能构建鲁棒的反滥用保护系统系列文章中的第四篇,也是最后一篇。第一篇文章解释了为何 AI 是构建鲁棒的保护系统的关键,这种保护用来满足用户期望和日益提升的复杂攻击。在介绍完构建和启动一个基于 AI 的防御系统的自然过程之后,第二篇博文涵盖了与训练分类器相关的挑战。第三篇文章探讨了在生产中使用分类器来阻止攻击的主要困难。 (编辑:珠海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

