小白读论文:机器学习的安全威胁和防御技术(上)——常见的安全威胁
论文:Q. Liu et al. 2018. Survey on Security Threats and Defensive Techniques of Machine Learning: A Data Driven View. IEEE ACCESS.个人感觉这篇综述很全面,但是时间比力早、有些地方写得不太好(本人在机器学习模型范畴是纯小白,只是根据之前所在学科的论文履历以及阅读体验以是这么说,请轻喷),适合新手入门了解。部分涉及我个人的知识盲区,因此在对应处附上了个人觉得不错的表明链接。
欢迎各人一起交流学习,也欢迎指出我理解错误的地方。
目录
安全威胁分类:
对机器学习的安全威胁:
训练阶段的安全威胁:
中毒攻击:
不修改特征/标签:
修改特征/标签:
猜测阶段的安全威胁:
Evasion(入侵攻击):
Impersonate(模仿攻击):
Inversion(反向攻击):
安全威胁分类:
从3个角度举行分类:对分类器的影响、安全入侵、攻击特异性
1.对分类器的影响:
(1)诱因攻击
改变训练集数据的分布,使得重新学习后的参数改变,导致分类器在后续分类中性能降落
(2)探索性攻击
造成对抗样本的错误分类或者揭露训练数据和学习模型中的敏感信息
2. 安全入侵:
(1)完整性攻击
当分类有害样本时,这种攻击会增长现有分类器的假阴性
(2)可用性攻击
这样的攻击会引起分类器在处理良性样本时的假阳性率增长
(3)隐私侵犯攻击
攻击者能从训练集和学习模型中获取敏感和机密信息
3. 攻击特异性:
(1)目标攻击
高针对性低落分类器对某一组或某一个样品的分类性能
(2)无区别攻击
分类器不区分地在大范围样本上分类失败
对机器学习的安全威胁:
重要由对抗性样本(反直觉数据)引起的。
无监督分析的安全威胁:
常发生在经典无监督分类学习算法——朴素贝叶斯(Naive Bayes)、SVM上
(1)注入恶意数据:当机器学习的入侵检测系统在训练过程中会被攻击者在训练集中植入恶意的指定数据。聚类算法已经广泛运用于信息安全范畴,但是加入恶意数据可以明显改变分类器的分类正确性。
(2)混淆攻击:将对抗样本和其他聚类中的正常样本(且不改变这些正常样本的聚类效果)混合,天生一组隐蔽的对抗样本
图像辨认(DNN)的安全威胁(由于不特别关注DNN,因此有关笔记相对简朴):
DNN固然能高效辨认图像,但很容易受到对抗攻击,由于DNN只提取了图像的一小部分特征、因此在差别小的图片上效果差、这是躲避异常检测的一大漏洞。
别的,从特征中恢复出原始的人脸图像的过程称为重构攻击。攻击者通过训练一个重构网络,利用大量的人脸图像-人脸特征,通过不停地训练和优化使其学习特征向量和对应人脸图像的关联规则,末了这个重构网络能够从特征向量中正确地恢复出原始人脸。
训练阶段的安全威胁:
中毒攻击:
causative attack,向训练集注入对抗样本从而破坏模型的完整性和可用性,这些样本通常有和负面样本类似的特征布局但标签是错误的(因此不适用无监督学习、但常见的大模型都会受影响)。
由于训练数据通常高度保密、因此直接修改训练数据很难;但攻击者可以通过重新训练现有模型从而发现/利用模型的缺点(重构攻击),这对于人脸辨认等需要定期更新决策模型以适应差别应用环境的模型是适用的(浙江大学与阿里安全部联手,推出了新的人脸隐私保护方案FaceObfuscator——删除人脸图像中的冗余视觉信息、通过随机性影响特征到人脸的逆映射并在客户端消除随机性)。
但是单链路/全链路分层聚类分析(单链路-通过两个点之间的最短距离举行聚类,全链路-通过两个点之间的最远距离举行聚类)可以,对抗样本对于聚类正确性的影响是可以衡量的(B. Biggio et al., ‘‘Poisoning complete-linkage hierarchical clustering,’’ Structural, Syntactic, and Statistical Pattern Recognition, 2014)、基于此可以选择最佳对抗样本。
不修改特征/标签:
对抗样本的选择:(1)由模型在已验证数据上分类正确性的低落程度来挑选;(2)梯度上升策略(体现优)(3)天生对抗网络(GAN,天生候选对抗样本的训练模型、然后用使用了特定损失函数的判别模型举行挑选)(更快更好)
修改特征/标签:
标签污染攻击(LCA):
网络信息传输往往采用网络编码(网络节点参与编解码)从而达到MAX FLOW-MIN CUT定理确定的最大理论传输容量,但由于网络编码对信息流举行了合并、因此恶意注入的数据会很快污染网络中的多个节点,从而实现污染攻击(Byzantine Attack),标签的恶意篡改也发生在网络传输节点中,借由节点传输网络发生污染(相关研究员:上海数据中央-梁满)。
AI模型中,攻击者会通过翻转等修改方式对训练数据的标签举行篡改。黑盒攻击技术乃至不需要知道模型的训练数据(N. Papernot, et al. 2016. Transferability in machine learning: From phenomena to black-box attacks using adversarial samples. arxiv.)。
猜测阶段的安全威胁:
攻击者可以制作特定的样本输入模型,假冒victims来获得未授权的访问权限,常见的攻击类型包括:spoofing(欺骗,包括规避、假冒等威胁),inversion(反转攻击)
Evasion(入侵攻击):
攻击者天生一些可以(通过梯度算法天生等)逃脱检测的对抗样本从而低落目标系统的安全性
Impersonate(模仿攻击):
模仿受害系统的数据样本天生对抗样本,在图像辨认(特别常见,由于图像辨认只提取一小部分特征、而且在物理天下的层面可行(恶意对抗样本的图像打印并通过摄像机录入、让人戴上眼镜(这个现在应该解决了?))、恶意软件检测、入侵检测、音频信息辨认(人类视角的偶尔义信息会对语音指令辨认造成影响)(Carlini, Hidden Voice Commands, 2016)中常见,集成学习(决策树)(组合多个弱监督模型从而组合成一个强监督模型,当其中一个出错时、其他模型可以对它举行纠正)可以天生可转移的对抗性样本、来自其中一个模型天生的样本可以有效攻击其他模型.
Inversion(反向攻击):
利用AI模型API来收集目标系统模型的一些基本信息,将基本信息输入reverse analysis、泄漏目标模型中嵌入的用户隐私数据
现在根据攻击对于目标模型的了解度,可以将攻击分为黑盒攻击(攻击者只知道API和一些feeding input(应该是投喂数据(?)输入)输入后的反馈、有些可以利用机器学习云服务平台的输出信度值)、白盒攻击(可以自由访问模型的训练数据和其他信息)
https://i-blog.csdnimg.cn/direct/f1ca2f175a2c423783743c4377528b21.png
前三种产出的对抗样本优质,但时间成本很高、不适合大模型;后两种是基于深度学习的对抗样本天生模型,能思量到影响样本天生的多维因素。
x*:原数据x天生的对抗数据;Δx:扰动;t:x*的目标标签;α:步长;ε:xn*的约束邻域半径;J:成本计算函数;n:迭代次数。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]