摘要:本文分析《Communication-Efficient Learning of Deep Networks from Decentralized Data》,聚焦联邦学习在去中心化数据中的通讯优化,探讨高效练习深度网络与数据隐私掩护的方法。这不仅为AI与安全应用奠基,还为将来与区块链的融合提供潜力,建立去中心化的安全模型。引言:数据安全与去中心化挑战
关键字:联邦学习,通讯效率,去中心化数据,深度网络,AI,数据隐私,安全性,区块链
现在AI全赛道在快速发展阶段,AI安全作为潜伏大课题即将伴随发生。现在可预估的安全事故范例包括:
然而,除传统网络安全范畴以外,AI安全还包括AI伦理、自主性、数据主权、社会风险等。
一句话解释:联邦学习试图在海量个人装备以及语言、图像等富和种类数据下,通过去中心化本地实行计算、集成模型和接收更新,来办理用户个人数据隐私问题和数据会集处理能效问题。去中心化
数据最小化原则,即网络和存储的数据应仅限于必要的部门。源自2012年消费者数据隐私白宫陈诉。数据要求
以上解释了AI智能搜刮与传统搜刮(Baidu、Google)的区别,前者是通过大量天然数据标签进行猜测,后者是二手代理数据标签进行索引。前者是可思考的智能大脑,后者是图书馆索引头脑。这两个使命都非常适合神经网络学习。对于图像分类而言,前馈深度网络尤其是卷积网络可提供最先进的结果。对于语言建模使命的递归神经网络,尤其是LSTM(Long Short-Term Memory,长短时记忆网络)取得了最先进的成果。
词袋模型是一种忽略词序、仅统计词频的文本向量化方法。联邦优化:通讯效率的核心
CNN通过卷积操作提取特征,再用池化和全毗连层进行分类,尤其善于处理图像。
梯度是模型参数的变化方向,非零梯度指这些变化中不为零的部门,可能泄露用户输入的详细词。
在词袋模型中,每个词对应一个特征位置,如果用户输入某个词,模型更新时只有这些词的梯度会变成非零,攻击者通过观察非零梯度就能推测出详细输入的词。
为了应对这些问题,实行中使用了一个受控环境,专注于客户端的可用性以及不平衡和非IID数据的挑战。3、同步更新机制说明
“非凸”指的是一个函数或聚集不是凸的,意思是它没有一个唯一的最小点,可能有多个局部最小点或鞍点。简单来说,就是函数图像不出现单一的“山谷”形状,可能有多个低谷。这是总目标函数的形式:
这个公式表示要最小化一个目标函数 f(w),其中 w 是优化参数向量,位于 \mathbb{R}^d 空间中,表示一个 d-维的参数空间。优化问题的目标是找到一个最优的 w,使得 f(w) 达到最小值。这是目标函数的定义:
这个公式定义了目标函数 f(w) 为多个子目标函数 f_i(w) 的平均值。详细来说,f_i(w) 是第 i 个子目标函数,通常代表一个数据点或使命的损失函数。这里,总目标函数是所有 f_i(w) 的平均值,因此优化问题变成了最小化这些子目标的平均损失。②机器学习中的损失函数
表示全局目标函数 f(w) 是由每个客户端 k 的局部目标函数 F_k(w) 加权平均得到的,其中 n_k 是客户端 k 上的数据点数目,n 是总的数据点数目。其中 F_k(w) 表示客户端 k 上的局部目标函数,定义为:
表示客户端 k 上的局部目标函数 F_k(w),它是客户端 k 上所有数据点 i 的损失函数 f_i(w) 的平均值,其中 n_k 是客户端 k 上的数据点数目,P_k 是客户端 k 上数据点的索引聚集。④IID假设
IID(独立同分布)指的是数据中的每个样本既相互独立,又遵循相同的概率分布。接下来,假设数据 P_k 是通过将练习样本匀称随机地分配到各个客户端上形成的。在这种环境下,每个客户端上的局部目标函数 F_k(w) 的期望值应当与全局目标函数 f(w) 相称,即:
表示当数据匀称随机地分配到各个客户端 k 时,客户端 k 上的局部目标函数 F_k(w) 的期望值等于全局目标函数 f(w),即每个客户端的数据分布是独立同分布(IID)的环境下,局部目标函数的期望与全局目标函数相称。⑤非IID设置
如果数据在客户端之间分布不均或存在偏差(即数据不再是IID的),那么每个客户端的局部目标函数可能与全局目标函数的关系会变得不那么精确。这种环境被称为非IID设置,它是联邦学习中必须考虑的一个重要因素。5、联邦优化的核心挑战
FederatedAveraging (FedAvg) 算法是一种用于联邦学习(Federated Learning, FL)的优化方法。它通过在多个客户端上进行本地练习,并在服务器端进行参数聚合,以提高计算效率并减少通讯本钱。1、配景
SGD 通过每次随机挑选一个样本计算梯度(偏差)并更新模型参数,来逐步逼近损失函数的最优解。2、算法思路
目标:通过选取适当规模的数据集,以便深入研究FedAvg的超参数,从而提高移动装备上的模型可用性,主要研究图像分类和语言建模使命。实行筹划
进一步分析:通过对比不同批量大小(B = 50)下的SGD和FedAvg实行,FedAvg在每个小批量计算中取得了类似的进展。进一步,增加客户端数目有助于平滑精度波动,减少尺度SGD和FedAvg中仅有一个客户端时的波动。3、大规模LSTM实行
这个实行验证了FedAvg在去中心化数据场景(如移动装备)下的高效性,尤其实用于真实天下数据分布不均的环境。联邦学习:提高通讯效率与隐私掩护的将来方向
联邦学习的上风:这些实行结果证明白FedAvg算法(联邦学习中的一种常用算法)能够在较少的通讯轮次下,练习出效果较好的模型,表明联邦学习具有实用性,尤其是在分布式、隐私掩护和大规模数据处理方面。隐私掩护和安全性
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) | Powered by Discuz! X3.4 |