【论文阅读】SDA-FC: Bridging federated clustering and deep generative
https://i-blog.csdnimg.cn/direct/9b0bebdccb95443ebe15e2c614581118.png论文地址:SDA-FC: Bridging federated clustering and deep generative model - ScienceDirect
代码地址:https://github.com/Jarvisyan/SDA-FC
择要
联邦聚类(FC)是集中式聚类在联邦环境中的扩展。关键在于怎样在不共享私人数据的情况下构建全局相似度度量,因为当地相似度大概不敷以正确地对当地数据进行分组,而由于隐私限制,无法直接丈量跨客户端的样本相似度。显然,分析联邦聚类最直接的方法是采用从集中式聚类方法扩展而来的方法,如K均值(KM)和含糊C均值(FCM)。然而,这些方法轻易受到客户端之间非独立同分布(non-IID)数据的影响。为相识决这个标题,作者提出了一种简单且有用的联邦聚类框架,结合生成对抗网络(GAN),定名为合成数据辅助的联邦聚类(SDA-FC)。该方法在每个客户端当地训练生成对抗网络,并将生成的合成数据上传到服务器,在服务器上对合成数据执行KM或FCM。合成数据可以使模子免受非IID标题的影响,并帮助更有用地捕捉全局相似性特征,而无需共享私人数据。综合实行结果揭示了SDA-FC的上风,包括在解决非IID标题和装备故障方面的良好体现。
弁言
在隐私标题日益受到关注的时代,联邦学习(FL) 引起了广泛的关注,并在多个领域得到了应用,包括自动驾驶、智能医疗、智能都会和物联网数据等。其目标是在不共享私人数据的情况下,通过融合多个在客户端装备上训练的当地模子来训练全局模子。虽然FL在独立同分布(IID)场景中体现出色,但客户端装备之间的当地数据分布通常偏离IID场景。这种征象被称为非独立同分布标题(non-IID标题)或数据异质性,它大概会妨碍收敛并对模子性能产生不利影响。在非IID场景下,一种天然的解决方法是放弃传统的单中央方法,即专注于训练单一的全局模子,而是构建一个多中央框架,利用客户端聚类或数据聚类来加强协作。对于客户端聚类,其根本思想是每个客户端大概来自一个特定的分布。因此,应该利用同一聚类中的客户端共同训练一个特定的全局模子。然而,每个客户端中的每个样本也大概来自特定的分布。因此,数据聚类,也称为联邦聚类(FC),可以更有利于客户端之间的协作。其目标是基于全局相似度度量对数据进行聚类,同时保持数据的当地性。
除了在缓解非IID标题中的作用外,联邦聚类自己也是一个引人注目标研究领域。如图1所示,单纯依赖当地相似度无法准确地规复当地数据分组,而全局视角在这方面体现更为出色。然而,由于当地客户端数据的保密性,获取全球真实数据是不可行的。
https://i-blog.csdnimg.cn/direct/e72008bff774484cb4fe7ccee70675f4.png
因此,关键在于怎样在不共享私人数据的情况下衡量全局相似度。为相识决这个标题,之前的工作已将经典的集中式聚类算法(如K均值(KM)和含糊C均值(FCM))进行适配,以应用于联邦设置,从而得到了k-FED 和联邦含糊C均值(FFCM)。它们的根本思绪是雷同的:瓜代估计当地聚类中央和全局聚类中央,换句话说,通过当地私人数据挖掘当地聚类中央并将其上传到服务器,在服务器上运行KM以构建k个全局聚类中央来容纳全局相似度信息,然后将这些信息传递给客户端。最后,每个客户端可以从服务器下载全局聚类中央,并根据与这些聚类中央的接近度对当地数据进行标注,依照近来邻规则。然而,得到的全局聚类中央大概会非常敏感,并轻易受到不同非IID级别的影响,从而损害模子的鲁棒性和性能。给定一个联邦数据集,非IID级别仅取决于当地数据分布,而非全局数据分布。因此,假如可以或许构建出全球数据的良好近似,模子的性能大概对不同的非IID级别不敏感。此外,这种近似可以或许在不共享私人数据的情况下加强捕捉全局相似性特征的本领。基于这一思绪,作者提出了一种简单有用的联邦聚类框架,结合生成对抗网络(GAN),定名为合成数据辅助的联邦聚类(SDA-FC)。它包括两个主要步调:全局合成数据构建和聚类分配。在第一步中,中央服务器利用多个从当地数据训练的当地GAN构建全局合成数据集。在第二步中,中央服务器首先对全局合成数据集执行KM或FCM,得到k个全局聚类中央,然后将其分发给客户端。随后,基于近来邻规则进行聚类分配。如图1所示,当地聚类中央(图1(a)和图1(b))与全局聚类中央(图1(c))有显着差别,后者无法通过简单地对前者执行KM来准确近似。值得注意的是,全局合成数据(图1(d))很好地近似了全球真实数据,其中由合成数据集得到的聚类中央与从真实全局数据中得到的聚类中央非常接近。为了进一步探索联邦聚类与集中式聚类之间的差距,在联邦设置下对k-FED和FFCM进行了实行,并在集中设置下执行了KM和FCM。如表1所示,二者之间存在差距,但通过该方法该差距被缩小了。
https://i-blog.csdnimg.cn/direct/8d29122709f64bd4bd975216c33f3ae9.png
模子
SDA-FC框架
SDA-FC由两个主要步调组成:全局合成数据构建和聚类分配。在第一步中,每个客户端当地训练深度生成模子(比方生成对抗网络(GAN)),然后将生成的合成数据上传到服务器进行聚合。在第二步中,对聚合后的合成数据执行K-means(KM)或含糊C均值(FCM)聚类,构建出k个全局聚类质心。最后,每个客户端可以从服务器下载全局聚类质心,并根据近来邻规则对其当地数据进行标签分配。
全局合成数据构建
给定一个现实天下的数据集
页:
[1]