综述 | 面向边缘智能的联邦学习 - 极术社区 - 连接开发者与智能计算生态

张雪晴1, 2, 刘延伟1, 刘金霞3, 韩言妮1
1.中国科学院信息工程研究所　北京　100093
2.中国科学院大学网络空间安全学院　北京　100049
3.浙江万里学院　浙江宁波　315100
基金项目: 国家自然科学基金项目（61771469 基金）；重庆市属本科高校与中国科学院所属院所合作项目（HZ2021015）

摘要

随着边缘智能需求的快速增长，联邦学习（federated learning，FL）技术在产业界受到了极大的关注. 与传统基于云计算的集中式机器学习相比，边缘网络环境下联邦学习借助移动边缘设备共同训练机器学习模型，不需要把大量本地数据发送到云端进行处理，缩短了数据处理计算节点与用户之间的距离，在满足用户低时延需求的同时,用户数据可以在本地训练进而实现数据隐私保护. 在边缘网络环境下，由于通信资源和计算资源受限，联邦学习的性能依赖于无线网络状态、终端设备资源以及数据质量的综合限制.

本文首先分析了边缘智能环境下高效联邦学习面临的挑战，然后综述联邦学习在客户端选择、模型训练与模型更新等关键技术方面的研究进展，最后对边缘智能联邦学习的发展趋势进行了展望.

内容简介

1.首先通过对FL基本原理的介绍分析了边缘智能环境下高效联邦学习面临的挑战.

2.然后综述联邦学习在FL客户端选择技术、模型训练优化方法与无线网络下的模型更新技术方面的研究进展.

3.最后对边缘智能联邦学习的发展趋势进行了展望.

点亮图文

FL采用分布式学习架构，使得神经网络模型在MEC架构下可以进行分布式训练，参与学习的客户端无需上传本地数据，只需将训练后的模型参数更新上传，再由边缘服务器节点聚合、更新参数并下发给参与学习的客户端. 图1给出了面向无人机和车联网边缘智能应用环境下FL的经典部署架构.

经过文献调研分析表明，如表1所示，以往的FL综述缺少对上述问题的深入讨论. 基于这一点，本文从FL如何应对边缘智能应用环境挑战为主线，首先简要概括FL基本原理，然后从客户端选择方法、模型训练优化技术、模型更新技术几个方面详细综述现有的边缘智能FL关键技术，并讨论了未来边缘智能系统下FL的研究趋势.

在客户端选择协议方面，如图2所示. Nishio等人提出了一个FL客户端选择协议，即FedCS. FedCS为客户端在FL协议中下载、更新和上传机器学习模型设置了一个期限，以保证中央参数服务器在该期限内聚合尽可能多的客户端更新，从而使整个训练过程高效，减少了训练所需要的时间.

选择合适的客户端能够剔除训练过程中一些计算资源有限（即需要更长的更新时间）或无线信道条件差（即上传时间更长）的客户端，这样有利于FL持续训练. 无论是采用资源优化，还是通过激励机制或者从安全的角度考虑数据分布的方式，这些方法关注的都是客户端的性能对训练带来的影响. 然而，使用超大规模的数据，训练一个具有数十亿参数的复杂模型，单单从选择性能较好的客户端这一单一角度，无法保证FL在边缘智能应用环境下的整体性能，因此还需要对FL训练过程进行优化. 表2 归纳了现有的FL客户端选择方案.

边缘智能应用中，多个用户通过共享一个深度神经网络模型来实现FL，模型的隐私保护更为重要. Zhang等人采用模型分割技术和差分隐私方法，提出了一种利用移动边缘计算的FL框架（federated learning scheme in mobile edge computing, FedMEC），该框架是一种典型的模型分割迁移带动计算转移的边缘智能环境的FL架构，具体学习框架如图3所示. FedMEC框架将一个深层神经网络分为2部分：预先训练的客户端神经网络模型和边缘服务器端神经网络模型，复杂的计算可以通过模型迁移转移给边缘服务器. 同时，通过差异私有数据扰动机制，防止局部模型参数隐私泄露.

表3总结了现有的模型压缩技术特点. 文献[48]提出结构化和草图更新技术，以减少参与者在每轮通信中发送到FL服务器的模型更新数据. 结构化更新方式限制参与者更新预先指定的结构，即低秩和随机掩码..

对于通过高斯多路访问通道进行的数字和模拟实现，HFD可以在恶劣的通信环境中优于传统的FL，这一原理与边缘人工智能模型自适应的降维和量化有一些共同之处，但HFD减少了数据传输源的特征尺寸，它为FL框架和数据编码的协同设计提供了新的研究思路. 表4给出了目前FL模型训练优化方法及特点.

图4给出了固定频率聚合和自适应聚合的区别固定频率聚合是为了固定全局聚合的频率，在固定的资源预算下最小化学习损失；自适应模型聚合是为了动态地调整全局聚合的频率，在固定的资源预算下最小化学习损失.

为了在MEC服务器上实现公平的参数聚合，引入了一个公平系数来最小化当前精度和目标精度之间的差异. 从理论上严格分析了CuFL算法的收敛性，还验证了CuFL在车辆分类任务中的有效性. 评价结果表明，CuFL算法在准确率、训练时间和聚合过程的公平性方面具有优势. 表5列举了主要的FL模型局和技术.

FL在无人机系统中的应用研究. 表6描述了边缘网络下无人机FL应用主要组件，如客户端、服务器和数据、FL的预期结果. 无人机可以作为边缘内容缓存，这种范式的主要挑战是通过预测无人机内容的流行度来有效地确定每个缓存中应该存储哪些内容. 然而，这需要直接访问私人无人机信息，以进行内容区分，这在实践中是不可能的. FL是基于内容流行度预测天然的匹配方案，因为它支持本地训练模型，从而保护用户数据隐私.

FL在车联网中的应用研究. 图5显示了智能交通下的FL用例.文献[100]研究了车联网中超可靠低时延通信的联合功率和资源分配问题，FL用于估计反映网络状态的网络范围队列长度的尾部分布. 文献[101]讨论了车联网中使用FL进行图像分类的问题.

文献[73]的研究表明， BAA方案可以达到与正交频分多址方案相当的测试精度，同时降低延迟10~1000倍. Amiri 等人进一步扩展，在空中计算基础上引入了误差积累和梯度稀疏化，能更有效地利用带宽，显著降低通信负载，同时可以获得比空中计算更高的测试精度. 与文献[74]相似，文献[124]针对AirComp过程中产生的聚集误差会导致模型精度下降的问题，提出一种参与者选择算法用于训练的设备数量最大化，以提高统计学习性能，同时将信号失真保持在一定的阈值以下. 图6展示了该算法的原理.