VERIFL: Communication-Efficient and Fast Verifiable Aggregation for Federated Learning

最新推荐文章于 2026-06-28 22:07:23 发布

原创最新推荐文章于 2026-06-28 22:07:23 发布 · 835 阅读

15 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#同态加密 #人工智能 #云计算

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、pandas是什么？
相关知识
- 密码学
- 高效聚合
总![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/57122a9c29264fbcb02010ae4d40101d.png)
- - 系统模型
流程
承诺
- 引理1

前言

提示：这里可以添加本文要记录的大概内容：

摘要：联邦学习（FL）使得大量客户端能够通过在每个同步的本地训练周期中共享梯度，协作训练一个全局模型。然而，用于聚合这些梯度的中心化服务器可能被攻破并伪造结果，从而侵犯隐私或发起其他攻击，这引发了对聚合结果完整性验证的需求。本研究探索如何在联邦学习中设计通信高效且快速可验证的聚合机制。我们提出了VERIFL——一种可验证的聚合协议，其每个训练周期的验证过程仅需O(N)（与维度无关）的通信开销和O(N + d)的计算开销，其中N为客户端数量，d为梯度向量的维度。由于某些现实联邦学习场景中的梯度维度d可能极高（例如10万量级），这种与维度无关的通信特性对于带宽有限且处理高维梯度的客户端尤为重要。此外，该协议可适应需要安全聚合的联邦学习场景，或在协议执行过程中存在客户端子集退出的情况。实验结果表明，我们的协议在这些场景中表现出高效性。

提示：以下是本篇文章正文内容，下面案例可供参考

一、pandas是什么？

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。
在这里插入图片描述
联邦学习（Federated Learning, FL）[1]–[3] 已成为当前最流行的分布式机器学习范式之一。它使得分布在大量客户端（如手机、移动设备或传感器）上的敏感数据能够被利用，而无需直接收集这些数据。在联邦学习中，为训练全局模型，每个同步训练周期（图1(a)）会选取部分用户上传其本地参数。随后，中心化服务器负责聚合这些参数以更新全局模型，并将更新后的模型返回给用户。所有用户将根据全局模型更新本地模型，此过程持续至模型收敛。

尽管功能诱人，联邦学习已被证明易受攻击。例如，研究[4]–[6]表明，客户端上传的梯度向量可能泄露其私有数据集的敏感信息。为此，文献[7]提出了一种安全聚合协议以保护梯度隐私。然而，最新研究[8]指出，除隐私外，聚合过程的完整性也需保障。具体而言，服务器可能成为联邦学习的单点故障——若缺乏完整性保证，一旦服务器被攻破，攻击者可操控全局模型，导致客户端在指定数据点上出现误分类（图1(b)），其效果类似于后门攻击[9]–[12]。聚合完整性的缺失可能阻碍联邦学习的商业应用。例如，恶意服务器可能在本轮更新时使用投毒数据重新训练全局模型，并将篡改后的模型返回给诚实客户端，意图引发误分类。

需注意，通过修改聚合结果的攻击（如上述示例）可通过可验证聚合协议缓解。此类协议需满足两点：

可验证性：攻击者无法以显著概率使诚实客户端接受伪造的聚合梯度（定义3）；
安全性：协议需保证每个客户端梯度的输入隐私，即攻击者无法从协议交互中推断任何客户端的梯度信息（定义4）。
本文聚焦于如何在资源受限设备（如谷歌移动设备场景[7]）上实现通信高效且快速的安全可验证聚合协议。由于资源受限场景带宽昂贵，且需大量客户端通过数百轮迭代训练全局模型，通信效率成为协议设计的核心考量。若可验证聚合协议的通信与计算成本过高，将显著延长训练周期。其中，模型的参数规模对通信效率影响尤为关键。因此，我们提出首个核心问题：能否设计一种验证通信成本与模型参数规模无关的可验证聚合协议？
此外，现有方案（如基于零知识证明的协议[8]）虽首次实现安全可验证聚合，但其验证通信成本与梯度维度线性相关，且计算开销过大（例如，500个客户端验证20K维参数向量的聚合需每个客户端3.59MB上行通信与254,964ms计算）。通用多方计算（MPC）方案[14]–[21]则因通信与计算开销过大而不实用。因此，第二个核心问题为：如何使可验证聚合协议同时具备计算高效性？
挑战：
为了验证聚合过程的完整性，一个直观思路是使用同态哈希（homomorphic hash）计算待聚合梯度向量的"摘要"。聚合后的哈希值（即组合哈希）可通过各客户端哈希值推导得出，每个客户端将其与聚合结果的真实哈希比对即可验证聚合的正确性。尽管这种方法的通信开销与梯度维度无关（这一特性在联邦学习中非常重要），但其安全性存在严重缺陷。

安全性问题的根源在于：所有参与者均可访问同态哈希函数。在模拟安全性的证明中，模拟器在需要生成诚实客户端哈希值时，因无法获知其真实的梯度输入，只能使用虚拟向量代替。然而，虚拟向量与真实向量极大概率不一致。由于攻击者也可调用哈希函数计算聚合结果的哈希值，组合哈希与真实哈希的不匹配将立即暴露，导致模拟过程失败。因此，这种简单构造无法满足安全性需求。

现有方案（如文献[8]）通过结合同态哈希与零知识证明（zero-knowledge proof）解决此问题，但零知识证明的维度依赖性导致计算开销巨大，且验证通信量仍与梯度维度线性相关。这在真实联邦学习场景（如梯度维度达10万级）中难以实用。为此，我们亟需一种新型可验证聚合协议，在确保安全性的同时提升通信与计算效率。

贡献：
本文提出VERIFL协议——一种通信高效、计算快速的联邦学习可验证聚合协议。实验表明，在500个客户端、100K维参数的聚合验证场景下，VERIFL仅需33.24 KB通信开销（与维度无关）和8899 ms计算时间，相比现有最优方案[8]，通信效率提升110.6倍，计算效率提升28.7倍（即使参数规模扩大5倍）。具体贡献如下：

安全的可验证聚合机制

将线性同态哈希与承诺方案（commitment scheme）结合，强制聚合服务器仅能使用已提交的梯度（与先前广播的哈希一致）。哈希的抗碰撞性确保服务器无法伪造结果欺骗诚实客户端。
通过**可等化承诺（equivocal commitment）替代复杂的零知识证明，实现与[8]相当的安全性，同时避免其高昂开销。
采用双掩码技术（double-masking）**兼容安全聚合协议[7]，确保仅聚合结果被公开，保护单个客户端的梯度隐私。
维度无关的通信开销

客户端仅需提交梯度向量的哈希承诺（而非原始向量），承诺长度与梯度维度无关。线性同态性保证哈希的"和"等于向量和的哈希，从而将高维梯度压缩为固定长度的哈希值。
近似减半的计算开销

通过**摊销验证（amortized verification）**优化计算成本：最耗时的两次同态哈希调用（需O(d)模指数运算，d为维度）中，第一次用于预生成验证信息，不可避免；第二次通过随机系数对多轮次的哈希聚合结果进行线性组合，批量验证其一致性。这使得第二次调用的成本被轮次规模分摊，整体计算开销近似降至单次哈希调用水平。

总

系统模型

在这里插入图片描述

流程

在这里插入图片描述

承诺

在这里插入图片描述

引理1

在这里插入图片描述

VERIFL: Communication-Efficient and Fast Verifiable Aggregation for Federated Learning

文章目录

前言

一、pandas是什么？

相关知识

密码学

高效聚合

总

系统模型

流程

承诺

引理1