联邦学习:论文阅读小笔记(1)

  一、联邦学习的目的

1.防止隐私数据泄露,保障数据安全

2.打破不同行业、部门之间的数据壁垒,以实现机器学习模型的全局最优化

二、技术简述

将机器学习的数据存储和模型训练阶段转移至本地用户,客户端金鱼中心服务器交互模型更新的参数信息

三、联邦学习分类

完整的训练数据集D应该由(I,Y,X)构成。即 I:用户id、Y:标签信息、 X:特征信息

该采用哪种联邦学习方法应该看两部分信息重叠情况:

个数据集的用户特征重叠部分较大,而用户重叠部分较小,为横向联邦学习
个数据集 的用户重叠部分较大, 而用户特征重叠部分较小,为纵向联邦学习
个数据集的用户与用户特征重叠部分都比较小,为联邦迁移学习;
横向联邦学习纵向联邦学习联邦迁移学习
(I,Y,X)X、Y相同;I不同X、Y不同;I相同X、Y、Z都不同
应用场景不同地区不同银行之间的模型训练(模型训练特征重合,但不同银行提供用户不同)同一地区银行与电商平台之间训练模型(用户重叠,但银行提供特征情况不同于电商提供特征)不同地区银行与电商平台之间训练模型(用户id、标签信息、特征均不相同)
本质将多方对不同目标的相同特征描述训练提取将多方对相同目标的不同特征描述训练提取
问题客户端易发生恶意连接窃取信息问题恶意用户推测他方用户隐私数据
举措增加检测方法;引入多方安全计算可通过RSA和哈希函数确保

四、联邦学习存在的问题

1.通信效率短板明显

全局模型训练时间=数据处理时间+通讯传输时间

可见通信传输效率是限制训练速度的主要因素

联邦学习数据:非独立同分布(Non-IID:只在概率统计理论中,各数据集的随机变量不服从于同意分布)

在传统分布框架算法中Non-IID比IID更难收敛,会出现通信轮数过多的问题

2.隐私安全有缺陷

在真实网络环境中会出现:恶意客户端修改模型更新、破坏全局模型聚合;恶意分析者分析模型信息推测源数据隐私;恶意服务器企图获得客户端源数据;

3.缺乏信任与激励机制

无高效激励机制➡难吸引足够的训练用户(数据)➡无法保证模型质量

无信任机制➡没能有效选择优质客户端➡模型精度降低