联邦学习:论文阅读小笔记(1)
一、联邦学习的目的
1.防止隐私数据泄露,保障数据安全
2.打破不同行业、部门之间的数据壁垒,以实现机器学习模型的全局最优化
二、技术简述
将机器学习的数据存储和模型训练阶段转移至本地用户,客户端金鱼中心服务器交互模型更新的参数信息
三、联邦学习分类
完整的训练数据集D应该由(I,Y,X)构成。即 I:用户id、Y:标签信息、 X:特征信息
该采用哪种联邦学习方法应该看两部分信息重叠情况:
1
)
2
个数据集的用户特征重叠部分较大,而用户重叠部分较小,为横向联邦学习
;
2
)
2
个数据集 的用户重叠部分较大,
而用户特征重叠部分较小,为纵向联邦学习
;
3
)
2
个数据集的用户与用户特征重叠部分都比较小,为联邦迁移学习;
| 横向联邦学习 | 纵向联邦学习 | 联邦迁移学习 | |
| (I,Y,X) | X、Y相同;I不同 | X、Y不同;I相同 | X、Y、Z都不同 |
| 应用场景 | 不同地区不同银行之间的模型训练(模型训练特征重合,但不同银行提供用户不同) | 同一地区银行与电商平台之间训练模型(用户重叠,但银行提供特征情况不同于电商提供特征) | 不同地区银行与电商平台之间训练模型(用户id、标签信息、特征均不相同) |
| 本质 | 将多方对不同目标的相同特征描述训练提取 | 将多方对相同目标的不同特征描述训练提取 | |
| 问题 | 客户端易发生恶意连接窃取信息问题 | 恶意用户推测他方用户隐私数据 | |
| 举措 | 增加检测方法;引入多方安全计算 | 可通过RSA和哈希函数确保 |
四、联邦学习存在的问题
1.通信效率短板明显
全局模型训练时间=数据处理时间+通讯传输时间
可见通信传输效率是限制训练速度的主要因素
联邦学习数据:非独立同分布(Non-IID:只在概率统计理论中,各数据集的随机变量不服从于同意分布)
在传统分布框架算法中Non-IID比IID更难收敛,会出现通信轮数过多的问题
2.隐私安全有缺陷
在真实网络环境中会出现:恶意客户端修改模型更新、破坏全局模型聚合;恶意分析者分析模型信息推测源数据隐私;恶意服务器企图获得客户端源数据;
3.缺乏信任与激励机制
无高效激励机制➡难吸引足够的训练用户(数据)➡无法保证模型质量
无信任机制➡没能有效选择优质客户端➡模型精度降低