沙龙回顾 | 数据科学与工程学院第12期学术沙龙

发布时间:2021-06-15浏览量:173

随着大数据和人工智能技术在现代社会的普及,隐私安全问题显得尤为重要。如何在不共享数据的前提下训练出可靠有效的模型是业界的重点关注问题。为解决该问题,联邦学习于近年来被提出,并被广泛关注。5月19日下午,华东师范大学数据学院举办联邦学习专场,带领同学们了解联邦学习的基础知识与应用。

本次报告由李翔老师开头,从宏观角度介绍了联邦学习,接着由其组里的两位同学做了细化的介绍。


《联邦学习算法与挑战》

640.png

李翔老师带给我们带来的报告是“联邦学习算法与挑战”。首先,他给我们介绍了联邦学习的背景。随着大数据和人工智能技术在现代社会的普及,隐私安全问题显得尤为重要。如何在不共享数据的前提下训练出可靠有效的模型是联邦学习解决的主要问题。然后,李老师为我们介绍了联邦学习与分布式机器学习的相同与不同点,比如说联邦学习场景下不同客户端上的数据存在严重的非独立同分布的情况,这也使得联邦学习的训练变得尤为困难,另外联邦学习相较于分布式机器学习对隐私的要求极高。之后李老师为我们重点介绍了联邦学习的分类-横向联邦和纵向联邦,以及联邦学习领域中常见的问题以及研究挑战。最后,他为我们介绍了最经典的联邦学习算法-联邦平均算法FedAvg,该算法也是联邦学习领域几乎所有论文的baseline。


《基于同态加密的纵向联邦机器学习介绍》

沙龙-纵向联邦-张坤坤.jpg

张坤坤同学给大家介绍了纵向联邦学习和同态加密的一些基本概念、方案和现状。由于隐私保护相关的法律约束越来越强,企业与企业之间简单的交换用户数据越来越不可行,而纵向联邦学习算法为该场景下的联合建模提供了解决方案。报告伊始,张同学先结合一个具体业务案例引出了纵向联邦学习问题,并列举了当前纵向联邦学习算法的主流实现方向及其优缺点,延伸介绍了联邦学习中常用的隐私保护算法——同态加密的概念及其现状。技术细节部分,张同学详细介绍了一个基于Paillier同态加密的纵向联邦算法的推理及训练流程,并展示了他们实验室对纵向联邦学习的一些实验结果。其中令人印象深刻的是,同态加密对纵向联邦学习效率的影响还是比较大的,引入同态加密使得原本的模型训练时长膨胀了三千多倍,针对此问题可以通过引入专门的同态加密硬件加以缓解。报告的最后,张同学介绍了当前纵向联邦学习的应用现状,列举了一些实际应用案例,如微众银行将纵向联邦学习应用于小微企业风控模型使得AUC提升 12% 、字节跳动的联邦广告投放使得投放效率提升10%等。


《联邦学习场景下的推荐算法》

吴宇航沙龙(1).jpg

吴宇航同学给我们介绍了联邦学习场景下推荐系统的一些知识。首先,他给我们介绍了当前推荐系统的基本形式。推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。推荐系统近年来非常流行,应用于各行各业。推荐的对象包括:电影、音乐、新闻、书籍、学术论文、搜索查询、分众分类、以及其他产品。给各大互联网企业带来了相当的收益的同时,也给用户带来了更多的便利,让用户更快地找到自己想要地东西。然而,随着愈发严格隐私监管法案给推荐系统带来了一些问题。推荐系统一方面也是一个数据驱动型的业务,也就是说,数据越多效果越好,近年来也有很多实验证实了这一结论。而每个企业所能获得的数据是有限的,于是,多个企业共享数据,共同获利也就成为了一个自然的选择。但是,随着互联网数据隐私法律条例的落地,政府对数据安全和隐私的监管逐渐趋于全面化、严格化、密集化,隐私安全就成为了一个值得引起相当重视的问题。他也介绍了之前推荐系统为了保护数据安全而做出的一些努力,比如差分隐私,同时也指出差分隐私存在的一些问题。然后,吴宇航同学给我们介绍了联邦推荐系统的一种分类。最后,吴宇航同学分别给出了纵向联邦推荐系统和横向联邦推荐系统的两个案例,展示了算法流程,并指出联邦推荐应当是精度无损的。

本次沙龙气氛活跃,参与人数众多,不仅包括了数据学院的学生,还有其他学院的老师参加。因联邦学习属于前沿热点研究,老师和同学们积极讨论,希望可以做到学科交叉、领域融合,碰撞出新的科研火花。

在整场报告中,同学们了解了联邦学习的基础知识,并掌握了联邦学习潜在的研究方向和实际的应用场景。在同学们未来的研究中,可以适当引入联邦学习知识到个人研究领域当中,做到领域交叉融合,这可能会带来意想不到的科研思路。