两大头号玩家 一个伟大愿景: 联邦学习的元生态建设美好世界
新年伊始,世界领先的标准制定机构IEEE标准协会牵头,组织了2022年度联邦学习领域首场重量级尖峰交流活动——联邦学习首创团队带头人、谷歌研究院副总裁Blaise Aguëra y Arcas博士,与联邦学习亚洲奠基人、IEEE联邦学习标准工作组主席、国际人工智能联合会(IJCAI)理事会前主席、微众银行首席人工智能官杨强教授的强强对话。两位联邦学习领域的顶尖学者分别从不同技术路线的研究与实践出发,对联邦学习最新技术进展、国际标准制定及生态系统构建等问题进行了探讨与前瞻。
尖峰对谈:联邦学习奠基人的首次思想碰撞
近年来,人工智能技术快速被应用于千行百业,数据作为新时代的重要生产要素,是各机构、领域乃至社会的基础性战略资源成为全球共识。如何解决“数据孤岛”问题,保证数据安全与隐私保护,成为业界关注的核心问题。联邦学习作为新一代隐私计算关键技术,能有效解决AI协作与联合建模中的隐私保护和数据安全问题,实现“数据不动模型动,数据可用不可见”,因而受到产学研用各界的广泛关注。
在联邦学习技术走向纵深发展的关键期与变革期,IEEE标准协会组织了这场巅峰对话,围绕联邦学习的技术突破与实践进展、生态建设、国际标准等维度,两位联邦学习领域的科学家国际名人进行了精彩纷呈的对话。
事实上,Blaise Aguëra y Arcas博士与杨强教授颇有渊源,双方都在联邦学习技术的发展史上留下了浓墨重彩的一笔。2016年,Blaise Aguëra y Arcas博士所在的谷歌研究团队首次提出基于个人终端设备(C端)的“横向联邦学习”算法框架,正式将联邦学习这一新技术配置引入人工智能领域。2018年,杨强教授团队在国内首次提出面向企业和机构(B端)的“纵向联邦学习”算法框架,成为打破企业与企业、机构与机构间“数据孤岛”阻碍的关键技术,随后又进一步提出了更具通用性的“联邦迁移学习”解决方案,将联邦学习带入了大众视野。
时至今日,联邦学习已被大量应用于金融、医疗、智能营销等多个领域,并于2019年首次列入Gartner数据科学与机器学习技术成熟度曲线,成为当前最值得关注的技术趋势之一。在学术界、工业界和产业界的共同关注与推动下,联邦学习在技术研发、产业应用及国际标准制定方面均取得了高质量的成果的发展成果,并朝着新的发展阶段迈进。
国际共识:联邦学习技术发展进入“生态系统”阶段
对谈中,针对联邦学习“标准化”建设,Blaise Aguëra y Arcas博士与杨强教授一致认为,当前联邦学习“标准化”的几大关键要素:联邦学习持续发展过程中不断升级的安全性需求应对、市场教育与商业化以及联邦学习生态建设的激励机制构建等。
关于联邦学习生态的未来前景,无论是基于谷歌C端业务实践还是国内企业级解决方案的应用,两位科学家达成共识:目前,联邦学习已进入“生态系统”阶段,并各自给出了针对如何推动联邦学习生态发展的建议。
Blaise Aguëra y Arcas博士作了一个生动的比喻,“数据迁移好比DNA的交换与移动。在一个巨大的生物体上,分散在不同细胞的DNA能够从一个细胞到另一个细胞的横向转移。同理,联邦学习也像巨大的、分布式有机体,它有一个元基因组,比任何一个特定的细胞都要大得多。”
他表示,联邦学习解决了一般机器学习未能解决的问题,即在不牺牲隐私的前提下,实现数据“基因”在生态内的流动,该生态环境十分广阔,甚至可能超过了我们的想象范围。
杨强教授表示认同,他认为这种机器学习在现阶段的变革和自洽正是人工智能进一步成熟化的标志。在他看来,下一步是去利用所有的数据仓库来建立小的模型,这些小模型尽管不能实现实体共享,但能纳入一个模型网络来建立一个虚拟的预训练模型。“这种虚拟模型会更加活跃,在某种意义上也更加先进。是对当前分布的一个更加准确的映射。”
国际标准:联邦学习“标准化”提供规则及通用语言基础
如何让这个联邦学习生态实现“自我进化”?杨强教授认为中立的第三方和开源平台对于生态的健康发展至关重要。
他表示,一方面,中立的第三方组织参与共建,有利于消除参与者某些层面的疑虑;得到中立第三方组织认可的“联邦学习IEEE国际标准”为众多参与者的公平使用、交流提供了明确的规则和通用语言。另一方面,以FATE社区为例,联邦学习开源平台提供了丰富的学习、使用资源,让更多人可以去使用,同时做到了让底层代码公开可见,每个使用者都可以去检验代码和系统,这对于联邦学习安全性和隐私保护能够起到正向的促进作用。
联邦学习的最大价值,在于对隐私数据保驾护航,但技术本身的安全性如何保证?对此,杨强教授表示,在联邦学习成熟化的过程中,也必不可少地面临着大家对技术的检视,在模型的构建过程中,从技术角度而言,无论是构建行业标准还是构建原则,大家都应该谨记平衡三点——安全与隐私、计算和通信效率、模型的有效性。
Blaise Aguëra y Arcas博士则介绍,“上述三者之间的均衡一直是业界致力于攻克的技术难题,谷歌也在探索一些技术例如安全聚合以解决上述问题。在过去的几年,无监督学习的兴起给了我很多启发。”他解释,无监督学习通过不使用标签或减少对标签数量、质量的要求来迅速降低深度模型对于数据的标注需求,使得原本无法利用的数据如今都可以加入到模型的训练中去,进而由量变引发质变。他认为未来无监督学习和联邦学习的集成将是一个新的研究方向。对于联邦学习未来的发展他充满信心,他认为,也不排除有个别反对者为了博人眼球来夸大联邦学习的安全漏洞,“你如果真实参与攻击,就会发现,在联邦学习技术保护下,(攻击目标)是多么难以实现。”
IEEE标准协会CXO及中国战略合作总监王亮迪博士作为对话主持人, 在总结时提到,两位科学家让我们看到,联邦学习是个进化中的生命体,色彩纷呈,保护个人用户的隐私、建立社会信任是它的生命力所在。2022年联邦学习迈向超级“元生态”,愿它服务于人类福祉。两位科学家和他们的工作为人师表,让我们加入他们,一起用联邦学习的技术、产业、生态共创美好世界。