联邦学习,数据使用新范式

        打开抖音,划不尽的是最合你口味的视频;打开淘宝,铺满首页的是你最心水的商品;打开头条,推荐的是你最关心的新闻。你在赞叹APP深懂我心的同时,又细思极恐,“我的隐私又被算法了吗?”

       所幸重视数据隐私和安全已成为全世界的共识。欧盟2018年正式实施《通用数据保护条例》(General Data Protection RegulationGDPR),旨在推动强制执行隐私条例,一方面规定了企业在对用户的数据收集、存储、保护和使用时新的标准;另一方面,对于用户自身的数据,也给予用户更大的处理权。而在国内,监管正呈现出严格化、全面化、密集化的趋势。

资料来源:WeBank 《联邦学习技术介绍、应用和FATE开源框架》

       但是数据是人工智能的基础。在数据保护的新规下,各方数据形成了一座座孤岛,质量参差不齐,模型难以获得大量有价值的数据进行训练。人工智能的开发利用有点“又要马儿跑,又要马儿不吃草”的意思。 

因此,在数据监管力度加大的新常态下,需要一些新方法,既能维护数据安全,又能促进数据开发与利用。今天我们要介绍的联邦学习(Federal Learning)就是其中一种比较热门的方法。

 

 
 

何为联邦学习

 

联邦学习的概念最早由谷歌提出,他们的主要想法是建立基于分布在多个设备上的数据集的机器学习模型,同时防止数据泄漏。

简单说就是谷歌输入法学习用户的打字习惯,为用户推荐联想词和表情,但与传统推荐算法不同的是,它是在不侵犯用户隐私,主要依赖用户移动设备自身完成的训练。

WeBank在《联邦学习白皮书2.0》中对联邦学习给出了如下定义:

“在进行机器学习的过程中,各参与方可借助其他方数据进行联合建模。各方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。“

下图展示了联邦学习的基本架构:

 

资料来源:WeBank 《联邦学习白皮书2.0》

联邦学习使多个参与方在保护数据隐私、满足合法合规要求的前提下进行机器学习,解决数据孤岛问题。

 

 
 

联邦学习的分类

联邦学习可以分为横向联邦学习、纵向联邦学习和联邦迁移学习。

资料来源:WeBank 《联邦学习白皮书2.0》

横向联邦学习适用于参与方数据集的用户特征重叠较多而用户重叠较少的情况。参与方通常是同行业不同地区的,比如两家城商行、两个不同城市的肿瘤医院,它们的用户多为本地居民,彼此没有交集,但由于业务相似,客户拥有几乎相同的用户特征。

纵向联邦学习适用于参与方数据集的用户重叠较多但用户特征重叠较少的情况。参与方通常是不同行业的,比如银行和电商,它们可能有相同的客户,但银行拥有的是用户的收支数据,而电商拥有的则是用户的购买行为数据。纵向联邦学习聚合同一个用户的不同特征,使得模型对该用户的刻画更为全面。

联邦迁移学习适用于参与方数据集的用户和用户特征重叠都比较少的情况下,利用迁移学习来克服数据或标签不足的情况。例如一家位于中国的银行和一家位于美国的电商,引入迁移学习可解决单边数据规模小和标签样本少的问题。 

 

 
 

联邦学习的价值

 

联邦学习可能成为未来人工智能发展的底层技术,用来打破隐私安全保护要求下形成的数据孤岛,以联合各方达成互信,共同开发利用数据,加速人工智能技术的发展与应用。

这种近年兴起的技术是极具商业价值的,它将改变合作中数据供需方的关系,重新定义各方合作者的身份、服务方式和盈利方式,催生联合建模的新业态和新模式。它的发展大体会经历三个阶段。

第一阶段为联邦学习标准和开源生态的建立。通过建立国内外联邦学习标准,有利于规范联邦学习的使用方式,帮助不同企业共同使用数据,杜绝因标准不同而形成的新孤岛。建立开源生态有利于吸引开发者加入,共同开发、维护社区。

第二阶段为示范项目的落地。比如在金融领域,多家区域银行机构的联合建模,能生成更好的风控模型,识别信贷风险;在流量变现领域,社交平台和电商平台的联合建模,全面刻画用户画像,更精准地推送产品和服务;在医疗领域,多家医疗机构可在不泄露病人隐私的情况下联合建模,克服医疗行业数据少、数据质量一般的问题。

第三阶段为行业数据联盟的形成。当第二阶段的垂直领域应用实现,其他数据方将会被吸引,加入联合建模,更多的数据使得模型优化,吸引更多数据方,形成正反馈,最终形成行业数据联盟。数据联盟拥有激励机制,鼓励成员开放自己的数据,各参与方均能以较低的成本获得昔日花大价钱也未必能得到的数据。

 

 
 

面临的挑战

 

联邦学习作为一个新兴技术,还有众多技术挑战亟待解决。

使用的数据方面,联邦学习使用的异构数据是non-iid的,有别于传统机器学习使用的iid数据,因而对这些数据的机器学习需要修改现有的算法或是建立新的模型。

加密方面,联邦学习使用的同态加密算法在运算效率上仍然需要提升。

通信方面,以前文提到的谷歌输入法为例,训练数据存在于用户的移动设备上,而移动设备的通信带宽是非常有限的,并且移动设备不是永远处于在线状态。因此尽管安装谷歌输入法的手机可能很多,但同时在线可用的设备是很有限的。

联盟与激励机制方面,如何设计激励机制,如何识别混入联盟中意图不轨的攻击者,均是需要考虑的问题。

 

对隐私的关注和数据安全的监管是人工智能利用大数据时的一个难题,以联邦学习为代表的隐私保护下的机器学习技术为解决这个难题提供了一些新思路,应用前景十分广阔。我们关注到了此类技术,也对它未来可能催生出的新数据生态系统充满好奇。相信有了这些技术的加持,以后我们面对各类APP的推荐时会更加舒心。 

 

 

 

首页    联邦学习,数据使用新范式