2019WAIC|微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

  • 时间:
  • 浏览:1
  • 来源:彩神APP下载-彩神APP官方

8月29日,2019世界人工智能大会(WAIC)于上海世博中心拉开帷幕,海内外大咖齐聚,学术界工业界交汇,共话人工智能未来。微众银行首席人工智能官杨强教授在大会主论坛——“科学前沿”演讲时表示,联邦学习我应该 成为AI在学术界和工业界的新趋势,未来行业面临的社会大众的要求和监管会这麼严格,联邦学习要能在满足用户隐私保护和数据安全需求的一齐,实现多方共赢。

微众银行作为联邦学习的国内首倡者和领导者,在杨强教授的带领下首次提出了“联邦迁移学习”,并通过领衔联邦学习国际标准(IEEE标准)制定、开源自研联邦学习框架Federated AI Technology Enabler(简称FATE)等来推动联邦学习技术在行业中的落地。

以下为微众银行首席人工智能官杨强教授演讲全文:

亲戚亲戚我们 好,今天非常高兴跟亲戚亲戚我们 讨论日后另有一个 题目——人工智能最后一一百公里。要怎样会会会么会会起日后另有一个 题目呢?现在我在微众银行负责人工智能的工作,接触到统统人工智能的应用场景。像微众银行日后另有一个 互联网银行,它服务的用户数我应该 超过了1.7亿,提供服务主要借助的手段统统人工智能和机器人。在服务过程中有 统统环节,比方说业务咨询、审核批准贷款文件、对申请人进行人脸识别、语音识别等身份核验、客服问答等。在金融领域,不仅要建立用户画像和模型找到用户,更要建立一整条长链路来服务广大的用户。

亲戚亲戚我们 我应该 粘壳悉什么人工智能领域的应用,但我能说的是,什么应用都离不开另有一个 元素——数据,尤其是大数据。我应该 亲戚亲戚我们 看看亲戚亲戚我们 的互近,却发现数据非常有限。在法律领域,积累一条有效的数据是时要很长时间的;在金融领域,尤其是大额贷款、理财领域,有效的数据也是非常少的;在医疗领域面临的是数据割裂的问题图片,每个医院有的是统统的医疗影像数据,却出于监管、安全、利益等因为非要够互相传递,无法形成合力。

在这个 情况下,数据聚合的需求十分强烈,却这麼得到满足。其中有 另有一个 很糙要的因为是社会对于用户隐私的要求这麼高。现在世界各地的监管机构纷纷出台强有力的法规,比方说欧盟在去年正式提出《通用数据保护条例》(GDPR),对另一方隐私、另一方数据的拥有权,包括模型的使用和可解释性都提出了非常严格的要求。中国的法律也在快步推进,连续出台了一系列关于用户隐私、用户数据安全和拥有权的法规,也我应该 严格限制企业之间的数据交换。

亲戚亲戚我们 一方面面临数据割裂,这麼大数据来训练人工智能;另一方面,法律法规和社会对安全的严格要求又限制了数据的融合。大数据变成了人工智能的挑战。

亲戚亲戚我们 要怎样应对这个 挑战?放弃人工智能吗?仅允许拥有大数据的公司来做人工智能吗?这有的是对,亲戚亲戚我们 的回答是,要积极地寻找一些新的技术方向来补救数据挑战。

亲戚亲戚我们 提出的法子 和方向叫做“联邦学习”,英文叫“Federated Learning”。数据的各个拥有方,在人及数据什么都这麼本地的情况下建立模型,我应该 让这个 模型要能共享,这麼在建立模型的过程中便不多侵犯用户的隐私,整个建模的过程就叫联邦学习的框架和算法。

Google在2016年就刚开使进行另有一个 项目,在安卓系统的手机用户中建立联邦学习,补救用户另一方终端设备的数据隐私问题图片。首先初始化模型下载到各终端,各终端根据另一方两种的数据更新模型参数,不同的终端就会产生不同的更新结果,什么更新被送到云端进行聚合,汇总后的模型参数将作为下一次更新的初始参数,日后另有一个 劲迭代直到收敛。用日后的另有一个 法子 既能保证用户隐私,一齐又能共享另有一个 通用模型,利用群体智能在云端不断更新。

日后的模型不仅时要另有一个 机器学习算法,更时要另有一个 分布式的机器学习算法。在分布式的机器学习算法之上,时要有各种加密的算法。在这个 基础上,亲戚亲戚我们 仔细地分析了一下,发现一共有两种模式来进行联邦学习。

第两种模式叫横向联邦学习,是指当另有一个 数据集的用户不同,重叠较少,但用户型态重叠较多时,亲戚亲戚我们 把数据集按照横向 (即用户维度) 切分,并取出双方用户型态相同而用户不完整性相同的那要素数据进行训练。

第二种叫做纵向联邦学习,是说另有一个 数据集的用户型态重叠较少,但它们却有较多的重叠用户,这麼亲戚亲戚我们 就把数据集按照纵向 (即型态维度) 切分,并取出双方用户相同而用户型态不完整性相同的那要素数据进行训练。

最后,我应该 另有一个 数据集既不重叠用户型态,又不重叠用户,这麼在这个 场景下,亲戚亲戚我们 也提出另有一个 新的算法,叫做联邦迁移学习。它都能否 利用迁移学习的算法,把这两方数据模型的本质挖到来,把抽象的模型加以聚合,在聚合的过程中保护用户隐私,也取得非常大的成功。

我觉得联邦学习的框架最近才提出来,我应该 它在产业界的应用我应该 有成熟的句子的句子的句子图片 期期是什么期是什么 图片 的进展。比方说亲戚亲戚我们 最近在另有一个 金融信贷的场景下就取得了非常成功的应用:一方是互联网企业,有统统用户的行为数据;另一方是金融企业——银行,时要建立另有一个 更准确的用户信贷模型。这时利用纵向联邦学习,把两边的模型加以共享,进行更新,日后模型就要能更有利,随着数据量的增加,效果也大为增加。以下是效果图。

一齐,亲戚亲戚我们 也尝试了统统不同的应用场景,比方说在城市管理领域,利用散落在各地的割裂的计算机视觉数据来建立另有一个 安全、共享的模型;在语音识别领域,不同的机构有不同的语音数据,不同的服务中心,它们也都能否 建立另有一个 联邦学习来补救用户隐私的问题图片。

日后讲的什么应用都离不开另有一个 概念,叫做生态。联邦学习生态的建立时要亲戚亲戚我们 不断地去倡导。亲戚亲戚我们 在学术界和工业界也做了一系列的推动工作,包括在日后刚开使的第28届国际人工智能联合会议(IJCAI 2019)上举办了首届国际联邦学习研讨会;在Linux Foundation开放了全球首个联邦学习的开源项目,叫FATE(Federated AI Technology Enabler),和更多的开发者一齐为联邦学习开源做出积极贡献。一齐,亲戚亲戚我们 也正在建立另有一个 联邦学习国际标准(IEEE标准),让不同的机构之间都能否 有一齐的语言,在建立联邦学习一齐模型的日后亲戚亲戚我们 的沟通会更敏捷;在国内,亲戚亲戚我们 也取得了很大的成就,牵头建立国内首个关于联邦学习的团体规范标准——《信息技术服务 联邦学习 参考架构》团体标准。

最后,机器学习离不开大数据,大数据离不开安全和保护隐私的考虑。联邦学习是另有一个 既能建立大数据模型,又能保护数据安全和用户隐私的有利的工具,希望更多的人能加入亲戚亲戚我们 一齐建立联邦学习生态。谢谢亲戚亲戚我们 !