不让「数据孤岛」成为 AI 发展的绊脚石,「联邦学习」将成突破口?

栏目: 数据库 · 发布时间: 5年前

内容简介:人工智能面临的问题人工智能发展至这一阶段,存在三个与数据紧密相关的问题:

雷锋网 (公众号:雷锋网) AI 科技评论按: 人工智能经过漫长发展,近些年成功突破技术与算力上的限制,因此得以在新世纪发挥着举足轻重的作用。不过随之而来是一系列的新问题——最典型的比如「数据孤岛」问题。该问题一日不被解决,将可能抑制人工智能领域的长期发展,并造成严重的商业后果。

人工智能面临的问题

人工智能发展至这一阶段,存在三个与数据紧密相关的问题:

  1. 很多领域的数据数量有限且质量较差,有人做过估算,如果将医疗数据交由第三方公司标注,需要动用 1 万人花上 10 年的时间才能收集到有效数据;

  2. 由于竞争关系、安全问题、审批流程等因素,数据之间的流通存在着难以打破的壁垒,即所谓的「数据孤岛」问题;

  3. 即便行业间有意交换数据,也可能遭遇政策问责,因为重视数据隐私和安全已经成为世界性的趋势,如欧盟最近引入的新法案——《通用数据保护条例》(General Data Protection Regulation, GDPR) 就是一个最佳证明。

针对以上问题,谷歌公司率先提出了基于个人终端设备的「横向联邦学习」(Horizontal Federated Learning)算法框架,而 AAAI Fellow 杨强教授与微众银行随后提出了基于「联邦学习」的系统性的通用解决方案,可以解决个人 (to C) 和公司间 (to B) 联合建模的问题。

「联邦学习」

「联邦学习」实际上是一种加密的分布式机器学习技术,参与各方可以在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型。它可以实现各个企业的自有数据不出本地,而是通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。由于数据本身不移动,因此也不会涉及隐私泄露和数据合规问题。建好的模型将在各自的区域仅为本地的目标服务。在这样一个机制下,参与各方的身份和地位相同,成功实现了「共同富裕」的目标。

「联邦学习」具有四大显著优势。

  • 第一是数据隔离,数据不会泄露到外部,满足用户隐私保护和数据安全的需求;

  • 第二是能够保证模型质量无损,不会出现负迁移,保证联邦模型比割裂的独立模型效果好;

  • 第三则是参与者地位对等,能够实现公平合作;

  • 最后,则是能够保证参与各方在保持独立性的情况下,进行信息与模型参数的加密交换,并同时获得成长。

(更多联邦学习技术介绍请登陆官网: https://www.fedai.org/#/

「联邦学习」规范化

为了加速「联邦学习」的普及与落地,杨强教授与微众银行做出了众多努力,其中包括了在国际顶会上发表演讲、发布《联邦学习白皮书 V1.0》以及发布商用级开源项目 FATE(Federated AI Technology Enabler)等。最近,由微众银行主办的 IEEE P3652.1(联邦学习基础架构与应用)标准工作组第一次会议在深圳成功召开,会议的召开也正式宣告「联邦学习」走入行业规范。

「IEEE 标准协会」是世界领先的行业标准制定机构,其标准制定内容涵盖互联网、人工智能、电子电路和通信等多个领域。目前,IEEE 标准协会已经制定了 900 多个现行工业标准,如众所周知的 IEEE 802®有线与无线的网络通信标准和 IEEE 1394™标准,同时,还有 400 多项标准正在制定过程中。由微众银行牵头的 IEEE P3652.1 项目是首个联邦学习领域的国际标准。

不让「数据孤岛」成为 AI 发展的绊脚石,「联邦学习」将成突破口?

IEEE 会议上,杨强教授发表了相关演讲

不让「数据孤岛」成为 AI 发展的绊脚石,「联邦学习」将成突破口?

由微众银行主办的 IEEE P3652.1(联邦学习基础架构与应用)标准工作组第一次会议在深圳成功召开

「联邦学习」未来展望

在学界与业界的不懈努力下,「联邦学习」技术日渐成熟,针对不同数据方所涉及数据集的用户群体和用户特征不完全相同的问题,如今已延展出横向联邦学习、纵向联邦学习以及联邦迁移学习等分类:

  • 横向联邦学习 ——在两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向 (即用户维度) 切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。

  • 纵向联邦学习 ——在两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向 (即特征维度) 切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。目前,逻辑回归模型,树型结构模型和神经网络模型等众多机 器学习模型已经逐渐被证实能够建立在这个联邦体系上。

  • 联邦迁移学习 ——在两个数据集的用户与用户特征重叠都较少的情况下,我们不对数据进行切分,而可以 利用迁移学习来克服数据或标签不足的情况。

不让「数据孤岛」成为 AI 发展的绊脚石,「联邦学习」将成突破口?

主要基于数据集的用户群体与用户特征进行分类,进而决定处理方案

以借贷行业为例,当需检测多方借贷的不良用户时,(在一个金融机构借贷后还钱给另一个借贷机构),在联邦学习的条件下,即可利用联邦机制向联邦内的其他机构发出新用户的查询,这样既能保护已有用户在各个金融机构的隐私和数据完整性,也能完成查询多头借贷的问题。

我们期待,在不远的将来,联邦学习能够帮助打破各领域、各行业的数据壁垒,在保护数据隐私和安全的前提下形成一个数据与知识共享的共同体,并同时解决了奖励对联盟做出贡献机构的共识机制,将人工智能带来的红利落实到社会的各个角落。

雷锋网 AI 科技评论 雷锋网

雷锋网原创文章,未经授权禁止转载。详情见 转载须知


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

逆袭大学

逆袭大学

贺利坚 / 人民邮电出版社 / 2014-3 / 49.00

《逆袭大学——传给IT学子的正能量》以作者近二十年的从教经历和义务为IT学子解答咨询的工作为基础,以认识专业为起点,以编程能力的提高为关键,帮助计算机类专业的大学生更新学习观念、重塑学习品质、培养学习方法,找到自己的大学之路。书中直接解答了学无用处论、专业兴趣、考研、职场等诸多大学生面临的典型困惑。 本书主要面向在校计算机类(包括软件工程、网络工程等)专业高校学生,也能让非计算机类专业的高校......一起来看看 《逆袭大学》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具