内容简介:在这篇文章中,我分享了在首先,我从列出一些有关数据隐私的观察开始阐述这个话题:这让我想到了本演讲的主题:在数据隐私成为了一个重要问题的时代,我们该如何搭建分析服务和产品? 对数据平台进行架构设计和搭建,是我们许多人所关注的核心问题。 我们早就认识到数据安全和数据隐私是我们数据平台所必需的功能,但我们如何对分析进行限制?
在这篇文章中,我分享了在 2018年3月进行的加利福尼亚州Strata数据会议上所发表演讲 ,提供了和“公司如何在数据隐私变得关键的时代如何搭建数据分析产品”相关的幻灯片和笔记,它提供了一些建议。自从我发表演讲以来,很多事情已经发生了变化:有关Facebook的隐私政策的 文章很多 ,其首席执行官在美国国会面前作证两次,而且我已经停用了我基本处于休眠状态的Facebook帐户。 最终的结果是,人们对数据隐私的认知极大的提高,并承认,这个问题的影响范围远远超出了少数公司或 少数人 。
首先,我从列出一些有关数据隐私的观察开始阐述这个话题:
- 我们倾向于在安全漏洞的语境下讨论数据隐私,但在许多情况下 隐私侵权涉及被授予数据访问权限的人 。
- 我们的 连接设备越来越多 ,这意味着我们最敏感的数据正在被收集和贩卖,参见 智能家居的这篇文章 。
- 实际上世界各地的监管机构正以不同的方式解决数据隐私问题。更进一步地,许多公司在欧盟开展业务,出台的 通用数据保护法规( GDPR ) 将就“如何搭建和设计数据服务和产品”这一点上对全球的机构造成影响。
这让我想到了本演讲的主题:在数据隐私成为了一个重要问题的时代,我们该如何搭建分析服务和产品? 对数据平台进行架构设计和搭建,是我们许多人所关注的核心问题。 我们早就认识到数据安全和数据隐私是我们数据平台所必需的功能,但我们如何对分析进行限制?
一旦我们安全地获取数据到本地,我们接下来会以两种主要方式继续使用它:(1)做出更好的决策(商业智能)和(2)以实现某种形式的自动化(机器学习)。 事实证明,有一些新 工具 可用于构建能够保护隐私的数据分析产品。 让我们快速概览一下您今天可能要尝试的一些东西。
商业智能和分析
对于大多数公司而言, 商业智能 意味着 SQL 数据库。 你可以在保护隐私的同时运行SQL查询吗? 已经存在使用 硬件孤岛 在敏感数据上进行商业智能决策的系统,并且有一些原型系统,允许您 查询 或 使用 加密数据 (一位朋友最近向我展示了 HElib ,一种 同态加密 的开源、快速的实现 )。 让我来介绍优步与 加州大学伯克利分校RISE实验室 最近的 合作成果 。
他们对在优步执行的数百万个SQL查询的联合分析导致了一个系统的产生,该系统允许分析师提交查询,在满足最新 差分隐私 要求的条件下获得结果 (差分隐私形式化地保证了能够提供稳健的隐私保障)。 正如我上面提到的, 隐私侵犯可能涉及被授予访问数据权限的人 。 这个新的优步/ RISE实验室系统意味着,分析师可以被授予访问数据库的权限,以进行基于SQL查询的标准分析,同时维持了数据隐私。 他们的系统是开源的,可以与任何SQL数据库一起使用,并且它已经在Uber的试验性部署中开始被使用了(参见 论文 和 代码 )。
这将针对那些依赖SQL数据库做出的报告来保护商业智能。不过,有可能构建一个既能保护隐私,又能收集数百万用户的实时数据的系统吗? 回答是肯定的:在最近Apple和 Google 的发布中,详细描述了如何设计分析工具,以帮助他们理解“用户如何和设备进行交互”。例如,Apple和Google的分析师可以运行查询,以帮助他们收集输入法的统计信息,以及浏览器上的行为。
苹果在 一篇非常详尽的博客文章 中描述了他们的系统:
我们的系统的设计是,“可以选择性加入”以及“透明”。 在用户明确选择上报使用信息之前,不会对数据进行任何记录或传输任何数据。 在用户的设备上,数据是使用本地模型中的事件级差分隐私进行了隐私保护的。这里的事件,举例来说,可能是用户键入的emoji表情符号。 此外,我们限制每个用例传输的私有化事件的数量。 到服务器的传输每天在加密通道上进行一次,没有设备标识符。 记录到达限制访问服务器,其中IP标识符立即被丢弃,并且多个记录之间的任何关联也被丢弃。 此时,我们无法区分,例如,表情符号记录和Safari Web域记录是否来自同一用户。 处理记录以计算统计数据。 然后,这些汇总统计信息将在内部与Apple的相关团队共享。
微软等其他公司正在开发 涉及其他智能设备的类似系统 。
机器学习
对于机器学习而言,让我先聚焦于最近涉及深度学习的工作(目前最热门的机器学习方法)。 2015年 德克萨斯大学和康奈尔大学的研究人员 表明,人们可以“设计、实施和评估一个实用系统,使多方能够共同学习一个给定目标的准确的神经网络模型,而无需共享他们的输入数据集。” 一种潜在的应用是,一些医疗机构在无需向机构外部人员共享数据的条件下,希望构建、学习一个更加准确的联合模型。
2016年,Google采用了这种“共享模型”概念,并将其扩展到边缘设备! 他们将其用于设备上的 智能回复 和他们的 移动端视觉识别接口 等产品。这个新产品被他们称之为“ 联合学习 ”,能够将训练数据分发到移动设备上,再把本地计算的更新进行汇总,学习一个共享模型。
前两个例子涉及学习一个共享的(单)模型,而不共享数据。 在某些情况下,您可能需要高度个性化的模型,或者您可能天然拥有(人口学/使用上的)你的用户群体,这个群体可以从专门调整过的模型中受益。 这些情景是 斯坦福大学、CMU和南加州大学研究人员近期工作 的重点:他们使用 多任务学习 的思想来训练个性化的深度学习模型。 在多任务学习中,目标是考虑同时拟合独立而相关的模型。
结束语:一些思考
我主要想传达的信息是,无论是对于商业智能而言,还是对于机器学习而言保护隐私的分析是非常可能实现的,也您今天应该考虑做的一件事之一 。这不仅是为您的用户做的正确的事情,随着GDPR上线 隐私成为您的数据产品中所必需要包含的东西 :
从本质上讲, 隐私设计要求在系统设计开始时具备数据保护能力,而非作为一个可添加的模块。
最后一件要强调的是:我非常关注的两个技术趋势是自动化(AI)和去中心化(区块链,密码学,等等)。 有些人积极地致力于重建关键服务 —— 身份管理,数据存储,支付,数据交换,社交媒体 —— 以及将它们从中心化的系统中移除。 我相信,数据科学和大数据社区能够居其位谋其政,为自动化和去中心化两个方面同时做出贡献。 我们的社区花了数年时间致力于将重要的组件推向生产环境,这些组件包括机器学习和分布式系统,它们将继续作为未来平台的核心而存在。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 数据分析是什么,如何完善数据分析知识体系
- 通过“拖拽”搭建数据分析模型,「时代大数据」让经营管理者“直面数据”
- 大数据分析工程师入门(二十):数据分析方法
- 数据分析:基于智能标签,精准管理数据
- 数据分析的准备工作:从问题分析到数据清洗
- 蚂蚁数据分析平台的演进及数据分析方法的应用
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
CSS 压缩/解压工具
在线压缩/解压 CSS 代码
MD5 加密
MD5 加密工具