内容简介:在这篇文章中,我分享了在首先,我从列出一些有关数据隐私的观察开始阐述这个话题:这让我想到了本演讲的主题:在数据隐私成为了一个重要问题的时代,我们该如何搭建分析服务和产品? 对数据平台进行架构设计和搭建,是我们许多人所关注的核心问题。 我们早就认识到数据安全和数据隐私是我们数据平台所必需的功能,但我们如何对分析进行限制?
在这篇文章中,我分享了在 2018年3月进行的加利福尼亚州Strata数据会议上所发表演讲 ,提供了和“公司如何在数据隐私变得关键的时代如何搭建数据分析产品”相关的幻灯片和笔记,它提供了一些建议。自从我发表演讲以来,很多事情已经发生了变化:有关Facebook的隐私政策的 文章很多 ,其首席执行官在美国国会面前作证两次,而且我已经停用了我基本处于休眠状态的Facebook帐户。 最终的结果是,人们对数据隐私的认知极大的提高,并承认,这个问题的影响范围远远超出了少数公司或 少数人 。
首先,我从列出一些有关数据隐私的观察开始阐述这个话题:
- 我们倾向于在安全漏洞的语境下讨论数据隐私,但在许多情况下 隐私侵权涉及被授予数据访问权限的人 。
- 我们的 连接设备越来越多 ,这意味着我们最敏感的数据正在被收集和贩卖,参见 智能家居的这篇文章 。
- 实际上世界各地的监管机构正以不同的方式解决数据隐私问题。更进一步地,许多公司在欧盟开展业务,出台的 通用数据保护法规( GDPR ) 将就“如何搭建和设计数据服务和产品”这一点上对全球的机构造成影响。
这让我想到了本演讲的主题:在数据隐私成为了一个重要问题的时代,我们该如何搭建分析服务和产品? 对数据平台进行架构设计和搭建,是我们许多人所关注的核心问题。 我们早就认识到数据安全和数据隐私是我们数据平台所必需的功能,但我们如何对分析进行限制?
一旦我们安全地获取数据到本地,我们接下来会以两种主要方式继续使用它:(1)做出更好的决策(商业智能)和(2)以实现某种形式的自动化(机器学习)。 事实证明,有一些新 工具 可用于构建能够保护隐私的数据分析产品。 让我们快速概览一下您今天可能要尝试的一些东西。
商业智能和分析
对于大多数公司而言, 商业智能 意味着 SQL 数据库。 你可以在保护隐私的同时运行SQL查询吗? 已经存在使用 硬件孤岛 在敏感数据上进行商业智能决策的系统,并且有一些原型系统,允许您 查询 或 使用 加密数据 (一位朋友最近向我展示了 HElib ,一种 同态加密 的开源、快速的实现 )。 让我来介绍优步与 加州大学伯克利分校RISE实验室 最近的 合作成果 。
他们对在优步执行的数百万个SQL查询的联合分析导致了一个系统的产生,该系统允许分析师提交查询,在满足最新 差分隐私 要求的条件下获得结果 (差分隐私形式化地保证了能够提供稳健的隐私保障)。 正如我上面提到的, 隐私侵犯可能涉及被授予访问数据权限的人 。 这个新的优步/ RISE实验室系统意味着,分析师可以被授予访问数据库的权限,以进行基于SQL查询的标准分析,同时维持了数据隐私。 他们的系统是开源的,可以与任何SQL数据库一起使用,并且它已经在Uber的试验性部署中开始被使用了(参见 论文 和 代码 )。
这将针对那些依赖SQL数据库做出的报告来保护商业智能。不过,有可能构建一个既能保护隐私,又能收集数百万用户的实时数据的系统吗? 回答是肯定的:在最近Apple和 Google 的发布中,详细描述了如何设计分析工具,以帮助他们理解“用户如何和设备进行交互”。例如,Apple和Google的分析师可以运行查询,以帮助他们收集输入法的统计信息,以及浏览器上的行为。
苹果在 一篇非常详尽的博客文章 中描述了他们的系统:
我们的系统的设计是,“可以选择性加入”以及“透明”。 在用户明确选择上报使用信息之前,不会对数据进行任何记录或传输任何数据。 在用户的设备上,数据是使用本地模型中的事件级差分隐私进行了隐私保护的。这里的事件,举例来说,可能是用户键入的emoji表情符号。 此外,我们限制每个用例传输的私有化事件的数量。 到服务器的传输每天在加密通道上进行一次,没有设备标识符。 记录到达限制访问服务器,其中IP标识符立即被丢弃,并且多个记录之间的任何关联也被丢弃。 此时,我们无法区分,例如,表情符号记录和Safari Web域记录是否来自同一用户。 处理记录以计算统计数据。 然后,这些汇总统计信息将在内部与Apple的相关团队共享。
微软等其他公司正在开发 涉及其他智能设备的类似系统 。
机器学习
对于机器学习而言,让我先聚焦于最近涉及深度学习的工作(目前最热门的机器学习方法)。 2015年 德克萨斯大学和康奈尔大学的研究人员 表明,人们可以“设计、实施和评估一个实用系统,使多方能够共同学习一个给定目标的准确的神经网络模型,而无需共享他们的输入数据集。” 一种潜在的应用是,一些医疗机构在无需向机构外部人员共享数据的条件下,希望构建、学习一个更加准确的联合模型。
2016年,Google采用了这种“共享模型”概念,并将其扩展到边缘设备! 他们将其用于设备上的 智能回复 和他们的 移动端视觉识别接口 等产品。这个新产品被他们称之为“ 联合学习 ”,能够将训练数据分发到移动设备上,再把本地计算的更新进行汇总,学习一个共享模型。
前两个例子涉及学习一个共享的(单)模型,而不共享数据。 在某些情况下,您可能需要高度个性化的模型,或者您可能天然拥有(人口学/使用上的)你的用户群体,这个群体可以从专门调整过的模型中受益。 这些情景是 斯坦福大学、CMU和南加州大学研究人员近期工作 的重点:他们使用 多任务学习 的思想来训练个性化的深度学习模型。 在多任务学习中,目标是考虑同时拟合独立而相关的模型。
结束语:一些思考
我主要想传达的信息是,无论是对于商业智能而言,还是对于机器学习而言保护隐私的分析是非常可能实现的,也您今天应该考虑做的一件事之一 。这不仅是为您的用户做的正确的事情,随着GDPR上线 隐私成为您的数据产品中所必需要包含的东西 :
从本质上讲, 隐私设计要求在系统设计开始时具备数据保护能力,而非作为一个可添加的模块。
最后一件要强调的是:我非常关注的两个技术趋势是自动化(AI)和去中心化(区块链,密码学,等等)。 有些人积极地致力于重建关键服务 —— 身份管理,数据存储,支付,数据交换,社交媒体 —— 以及将它们从中心化的系统中移除。 我相信,数据科学和大数据社区能够居其位谋其政,为自动化和去中心化两个方面同时做出贡献。 我们的社区花了数年时间致力于将重要的组件推向生产环境,这些组件包括机器学习和分布式系统,它们将继续作为未来平台的核心而存在。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 数据分析是什么,如何完善数据分析知识体系
- 通过“拖拽”搭建数据分析模型,「时代大数据」让经营管理者“直面数据”
- 大数据分析工程师入门(二十):数据分析方法
- 数据分析:基于智能标签,精准管理数据
- 数据分析的准备工作:从问题分析到数据清洗
- 蚂蚁数据分析平台的演进及数据分析方法的应用
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
算法概论
Sanjoy Dasgupta、Christos Papadimitriou、Umesh Vazirani / 钱枫 注、邹恒明 注 / 机械工业出版社 / 2009-1 / 55.00元
《算法概论(注释版)》源自加州大学伯克利分校和加州大学圣迭戈分校本科生的算法课讲义,以独特的视角展现了算法设计的精巧技术及魅力。在表达每一种技术时,强调每个算法背后的简洁数学思想,分析其时间和空间效率,运用与其他技术类比的方法来说明特征,并提供了大量实例。《算法概论(注释版)》以人类最古老的算法(算术运算)为起点,将各种算法中优美而有代表性的内容囊括书中,并以最前沿的理论(量子算法)结束,构成了较......一起来看看 《算法概论》 这本书的介绍吧!