内容简介:摘要: 1 背景 越来越多的企业希望汇集数据,实现数据驱动决策,优化业务敏捷性。 但是大规模、集中的数据存储也带来了新的隐私和治理问题。 集中式数据存储库为攻击者提供了更加诱人的目标,并且敏感数据和有价值的IP无法随需应变地满足业务需求。 ...
摘要: 1 背景 越来越多的企业希望汇集数据,实现数据驱动决策,优化业务敏捷性。 但是大规模、集中的数据存储也带来了新的隐私和治理问题。 集中式数据存储库为攻击者提供了更加诱人的目标,并且敏感数据和有价值的IP无法随需应变地满足业务需求。 ...
1
背景
但是大规模、集中的数据存储也带来了新的隐私和治理问题。
集中式数据存储库为攻击者提供了更加诱人的目标,并且敏感数据和有价值的IP无法随需应变地满足业务需求。
2
世平首发 | 企业数据发布整合体系
数据源
数据源主要包括流/查询/IOT、API、文件/SAN/NAS、数据库/数据仓库等。
流处理
流处理是一种允许用户在接收到数据后的短时间内快速查询连续数据流和检测条件的技术。检测时间从几毫秒到几分钟不等。流处理通常用于实时分析、流式分析、复杂事件处理等。
ETL技术
它从各种原始的业务系统中提取数据,按照一定的规则进行数据转换,ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集中,成为后续数据处理的基础。
批处理
- 有界:批处理数据集代表数据的有限集合
- 持久:数据通常始终存储在某种类型的持久存储位置中
- 大量:批处理操作通常是处理海量数据集的唯一方法
批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。
发布引擎
- 感知算法
感知算法主要采用自然语言处理的内容识别技术,包括基于关键词的内容识别、正则表达式的内容识别、数据分类脚本、文件元数据识别、指纹识别、文本分类、聚类等算法。
- 脱敏算法
常见的脱敏算法包括删除、替代、数值变换、加密、遮挡、空值插入、混洗等。
- 匿名算法
匿名算法通过概括和隐匿技术,发布精度较低的数据,使得每条记录至少与数据表中其他k-1条记录具有完全相同的准标识符属性值,从而减少链接攻击所导致的隐私泄露。
数据共享发布
发布引擎能够为商业智能、分析、开发、测试、第三方合作等过程创建安全的数据。
3
体系价值
加速DaaS供应
发布引擎为DaaS(数据即服务)基础设施提供了数据隐私层,从而减少在整个企业中提供隐私保护数据集所需的成本、时间,减少新数据驱动项目的前置时间,具有健壮的、可重复的过程。
保护隐私
保护从 源 移动到 目标 时的敏感数据,同时保持数据集的引用完整性。
提供数据驱动的洞察力
实现标准化的策略规则,从规模上识别敏感数据,同时保留数据效用。
确保隐私的规模
在整个企业中复制去标识策略,简化遵从性,同时实现隐私策略的集中管理、控制和自动化。
减少内部违规风险
通过员工和合作伙伴的授权访问防止数据泄露,每个数据集都具备私密性。
在数据平台体系结构中集成发布引擎
在部署于云环境的前提下,利用数据流和流处理,如NiFi、Kafka等,将ETL过程和 工具 结合起来。
提高效率
— THE END —
杭州世平信息科技有限公司(简称“世平信息”),致力于智能化数据管理与应用的深入开拓和持续创新,为用户提供数据安全、数据治理、数据共享和数据利用解决方案,帮助用户切实把握大数据价值与信息安全。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 高科技红线:人工智能正在悄然升级种族主义
- URLZone:疑似针对日本高科技企业雇员的攻击活动分析
- 这家平台凭基因推荐歌曲,音乐加入高科技还能怎么玩?
- 解密“高科技”勒索软件产业-你以为你支付的就是你支付的?
- 三款新品亮相,新华三送智能“锦鲤”
- 泽塔云荣膺“中国高科技高成长50强”,成唯一上榜超融合企业
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。