像虚拟机一样虚拟数据,开源项目Alluxio要发力中国市场

栏目: 数据库 · 发布时间: 5年前

Alluxio 开源项目原名Tachyon,是一个虚拟的分布式存储系统。

起源

Allux io 源自于 加州大学伯克利AMP实验室(也是Apache Mesos和Apache Spark的发源地)的博士研究项目,自2013年4月开源以来,已有超过 100个 组织 机构 的近千名贡献者参与其研究、使用以及开发中,包括阿里巴巴、Alluxio、百度、卡耐基梅隆大学(CMU)、京东、IBM、Intel、南京大学,Red Hat、腾讯、加州大学伯克利分校(UC Berkeley)和Yahoo等。

“历史上的分布式存储系统,基本都是间接性创新,比如更快、更便宜、更容易使用,” Alluxio创始人兼CEO李浩源博士 表示,而Alluxio是一套新逻辑上的存储系统—— 相当于一个中间虚拟层,介于计算框架和现有的存储系统之间。

原理

“用户数据依旧存放在原来的各类存储系统中(如Amazon S3,Microsoft Azure,OpenStack Swift,Apache HDFS,Ceph,IBM Cleversafe, OSS),Alluxio提供与各个存储对接的驱动程序,通过统一的数据访问接口向上对接计算框架(如Apache Spark,Presto,TensorFlow)。此外相对于最初的数据存储系统,Alluxio贴近计算,利用分布式的管理内存或者SSD等存储资源构成一层计算的缓存层,对计算任务起到加速的作用并减少读写磁盘。

像虚拟机一样虚拟数据,开源项目Alluxio要发力中国市场

对于用户而言, Alluxio在做让数据标准化的事情。数据消费者如大数据分析或者机器学习算法可以不用关心数据原本在何处如何存放(云端还是专用存储设备),只需要连接上Alluxio就可以打通数据通路。” 李浩源博士 告知。

就好比虚拟机,虚拟机的逻辑是提供虚拟化的计算资源,而Alluxio则提供虚拟化了的数据。

李浩源 表示,这样一来,Alluxio有几个优势:

  • 第一,应用层很容易访问混合云上的数据。将来企业用数据很可能有是一种混合的部署,一部分在公有云上(比如阿里云, 腾讯云, 华为云等)以降低成本,部分核心数据在专用存储设备上(比如EMC ECS,IBM Cleversafe,NetApp NFS)。现在Alluxio提供了统一的数据访问界面之后,可以更加简化而高效的读取混合云而避免复杂的数据迁移以及计算驱动的数据ETL。

  • 第二,性能提升。新一代存储架构的一个趋势是将存储、计算分离的,Alluxio可以在此基础上,通过算法调度数据,让热数据离计算很近,从而提升计算效率。

  • 第三,统一后,可以更有效的进行数据管理。尤其是应用在机器学习、AI等需要大量数据的场景中,Alluxio可以将性能提升几倍到十几倍。

应用

根据公开资料,百度采用Alluxio使他们数据分析流水线的吞吐量提升了30倍。 巴克莱银行使用Alluxio将他们的作业分析的耗时从小时级降到秒级。李浩源补充:“很多企业客户利用Alluxio下面跑对象存储,上层跑AI、机器学习应用,由于Alluxio解决了此前的架构、生态系统问题,可以让上层任何应用都能访问对象存储,目前有应用在反欺诈、手机导航路线规划、电商推荐系统等场景。”

据悉, Alluxio 分开源社区版和付费企业版。企业版根据不同地区、客户使用的节点情况收取年费,在欧美市场客单价在几十万到百万美元规模,客户多集中在金融、电信、电商等行业。

而Alluxio公司方面,团队大部分在美国。已经于2015年获得750万美元A轮融资,早期投资人包括Andreessen Horowitz 等,之后会发力中国市场。( Alluxio正在发展开源社区,若对该技术感兴趣,可以联系 haoyuan@alluxio.com)

————

我是徐宁,关注企业服务,若您正在用技术颠覆未来,欢迎微信交流xu95704331。


以上所述就是小编给大家介绍的《像虚拟机一样虚拟数据,开源项目Alluxio要发力中国市场》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

谁排第一

谁排第一

Amy N. Langville、Carl D. Meyer / 郭斯羽 / 机械工业出版社 / 2014-6 / 49

《谁排第一?关于评价和排序的科学》是首个关于评分和排名科学的著作。它是搜索排序姊妹篇的第二本。本书主要内容有:排名概述、梅西法、科利法、基纳法、埃洛体系、马尔可夫法、攻防评分法、基于重新排序的排名方法、分差、用户偏好评分、处理平局、加入权重、“假如……会怎样”的问题与敏感性、排名聚合、比较排名的方法、数据等。 《谁排第一?关于评价和排序的科学》可作为数学、计算机、网络技术、管理学和数据科学等......一起来看看 《谁排第一》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具