内容简介:大数据的最底层的内容就是存储,只有把数据存在能高效访问的分布式系统下才能提升工作效率。小编带大家来盘点一下这些常见的分布式文件系统:
大数据的最底层的内容就是存储,只有把数据存在能高效访问的分布式系统下才能提升工作效率。小编带大家来盘点一下这些常见的分布式文件系统:
Lustre
Lustre是一个非常安全,规模很大的分布式文件系统,最早由CFS(Cluster File System Inc.)公司研发,最后由CFS、惠普和因特尔三家公司一起与2003年推出第一版发布版,发展到现在已经非常成熟。其存储量通常以PB起步,节点支持数也能打到万级。但是其对设备有特殊要求。
HDFS
HDFS是Hadoop内置的分布式文件系统,之前也有过介绍。HDFS最大的优势就是价格低廉,因此也使用极为广泛。并且其高可靠性,高容错性也让使用者非常信赖。虽然HDFS的存储级别也在PB以上,但是对于小文件过多的情况HDFS不能很好的支持。
QFS
QFS和HDFS类似,都是为了解决高效顺序读写大量数据的问题。但是QFS在性能上优于HDFS,读写效率提升综合越60%。现在QFS还比较小众,没有经过大量的使用测试,因此还不能用于大规模的生产环境。
GlusterFS
GlusterFS也是一个PB级别的集群文件系统,其思想是将集群内所有服务器的存储空间汇到一个大的网络系统上。这样做最大的特点就是无中心,不会有单点故障。
Alluxio
Alluxio是第一个基于内存的分布式文件系统,因此其相应速度也会超出普通的分布式文件系统很多,例如HDFS就比它慢数百倍。并且Alluxio和Spark也有良好的交互。最重要的是Alluxio中国人开发的,文档都是中文的,对于被英文文档困扰很久的小伙伴绝对是福音。
常见分布式文件系统大盘点,想了解大数据先从存储开始
Ceph
Ceph也是一个没有单点故障的分布式文件系统,Ceph的每个节点上都有一小部分资源用于计算节点的数据信息,从而非常优秀的实现负载均衡。
PVFS
PVFS是一个并行虚拟文件系统,他能很好的支持 linux 上的原声命令和工具,例如rm、dd、cat等。但是PSFS是单管理节点的,因此存在单点故障,并且在启动后无法灵活的修改。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
智能Web算法(第2版)
【英】Douglas G. McIlwraith(道格拉斯 G. 麦基尔雷思)、【美】Haralambos Marmanis(哈若拉玛 玛若曼尼斯)、【美】Dmitry Babenko(德米特里•巴邦科) / 达观数据、陈运文 等 / 电子工业出版社 / 2017-7 / 69.00
机器学习一直是人工智能研究领域的重要方向,而在大数据时代,来自Web 的数据采集、挖掘、应用技术又越来越受到瞩目,并创造着巨大的价值。本书是有关Web数据挖掘和机器学习技术的一本知名的著作,第2 版进一步加入了本领域最新的研究内容和应用案例,介绍了统计学、结构建模、推荐系统、数据分类、点击预测、深度学习、效果评估、数据采集等众多方面的内容。《智能Web算法(第2版)》内容翔实、案例生动,有很高的阅......一起来看看 《智能Web算法(第2版)》 这本书的介绍吧!