Facebook开源分布式日志存储系统LogDevice

栏目: 后端 · 发布时间: 7年前

Facebook 开源 了他们的内部分布式日志存储项目LogDevice。它通过复制、持久日志存储和故障恢复实现写入高可用性。

Facebook的大多数需要记录日志应用程序都需要写入高可用性、持久的日志存储以及在性能和延迟方面要求各不相同的工作负载。另一个非常重要的要求是能够承受硬件故障。Facebook有一个叫作 Scribe 的旧项目侧重于将日志聚合到集中式存储中,但这种方案存在数据丢失的情况。Scribe现在使用LogDevice作为日志存储后端。

Facebook将LogDevice用在数据中心内部的流式处理管道、数据库索引更新的发布、机器学习管道、复制管道和持久任务队列(每秒摄取超过1TB的数据)中。尽管Facebook已经构建了很多用于管理LogDevice集群的开源工具,但还没有将它们开源出来,除了一些基本的 工具 集。 LDShell 工具可用于从命令行管理集群,并且可以使用 LDQuery 命令来查看集群统计信息。

LogDevice使用“日志记录”抽象来划分单个日志事件,为每个记录分配一个称为日志序列号(LSN)的唯一ID。LSN由“Sequencer”组件基于时间点生成,而时间点保存在ZooKeeper中。LogDevice只能以追加的模式写入记录,也就是说,一旦写入记录就无法修改。与大多数日志存储系统一样,LogDevice会“修剪”记录,即基于时间或空间策略的日志轮换。它还可以按需进行日志修剪。除此之外,对日志的存储时间没有限制。

LogDevice通过在不同的计算机节点上存储每个日志记录的多个副本来实现高可用性,尤其是 写入高可用性 。每条记录可以跨20-30个存储节点复制。不过,如果某些具有某条日志副本的计算机速度很慢或不可用,那么该日志写入次数的增加会限制吞吐量。LogDevice可以自动检测哪些节点已失效,并不再往这些节点写入新记录。它试图通过尽可能多的复制尽减少硬件故障的影响,并尽可能快地“ 重建 ”丢失的副本。在重建过程中,“可以以每秒5-10GB的速率进行恢复”。LogDevice底层存储基于RocksDB,它也是 由Facebook开源 的一个键值存储系统。

LogDevice团队还必须应对其他挑战,他们发现,LogDevice的用户会执行回填(backfill),请求几个小时或几天内的旧数据。这些请求由使用LogDevice日志的下游服务发出,当这些服务从故障中恢复并重新处理日志时就会发生回填。LogDevice通过在“节点集”之间分摊读取负载来应对这些读取高峰。

LogDevice可以与 Apache BookKeeper 和Apache Kafka等其他日志存储系统进行对比。其中与Kafka的 主要区别 似乎是LogDevice将计算和存储进行了分离,主要是为了应对Facebook规模的日志。LogDevice是用C++开发的,并托管在 GitHub 上。

查看英文原文: Facebook Open Sources LogDevice - a Distributed Data Store for Log Storage


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

新媒体营销概论

新媒体营销概论

秋叶、刘勇 / 人民邮电出版社 / 2016-12-1 / 36.00

本书共分6章。第1章重点介绍了新媒体的概念和特征,引导读者全面认识新媒体所处的行业;第2章用历史发展的眼光,介绍了不同类型的新媒体,让读者不仅能看到最新的新媒体模式,也能看到这个模式发展背后的脉络;第3章重点介绍了新媒体广告投放载体,便于读者选择适合自己的新媒体运营方式;第4章介绍了新媒体运营的策划思维;第5章介绍了新媒体舆情管理知识;第6章选取了可口可乐、海底捞、恒大冰泉等的新媒体助力传统行业转......一起来看看 《新媒体营销概论》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换