Spark+Hbase 亿级流量分析实战(日志存储设计)

栏目: 数据库 · 发布时间: 6年前

内容简介:接着上篇文章日志中心的存储会是下面这样日志内容如下

接着上篇文章 百亿级流量实时分析统计 - 数据结构设计 我们已经设计好了日志的结构,接下来我们就准备要开始撸代码了,我最喜欢这部分的环节了,可是一个上来连就撸代码的程序肯定不是好程序员,要不先设计设计流程图?那来吧!!!

Spark+Hbase 亿级流量分析实战(日志存储设计)

流程图

Spark+Hbase 亿级流量分析实战(日志存储设计)

设计一

rsync
ETL
Mysql

设计二

  1. 用户发起文章操作,发起请求日志
  2. 日志将由SLB服务器进行负载到日志打点服务器。
  3. Filebeat 收集节点日志 到Kafka,主要是用来日志削峰使用。 **或者:**使用 nginx 直接将日志写入kafka,因为 nginx 也是生产级别的。
  4. ETL 将消费Kafka 数据并写到Hbase。
  5. 与设计一相同

日志中心

日志中心的存储会是下面这样

├── log
│   ├── 2019-03-21
│   │   ├── 111.12.32.11
│   │   │   ├── 10_01.log
│   │   │   └── 10_02.log
│   │   ├── 222.22.123.123
│   │   │   ├── 0_01.log
│   │   │   ├── 0_02.log
│   │   │   └── 0_03.log
│   │   └── 33.44.55.11
│   ├── 2019-03-22
│   └── 2019-03-23
复制代码
  1. 每分钟每节点会生成一个文件。
  2. 一天一个文件夹。
  3. 这样子的设计可以方便查错。

日志内容如下

{"time":1553269361115,"data":{"type": "read","aid":"10000","uid":"4229d691b07b13341da53f17ab9f2416","tid": "49f68a5c8493ec2c0bf489821c21fc3b","ip": "22.22.22.22"}}
{"time":1553269371115,"data":{"type": "comment","content":"666,支持一下","aid":"10000","uid":"4229d691b07b13341da53f17ab9f2416","tid": "49f68a5c8493ec2c0bf489821c21fc3b","ip": "22.22.22.22"}}
复制代码

敲定方案

选择设计一因为我们就看上了第 5 点,在线上业务稳定了一年的使用情况来看,这种方案是可行的。

在下篇文章中,我们将真实开始撸我们的黄金代码了,所有程序将使用 scala 进行实现,你想问我什么吗?四个字:

Spark+Hbase 亿级流量分析实战(日志存储设计)
Spark+Hbase 亿级流量分析实战(日志存储设计)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

科技投资新时代:TMT投资方法、趋势与热点聚焦

科技投资新时代:TMT投资方法、趋势与热点聚焦

马军、宋辉、段迎晟 / 人民邮电出版社 / 2018-3 / 69.00

中国 TMT 行业(科技、媒体及通信)起步较晚但充满朝气。2017 年,TMT 板块的IPO 数量占到了总数的四分之一;对于投资者来说,投资 TMT 的收益非常可观。那么,TMT 的投资趋势如何? TMT 行业又有哪些投资热点? 本书立足于 TMT 投资现状,在介绍了 TMT 投资的基本概念之后,作者详细讲述了TMT 投资的基本研究方法、分析视角、整体行情及趋势分析,同时从行业视角分析了包括......一起来看看 《科技投资新时代:TMT投资方法、趋势与热点聚焦》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

URL 编码/解码
URL 编码/解码

URL 编码/解码

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具