Spark Streaming--应用与实战(一)

栏目: 数据库 · 发布时间: 8年前

内容简介:Spark Streaming--应用与实战(一)

接下来的几篇博客是一个连续的部分,主要分为了:

  1. SparkStreaming-应用与实战(一),讲解背景与架构改造,以及为什么使用spark streaming
  2. SparkStreaming-应用与实战(二),通过代码实现具体细节,并运行项目
  3. SparkStreaming-应用与实战(三),对streaming监控的介绍以及解决实际问题
  4. SparkStreaming-应用与实战(四),对项目做压测与相关的优化

一、问题描述

  • 有一块业务主要是做爬虫抓取与数据输出,通过大数据这边提供的SOA服务入库到HBase,架构大致如下:

    Spark Streaming--应用与实战(一)

以对于以上的架构存在一些问题,我们可以看见数据在Dubbox服务阶段处理后直接通过HBase API入库了HBase,中间并没做任何缓冲,要是HBase出现了问题整个集群都完蛋,没法写入数据,数据还丢失,HBase这边压力也相当大,针对这一点,对入库HBase这个阶段做了一些改造。

二、架构改造

改造后的架构,爬虫通过接口服务,入库到Kafka,Spark streaming去消费kafka的数据,入库到HBase.核心组件如下图所示:

Spark Streaming--应用与实战(一)
  • 为什么不直接入库到HBase,这样做有什么好处?
  1. 缓解了HBase这边峰值的压力,并且流量可控
  2. HBase集群出现问题或者挂掉,都不会照成数据丢失的问题
  3. 增加了吞吐量

三、 为什么选择Kafka和Spark streaming

  1. 由于Kafka它简单的架构以及出色的吞吐量.
  2. Kafka与Spark streaming也有专门的集成模块.
  3. Spark的容错,以及现在技术相当的成熟.

1.除非注明,博文均为原创,转载请标明地址: http://blog.xiaoxiaomo.com/2017/06/10/SparkStreaming-应用与实战-一/

2.文章作者:小小默

3.发布时间:2017年06月10日 - 16时37分

4.如果本文帮到了您,不妨点一下右下角的 分享到 按钮,您的鼓励是博主写作最大的动力。


以上所述就是小编给大家介绍的《Spark Streaming--应用与实战(一)》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

人人都是产品经理——写给产品新人

人人都是产品经理——写给产品新人

苏杰 / 电子工业出版社 / 2017-6 / 66.60

《人人都是产品经理——写给产品新人》为经典畅销书《人人都是产品经理》的内容升级版本,和《人人都是产品经理2.0——写给泛产品经理》相当于上下册的关系。对于大量成长起来的优秀互联网产品经理、众多想投身产品工作的其他岗位从业者,以及更多有志从事这一职业的学生而言,这《人人都是产品经理——写给产品新人》曾是他们记忆深刻的启蒙读物、思想基石和行动手册。作者以分享经历与体会为出发点,以“朋友间聊聊如何做产品......一起来看看 《人人都是产品经理——写给产品新人》 这本书的介绍吧!

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具