Spark Streaming--应用与实战(一)

栏目: 数据库 · 发布时间: 8年前

内容简介：Spark Streaming--应用与实战(一)

接下来的几篇博客是一个连续的部分，主要分为了：

一、问题描述

有一块业务主要是做爬虫抓取与数据输出，通过大数据这边提供的SOA服务入库到HBase,架构大致如下：

以对于以上的架构存在一些问题，我们可以看见数据在Dubbox服务阶段处理后直接通过HBase API入库了HBase，中间并没做任何缓冲，要是HBase出现了问题整个集群都完蛋，没法写入数据，数据还丢失，HBase这边压力也相当大，针对这一点，对入库HBase这个阶段做了一些改造。

二、架构改造

改造后的架构，爬虫通过接口服务，入库到Kafka，Spark streaming去消费kafka的数据，入库到HBase.核心组件如下图所示：

为什么不直接入库到HBase，这样做有什么好处？

缓解了HBase这边峰值的压力，并且流量可控
HBase集群出现问题或者挂掉，都不会照成数据丢失的问题
增加了吞吐量

三、为什么选择Kafka和Spark streaming

由于Kafka它简单的架构以及出色的吞吐量.
Kafka与Spark streaming也有专门的集成模块.
Spark的容错,以及现在技术相当的成熟.

1.除非注明，博文均为原创，转载请标明地址： http://blog.xiaoxiaomo.com/2017/06/10/SparkStreaming-应用与实战-一/

2.文章作者：小小默

3.发布时间：2017年06月10日 - 16时37分

4.如果本文帮到了您，不妨点一下右下角的分享到按钮，您的鼓励是博主写作最大的动力。

以上所述就是小编给大家介绍的《Spark Streaming--应用与实战(一)》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

互联网+供应链金融创新

宝象金融研究院、零壹研究院 / 电子工业出版社 / 2016-6 / 65.00

供应链金融是一种带有模式创新的金融服务，它真正渗透到了产业运行的全过程。然而，如何探索这种模式的规律？特别是在"互联网+”时代，不同的产业主体如何更好地利用供应链金融促进产业的发展，成为了众多企业关注的话题。零壹财经攥写的《互联网+供应链金融创新》正是立足于这一点，全面总结反映了中国各行各业，以及不同的经营主体如何在立足产业运营的基础上，通过供应链金融来促进产业的发展具有很好的借鉴意义，其丰富的案......一起来看看《互联网+供应链金融创新》这本书的介绍吧!

码农工具

Spark Streaming--应用与实战(一)

一、问题描述

二、架构改造

三、为什么选择Kafka和Spark streaming

互联网+供应链金融创新

HTML 压缩/解压工具

CSS 压缩/解压工具

Base64 编码/解码

Spark Streaming--应用与实战(一)

一、问题描述

二、架构改造

三、 为什么选择Kafka和Spark streaming

互联网+供应链金融创新

HTML 压缩/解压工具

CSS 压缩/解压工具

Base64 编码/解码

三、为什么选择Kafka和Spark streaming