内容简介:本文对 Cloudera 官方宣布支持 Apache Flink 的博客进行了翻译,希望有助于大家更深入地了解 Flink 及 Cloudera DataFlow(CDF)。
翻译 | 邱从贤(山智)
摘要: 近期 Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 开始正式集成 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。
本文对 Cloudera 官方宣布支持 Apache Flink 的博客进行了翻译,希望有助于大家更深入地了解 Flink 及 Cloudera DataFlow(CDF)。
(Arun 与 Stephan 的 Twitter 互动)
▼ 以下为 Cloudera 官方博客 的 原文翻译 ▼
我们再也无法抑制兴奋! 在过去的几个月中,Cloudera 的动态数据工程团队一直在努力提供 Cloudera DataFlow(CDF)中引人注目的产品。 Cloudera Streaming Analytics(CSA)的 GA 版提供了对 Apache Flink 的支持,从而增强了整个动态数据平台的流处理和分析能力。
由 Apache Flink 支持的 Cloudera Streaming Analytics 是 Cloudera DataFlow(CDF)平台内的一项新产品,可提供 IoT 级数据流和复杂事件的实时状态处理。 Cloudera DataFlow(如下图所示)是一个全面的边缘计算到云实时流数据平台。 作为 CDF 的关键支柱之一,流处理和分析对于处理来自各种数据源的数百万个数据点和复杂事件非常重要。 多年来,我们已经支持了多个流引擎,但是 F link 的加入使 CDF 成为了一个极具吸引力的平台,可以大规模处理大量流数据 。
Cloudera Streaming Analytics 涵盖了 Apache Flink 的核心流功能:
-
在 YARN 上支持 Flink 1.9.1
-
支持在 Cloudera 托管集群上安装 Flink
-
支持完全安全(启用 TLS 和 Kerberos)的 Flink 集群
-
从 Kafka 或 HDFS 读取数据源
-
使用 Java DataStream 和 ProcessFunction API 的 pipeline 定义
-
恰好一次的语义
-
基于事件时间的语义
-
数据接收器写入 Kafka,HDFS 和 HBase
-
与 Cloudera Schema Registry 集成以进行模式管理以及流事件的序列化/反序列化
这些功能可实现复杂的端到端流传输 pipeline。 我们计划在即将发布的 CSA 中提供更多激动人心的功能。
平台集成,可任意扩展 Flink
CSA 将在最近发布的 Cloudera 数据平台(CDP)中心提供服务。 利用 CDP 的灵活性和管理选项, 可以轻松地对 Flink 进行任意扩展 。 有了平台集成,Cloudera Manager 可以用于安装,监视和管理 Flink 集群。 集中式日志搜索还可以聚合 Flink 应用程序日志,以便于管理和调试。
最重要的是,可以使用指标报告器将 Flink 应用程序指标发送到 Apache Kafka 中。 CDF 平台上的指标可以通过 Streams Messaging Manager 将 Flink 的指标收集到 Kafka 中,并以可视化的形式对它们进行分析。
为什么选择 Flink?
Apache Flink 是一个分布式,可扩展的数据分析处理引擎,可以非常轻松地处理数百万级的数据或复杂事件,并提供实时预测功能; 为数据流上的大规模计算提供通信,容错和数据分发; 可以处理生成的实时数据以及存储在文件系统中的数据。
在过去的几年中,Apache Flink 在全球范围内被广泛应用:
-
电信网络监控: 使用复杂的窗口逻辑,基于网络中的流数据,通过预先计算有关停机的响应和修复所需的 ETA 来处理客户投诉
-
内容推荐引擎: 在用户加载网页时向其提供推荐和搜索结果的视频流服务,需要复杂的逻辑,同时每天要主动处理数十亿个事件
-
搜索优化: 搜索引擎实时优化搜索排名
-
点击流分析: 高流量电子商务网站基于实时点击流数据收集并提供最佳的客户体验
-
应用程序监视: 大型企业评估了数千个可定制的警报规则,这些警报规则涉及指标和日志流并检测异常
-
欺诈检测: 金融组织从各种来源的数百万实时财务数据流中检测欺诈模式
-
游戏分析: 要了解游戏平台上数百万每日用户的状态并向业务团队提供分析,需要以极高的规模处理大量数据
尽管 Cloudera 提供了流处理引擎的几种选择:Storm,Spark Structured Streaming 和 Kafka Stream,但将 Flink 添加到 CDF 的意义十分重大。 Storm 在市场和开源社区中逐渐失宠,用户正在寻找更好的选择。 而 Apache Flink 则是这批用户的最佳选择。 Kafka Streams 和 Spark Structured Streaming 则围绕他们自己的用户场景提供了相关的流处理和分析能力。 但是,Apache Flink 天然支持流计算(而不是批处理),并且可以大规模处理大量数据流,提供方便的状态支持,恰好一次的语义,原生支持的容错/恢复能力,以及先进的 Window 语义。 这使其成为更广泛的流处理引擎的默认选择。
在 2019 年 10 月于柏林举行的 Flink Forward 活动上, Cloudera 的工程主管 Marton Balassi 和 Field CTO Andrew Psaltis 在大会上宣布,Cloudera 承诺将通过 CSA 产品不断给 Apache Flink 社区做出贡献。
相信 Cloudera 对 Apache Flink 的集成将会为 社区带来更多创新 、为企业及开发者提供更便捷的操作与更 友好的使用体验。 点击「 阅读原文 」可查看原版博客~
关注 Ververica,获取更多 Flink 技术干货
你也「 在看 」吗? :point_down:
以上所述就是小编给大家介绍的《最新消息!Cloudera 全球发行版正式集成 Apache Flink》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- Fuchsia最新消息,确认支持Android应用
- [译] 关于 PHP 7.4 的最新消息
- 一次发布有多个发行版,为什么Python发行包会这么难?
- Hadoop发行版本之间的区别
- 原 荐 JavaFX 11发行说明
- Korora 26 发布,Linux 发行版
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
微信营销与运营一册通
何秀芳、葛存山 / 人民邮电出版社 / 2014-10
《微信营销与运营一册通》深入介绍了当今最为火热的话题——微信营销,内容全面、系统和深入。它基于微信的最新版本,从策略、技巧与案例等多角度详细解析了微信的营销与运营,所有内容都是行业经验的结晶,旨在为企业或个人运用微信提供有价值的参考。《微信营销与运营一册通》主要内容如下。 * 5大微信营销利器:书中介绍了5大微信营销利器,包括漂流瓶、二维码、LBS功能、朋友圈和公众平台等。 * 6大微......一起来看看 《微信营销与运营一册通》 这本书的介绍吧!