内容简介:Airflow 是一个开源的大数据工作流管理系统,在 Adobe、Airbnb、Etsy、谷歌、ING、Lyft、PayPal、Reddit、Square、推特和美联航等组织得到广泛应用。2019 年 1 月 8 日,位于马萨诸塞州 Wakefield 的 Apache 软件基金会宣布 Airflow 为顶级项目。Airflow 是一个灵活可扩展的工作流自动化和调度系统,用于创建和管理数百 PB 级的大数据处理管道。从 Apache 孵化器毕业意味着 Airflow 社区和产品在 ASF 的管理流程和原则下
Airflow 是一个开源的大数据工作流管理系统,在 Adobe、Airbnb、Etsy、谷歌、ING、Lyft、PayPal、Reddit、Square、推特和美联航等组织得到广泛应用。
2019 年 1 月 8 日,位于马萨诸塞州 Wakefield 的 Apache 软件基金会宣布 Airflow 为顶级项目。
Airflow 是一个灵活可扩展的工作流自动化和调度系统,用于创建和管理数百 PB 级的大数据处理管道。从 Apache 孵化器毕业意味着 Airflow 社区和产品在 ASF 的管理流程和原则下得到了很好的治理。
Airflow 副总裁 Bolke de Bruin 说:“自一开始,Airflow 就迅速地成为工作流编排的事实标准。Airflow 已经在开发人员和数据科学家中获得了广泛的应用,这要归功于它的‘配置即代码’。这让我们在 ASF 孵化过程中赢得了社区的支持,社区不仅使用 Airflow,也为其做出了贡献。Airflow 易于使用、可扩展并拥有多样化的社区力量。它受到了企业和初创公司的欢迎,现在可以升级为顶级项目。”
Airflow 用于编排复杂的计算工作流。通过智能调度、数据库和依赖管理、错误处理和日志记录,Airflow 实现了从单个服务器到大型集群资源管理的自动化。该项目用 Python 编写,具有高度可扩展性,并能够运行用其它语言编写的任务,可以与常用架构和项目集成,例如 AWS、S3、 Docker 、Apache Hadoop HDFS、Apache Hive、Kubernetes、 MySQL 、Postgres、Apache Zeppelin,等等。2014 年,Airflow 诞生于 Airbnb,并于 2016 年进入 Apache 孵化器。
目前,有 200 多个组织在使用 Airflow,包括:Adobe、Airbnb、Astronomer、Etsy、谷歌、ING、Lyft、纽约城市规划局、PayPal、Polidea、Qubole、Quizlet、Reddit、Reply、Solita、Square、推特和美联航,等等。已知用户列表可从以下链接获取: https://github.com/apache/incubator-airflow#who-uses-apache-airflow
Adobe Experience Platform 首席架构师 Hitesh Shah 表示:“Adobe Experience Platform 构建于云基础设施之上,利用了多种开源技术,其中包括:Apache Spark、Kafka、Hadoop、Storm 等。Airflow 是大数据处理管道编排引擎生态系统的一个非常好的新成员。我们已经在 Adobe Experience Cloud 的各种场景中使用了 Airflow,并将很快与大家分享我们在 Kubernetes 上运行 Airflow 的实验结果。”
来自 Data Reply 的数据工程师 Kaxil Naik 说:“我们的客户非常喜欢 Airflow。Airflow 已经成为我们过去 2 年中创建的数据管道的一部分,它好像魔戒大师,驯服了我们的机器学习和 ETL 管道。它帮助我们为客户创建了整个数据生态系统的单一视图。Airflow 的数据感知调度和错误处理能力有助于整个报告生成过程的自动化,无需任何人工干预。它可以与谷歌云(以及其他主要的云供应商)集成, 而且由于 Airflow 的‘配置即代码’模式,非技术员工也可以使用它,无需经历陡峭的学习曲线。”
PayPal 首席数据工程师 Sid Anand 说:“PayPal 依靠像 Airflow 这样的工作流调度器来管理 250 多 PB 的数据,满足了 PayPal 的数据移动需求 。此外,Airflow 可用于跨多个分布式系统进行系统编排,包括:自修复、自动扩展和可靠的(重新)配置。”
Qubole 工程经理 Sumit Maheshwari 表示:“自 2016 年 9 月我们将 Airflow 产品作为服务提供以来,很多公司,无论大小,都成功地把他们的工作流迁移到了 Airflow 上。在 Qubole,我们不仅是供应商,还是 Airflow 的大客户。例如,我们的见解和推荐平台是围绕 Airflow 构建的,每个月,我们在其上处理来自数百家企业数十亿个事件,并为他们的大数据解决方案(如 Apache Hadoop、Apache Spark 和 Presto)生成见解。Airflow 的简单性以及其能轻松地与其他解决方案(如云、监控系统或各种数据来源)集成给我们留下了深刻的印象。”
ING WB Advanced Analytics 分析平台负责人 Rob Keevil 表示:“在 ING,我们用 Airflow 来编排我们的核心流程,每天转换全球的数十亿条记录。其功能集、开源传统以及可扩展性非常适合用于协调我们的各种批处理工作负载,包括 ETL 工作流、模型训练、集成脚本、数据完整性测试和告警。我们一开始就在 Airflow 的开发过程中发挥了非常积极的作用,提交了数百个拉取请求以确保社区受益于 ING 创建的 Airflow 改进。我们很高兴看到 Airflow 从 Apache 孵化器毕业了,也很期待这个令人激动的项目在未来的发展!”
Polidea 首席软件工程师 Jarek Potiuk 说:“在我们开始做出贡献并使用 Airflow 时,就已经看到它作为编排器的价值所在。当需要维护一个巨大的配置时,由工程师们开发和维护整个工作流通常是个巨大的挑战。借助 Airflow,DevOps 仍然可以使用标准的编码 工具 来改进你的基础设施。它最好的地方就是‘基础设施即代码’。”
Airflow 副总裁 Bolke de Bruin 补充道:“工作流编排在我们所处的(大)数据时代扮演着至关重要的角色。该领域发展非常快,并且新的数据思维刚开始产生影响。Airflow 是数据时代的产物,因而定位非常好,并且因为年轻,还有很多发展余地。Airflow 可以利用科学计算、企业、初创公司的聪明才智更进一步地改进。”
可用性和监督
Airflow 基于 Apache License v2.0 许可,并由一个活跃贡献者自选团队进行监督。项目管理委员会指导项目的日常运营工作,包括社区开发和产品发布。关于文件下载、文档信息和加入 Airflow 的方法,请参考以下链接: http://airflow.apache.org/ 和 https://twitter.com/ApacheAirflow
阅读英文原文:The Apache Software Foundation Announces Airflow as a Top-Level Project, https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces44
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- Unomi 成为 Apache 软件基金会顶级项目
- NetBeans 成为 Apache 软件基金会顶级项目
- Skywalking 结束孵化,成为 Apache 基金会顶级项目
- Apache Dubbo 晋升为 Apache 基金会顶级项目
- Apache 基金会宣布 Apache Pulsar 毕业成为顶级项目
- Apache 基金会宣布 Apache Pulsar 毕业成为顶级项目
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
机器学习算法原理与编程实践
郑捷 / 电子工业出版社 / 2015-11 / 88.00
本书是机器学习原理和算法编码实现的基础性读物,内容分为两大主线:单个算法的原理讲解和机器学习理论的发展变迁。算法除包含传统的分类、聚类、预测等常用算法之外,还新增了深度学习、贝叶斯网、隐马尔科夫模型等内容。对于每个算法,均包括提出问题、解决策略、数学推导、编码实现、结果评估几部分。数学推导力图做到由浅入深,深入浅出。结构上数学原理与程序代码一一对照,有助于降低学习门槛,加深公式的理解,起到推广和扩......一起来看看 《机器学习算法原理与编程实践》 这本书的介绍吧!