Apache Hop 2.0.0 已正式发布。
Apache Hop(Hop 是 Hop Orchestration Platform 的缩写)是一个灵活、元数据驱动的数据编排、工程和集成平台。该项目起源于二十多年前的 ETL 平台 Kettle,经过几年的重构,于 2020 年 9 月进入 ASF 孵化器。
Kettle 是一款知名的开源 ETL 工具,抽取数据高效稳定,在执行 ETL 工具、ETL 数据抽取转换等批任务时,使用频率较高,包括电信、金融、银行在内的各行业都使用 Kettle 作为数据处理工具。但是由于各种因素,Kettle 近几年的发展还是较为缓慢,为了改变现况,从 2020 年 2 月份开始,Kettle 社区在 Kettle 8.2 的基础上创建了一个分支,Hop 正是基于这个分支构建的新项目,2020 年 9 月份,Hop 正式进入 ASF,成为孵化项目。
Apache Hop 基于 Java 的可视化设计器、服务器和配置 工具 易于在众多平台上设置、部署和维护,其被设计用于任何场景:本地、云、裸操作系统、容器、物联网环境、大型数据集等,并支持在 Windows、 Linux 和 OSX 平台上运行。特点包括:
- 轻量级的 “一次设计,处处运行” 架构
- 元数据驱动
- 可视化开发环境
- 集成丰富的插件
- 内置生命周期管理
2.0 更新亮点
升级到 Java 11
发布公告写道,在 2.0 中,Hop 可以在 Java 11 上可靠地运行。因为新版本升级了所有 Apache Hop 代码,目前支持在 Java 11 和 Java 8 上正常构建和运行。
官方称升级 Java 版本的工作进行了几个月,开发团队细致地修复和扩展了测试和代码问题。借此机会,他们还对代码进行了清理,同时对部分 API 进行了破坏兼容性的变更,开发者需要查看文档以了解如何才能将 Hop 插件升级到 2.0。
提供中文版本
Apache Hop 2.0 提供了中文版本,这项工作由中国开发者@Shl Xue贡献。
引入新的转换插件
Apache AVRO 文件输出
Apache Avro 文件输出将写入转换为 Avro 二进制或 JSON 格式的二进制文件或字段。
Apache Doris 批量加载程序
Apache Doris 是现代 MPP 分析数据库产品,可提供亚秒级查询和高效的实时数据分析。凭借其分布式架构,支持高达 10PB 级别的数据集,并且易于操作。Apache Doris Bulk Loader 转换支持以高速和大容量将数据插入到 Apache Doris 中,使其成为比使用传统数据库插入语句更快的数据加载方式。
Drools 规则执行器
Drools Rule Executor 转换可根据规则集执行传入行的字段。这对于确定附加信息,或将行路由到另一个转换很有用。
升级 Apache Beam
Apache Beam是先进的统一编程模型,可用于在任何执行引擎上运行批量和流式数据处理作业。流行的执行引擎包括 Apache Spark、Apache Flink 或 Google Cloud Platform Dataflow。
Apache Beam 一直是 Apache Hop 的一个重要插件,并随 Apache Spark 3.1.3 和 Apache Flink 1.14.4 升级到 2.38.0。