Apache Beam 2.34.0 发布,大数据流处理与批处理编程范式

栏目: 软件资讯 · 发布时间: 4年前

内容简介:Apache Beam 是一种用于批处理和流式处理的统一编程模型,包含一套构建管道的特定语言 SDK 和在分布式处理后端执行管道的运行器。 亮点 用于 Calcite SqlTransform 的 Beam Java API 不再是实验性的 (BEAM-12680)...

Apache Beam 是一种用于批处理和流式处理的统一编程模型,包含一套构建管道的特定语言 SDK 和在分布式处理后端执行管道的运行器。

亮点

  • 用于 Calcite SqlTransform 的 Beam Java API 不再是实验性的 (BEAM-12680).
  • Python 的 ParDo 转换现在支持 with_exception_handling 选项

I/O

  • ReadFromBigQueryReadAllFromBigQuery现在默认以 BATCH 优先级运行查询。 query_priority 参数被引入到相同的转换中,以允许配置查询优先级 (BEAM-12913).
  • [试验性] ReadFromBigQuery中增加了对 BigQuery Storage Read API 的支持。新引入的 method参数可以设置为 DIRECT_READ以使用 Storage Read API。默认是 EXPORT,调用 BigQuery 导出请求。(BEAM-10917).
  • [试验性] 为 ReadFromBigQuery增加了 use_native_datetime参数,以便在使用 ReadFromBigQuery时配置 DATETIME 字段的返回类型。这个参数只能在 method = DIRECT_READ时使用 (BEAM-10917).

新功能/改进

  • 升级到 Calcite 1.26.0 (BEAM-9379).
  • 在 Python SDK 中增加了一个新的 dataframe,跟踪我们已经验证了兼容性的 pandas 版本。当你打算使用 DataFrame API 时,我们现在建议用 pip install apache-beam[dataframe] 来安装 Beam (BEAM-12906).
  • 添加一个用 Spark Cluster 部署 Python Apache Beam 的例子

错误修正

  • 修正了将多个 DeferredFrames 写入 csv 时的错误 (BEAM-12701).
  • 修正了在安装了 pandas 1.0.x 的情况下导入 DataFrame API 的错误 (BEAM-12945).
  • 修正了 Go SDK 中 top.SmallestPerKey 的实现 (BEAM-12946).

更多详情可查看:https://beam.apache.org/blog/beam-2.34.0/


以上所述就是小编给大家介绍的《Apache Beam 2.34.0 发布,大数据流处理与批处理编程范式》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Creative Curve

The Creative Curve

Allen Gannett / Knopf Doubleday Publishing Group / 2018-6-12

Big data entrepreneur Allen Gannett overturns the mythology around creative genius, and reveals the science and secrets behind achieving breakout commercial success in any field. We have been s......一起来看看 《The Creative Curve》 这本书的介绍吧!

SHA 加密
SHA 加密

SHA 加密工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换