内容简介:Apache Beam 是一种用于批处理和流式处理的统一编程模型,包含一套构建管道的特定语言 SDK 和在分布式处理后端执行管道的运行器。 亮点 用于 Calcite SqlTransform 的 Beam Java API 不再是实验性的 (BEAM-12680)...
Apache Beam 是一种用于批处理和流式处理的统一编程模型,包含一套构建管道的特定语言 SDK 和在分布式处理后端执行管道的运行器。
亮点
- 用于 Calcite SqlTransform 的 Beam Java API 不再是实验性的 (BEAM-12680).
- Python 的 ParDo 转换现在支持
with_exception_handling
选项
I/O
ReadFromBigQuery
和ReadAllFromBigQuery
现在默认以 BATCH 优先级运行查询。query_priority
参数被引入到相同的转换中,以允许配置查询优先级 (BEAM-12913).- [试验性]
ReadFromBigQuery
中增加了对 BigQuery Storage Read API 的支持。新引入的method
参数可以设置为DIRECT_READ
以使用 Storage Read API。默认是EXPORT
,调用 BigQuery 导出请求。(BEAM-10917). - [试验性] 为
ReadFromBigQuery
增加了use_native_datetime
参数,以便在使用ReadFromBigQuery
时配置 DATETIME 字段的返回类型。这个参数只能在method = DIRECT_READ
时使用 (BEAM-10917).
新功能/改进
- 升级到 Calcite 1.26.0 (BEAM-9379).
- 在 Python SDK 中增加了一个新的
dataframe
,跟踪我们已经验证了兼容性的pandas
版本。当你打算使用 DataFrame API 时,我们现在建议用pip install apache-beam[dataframe]
来安装 Beam (BEAM-12906). - 添加一个用 Spark Cluster 部署 Python Apache Beam 的例子
错误修正
- 修正了将多个 DeferredFrames 写入 csv 时的错误 (BEAM-12701).
- 修正了在安装了 pandas 1.0.x 的情况下导入 DataFrame API 的错误 (BEAM-12945).
- 修正了 Go SDK 中 top.SmallestPerKey 的实现 (BEAM-12946).
更多详情可查看:https://beam.apache.org/blog/beam-2.34.0/
以上所述就是小编给大家介绍的《Apache Beam 2.34.0 发布,大数据流处理与批处理编程范式》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- Apache Beam 2.24.0 发布,大数据流处理与批处理编程范式
- Apache Beam 2.25.0 发布,大数据流处理与批处理编程范式
- Apache Beam 2.27.0 发布,大数据流处理与批处理编程范式
- Apache Beam 2.28.0 发布,大数据流处理与批处理编程范式
- 大数据技术 DataPipeline在大数据平台的数据流实践
- DataPipeline在大数据平台的数据流实践
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。