借助混沌工程工具 ChaosBlade 构建高可用的分布式系统原荐

栏目: 服务器 · 发布时间: 6年前

内容简介：在分布式架构环境下，服务间的依赖日益复杂，可能没有人能说清单个故障对整个系统的影响，构建一个高可用的分布式系统面临着很大挑战。在可控范围或环境下，使用 ChaosBlade 工具，对系统注入各种故障，持续提升分布式系统的容错和弹性能力，以构建高可用的分布式系统。

在分布式架构环境下，服务间的依赖日益复杂，可能没有人能说清单个故障对整个系统的影响，构建一个高可用的分布式系统面临着很大挑战。在可控范围或环境下，使用 ChaosBlade 工具，对系统注入各种故障，持续提升分布式系统的容错和弹性能力，以构建高可用的分布式系统。

ChaosBlade 是什么？

ChaosBlade 是一款遵循混沌工程实验原理，建立在阿里巴巴近十年故障测试和演练实践基础上，并结合了集团各业务的最佳创意和实践，提供丰富故障场景实现，帮助分布式系统提升容错性和可恢复性的混沌工程工具。点击这里，了解详情。

ChaosBlade 无需编译，下载解压即可使用，支持基础资源、 Java 应用、容器服务类的混沌实验，特点是操作简洁、无侵入、扩展性强。

ChaosBlade@GitHub，点击进入

下面我们以微服务分布式系统举例，一步一步构建高可用的分布式系统。

构建高可用的分布式系统

ChaosBlade 的使用方式

ChaoBlade 通过 CLI 方式调用，比如我们模拟 A 服务调用 B 提供的 com.alibaba.demo.HelloService 服务下的 hello 服务延迟 3 秒，我们可以在 B 应用上注入延迟故障，仅需两步操作：

第一步：准备阶段。由于 Java 应用的故障注入是通过 Java Agent 机制实现，所以首先要先挂载 agent，执行的命令是 blade prepare jvm --process <PROCESS NAME OF B APPLICATION>

第二步：执行阶段，注入故障。执行命令是 blade create dubbo delay --time 3000 --service com.alibaba.demo.HelloService --methodname hello --provider ，即对 B 服务提供方提供的 com.alibaba.demo.HelloService#hello 服务注入 3 秒延迟。

ChaosBlade 使用简洁，如果想了解命令的如何使用，可在命令后面添加 -h 参数，比如 blade create dubbo delay -h 。更详细的 chaosblade 操作，可详见新手指南

分布式系统高可用原则

高可用的分布式系统一般需要满足以下原则：

失败重试
实例隔离
请求限流
服务降级
服务熔断
流量调度
开关&预案
监控告警
日志跟踪

混沌实验场景实践

我们以 A 调用 B，B 调用 C，A 同时也调用 D 举例，A1、A2 是 A 服务的多个实例，依次类推。

失败重试

实验场景：调用下游服务实例异常。

容错方案：会再次请求另外一个服务实例进行重试。

场景模拟：对 B1 注入异常故障，A 服务调用到 B1 时会出现调用失败。

预期方案：系统会将 A 服务的请求路由到 B2 进行重试。

blade 命令： blade c dubbo throwCustomException --exception <EXCEPTION CLASS> --service <SERVICE NAME> --provider

修复方案：添加失败检测和请求重试能力。

实例隔离

演练场景：多次调用下游一个服务实例超时。

容错方案：会隔离或者下线此服务实例，防止请求路由到此服务实例。

场景模拟：对 B1 注入延迟故障，A 服务调用到 B1 时，出现调用超时。

预期方案：系统会自动隔离或下线 B1 实例。

blade 命令： blade c dubbo delay --time <DELAY TIME> --service <SERVICE NAME> --provider

修复方案：添加服务质量检查，下线不可用的服务实例。

请求限流

演练场景：服务线程池满。

容错方案：会对入口流量进行限流，防止请求堆积，资源耗尽导致服务不可用。

场景模拟：对 A 注入线程池满故障。

预期方案：线程池满时，触发限流，新请求快速失败。

blade 命令： blade c dubbo threadpoolfull --consumer

修复方案：添加限流能力。

服务降级

演练场景：A 对 B 是强依赖，对 D 是弱依赖，A 调用 D 线程数多，争抢调用 B 服务的资源。

容错方案：对弱依赖 B 进行降级，减少资源分配。

场景模拟：对 A 注入调用 D 线程数满故障。

blade 命令： blade c dubbo threadpoolfull --service <D SERVICE NAME> --consumer

修复方案：梳理服务依赖，添加服务降级能力。

调用熔断

演练场景：下游服务不可用

容错方案：触发熔断，快速失败返回

场景模拟：对 B 服务所有的实例注入延迟超时故障。

blade 命令： blade c dubbo delay --time <DELAY TIME> --service <SERVICE NAME> --provider

修复方案：当下游服务不可用时，能立即熔断，快速失败。

流量调度

演练场景：上游高并发下，扩容下游服务，在服务实例初始化时，CPU 负载高，导致上游服务受影响

容错方案：当服务实例机器负载高时，自动切流到正常机器

场景模拟：对 B1 做 CPU 满载操作。

blade 命令： blade c cpu fullload

修复方案：添加系统、应用资源监控和流量调度能力。

系统预案

演练场景：杀掉服务实例。

容错方案：快速拉起或扩容

场景模拟：杀掉 B 大部分实例。

blade 命令： blade create process kill --process <PROCESS NAME>

修复方案：添加相关系统预案。

监控告警

注入任意故障，验证监控告警的有效性

日志跟踪

演练场景：修改应用中具体方法返回值。

容错方案：全链路调用日志记录。

场景模拟：修改 B 服务的一个业务方法的返回值。

blade 命令： blade c jvm return --classname <CLASS NAME> --methodname <METHOD NAME> --value <RETURN VALUE>

修复方案：添加全链路日志记录，便于排查和追溯问题。

总结

通过 ChaosBlade 工具能简洁有效的执行混沌实验，上文提到的请求限流、降级熔断功能可以使用 Sentinel 来解决。阿里云 AHAS 产品已经集成混沌工程平台和 Sentinel 功能。ChaosBlade 除了上述实验场景，还有更多的场景期待你来挖掘。

后续规划

ChaosBlade 后续会继续增强对 Java 生态的混沌实验，比如对 Redis 、GRPC、RabbitMQ 等主流组件的支持。也会增加云原生设施的混沌实验，比如 Kubernetes、Service Mesh 等。

参与贡献

欢迎加入 ChaosBlade 社区，参与混沌工程生态建设，贡献不局限于代码，也可以是想法、文档、和社区答疑、讨论。

作者：中间件小哥

原文链接

本文为云栖社区原创内容，未经允许不得转载。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

算法交易与套利交易

赵胜民 / 厦门大学出版社 / 2010-9 / 35.00元

《算法交易与套利交易》主要介绍算法交易和一些套利交易的策略，以便于读者对相关方面的内容进行阅读和学习。在《算法交易与套利交易》的第一部分，我们回顾了投资学一些相关的基本内容。其中，前两章介绍了证券投资的收益和风险等特征，以及马可维茨的最优资产配置模型。第3章则介绍了股票投资分析当中常用的资本资产定价模型（CAPM）、套利定价模型（APT），以及因素模型。然后，第4、5章分别讲到了金融证券估值模型、......一起来看看《算法交易与套利交易》这本书的介绍吧!

码农工具

借助混沌工程工具 ChaosBlade 构建高可用的分布式系统原荐

ChaosBlade 是什么？