DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

栏目: 编程工具 · 发布时间: 6年前

内容简介：【编者的话】2017年加密货币比较流行，我曾有幸在加密货币交易所参与开发工作，为了应对交易系统高性能、高并发、高可用的要求，我们使用基于Actor模型的Orleans技术，采用CQRS/ES架构结合Service Fabric开展了富有挑战性的工作。本次分享将从不同视角为大家介绍Actor模型、CQRS/ES架构以及Service Fabric在高并发场景中的考量和应用。最近一段时间我一直是这个话题的学习者、追随者，这个话题目前生产环境落地的资料少一些，分享的内容中有一些我个人的思考和理解，如果分享的内容有

【编者的话】2017年加密货币比较流行，我曾有幸在加密货币交易所参与开发工作，为了应对交易系统高性能、高并发、高可用的要求，我们使用基于Actor模型的Orleans技术，采用CQRS/ES架构结合Service Fabric开展了富有挑战性的工作。本次分享将从不同视角为大家介绍Actor模型、CQRS/ES架构以及Service Fabric在高并发场景中的考量和应用。

最近一段时间我一直是这个话题的学习者、追随者，这个话题目前生产环境落地的资料少一些，分享的内容中有一些我个人的思考和理解，如果分享的内容有误、有疑问欢迎大家提出，希望通过分享这种沟通方式大家相互促进，共同进步。

引言

本话题由三部分组成：

Actor模型&Orleans：在编程的层面，从细粒度-由下向上的角度介绍Actor模型；
CQRS/ES：在框架的层面，从粗粒度-由上向下的角度介绍Actor模型，说明Orleans技术在架构方面的价值；
Service Fabric：从架构部署的角度将上述方案落地上线。

群里的小伙伴技术栈可能多是 Java 和 Go 体系，分享的话题主要是C#技术栈，没有语言纷争，彼此相互学习。比如：Scala中，Actor模型框架有akka，CQRS/ES模式与编程语言无关，Service Fabric与Kubernetes是同类平台，可以相互替代，我自己也在学习Kubernetes。

Actor模型&Orleans（细粒度）

共享内存模型

多核处理器出现后，大家常用的并发编程模型是共享内存模型。

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

这种编程模型的使用带来了许多痛点，比如：

编程：多线程、锁、并发集合、异步、设计模式（队列、约定顺序、权重）、编译
无力：单系统的无力性：①地理分布型、②容错型
性能：锁，性能会降低
测试：
- 从坑里爬出来不难，难的是我们不知道自己是不是在坑里（开发调试的时候没有热点可能是正常的）
- 遇到bug难以重现。有些问题特别是系统规模大了，可能运行几个月才能重现问题
维护：
- 我们要保证所有对象的同步都是正确的、顺序的获取多个锁。
- 12个月后换了另外10个程序员仍然按照这个规则维护代码。

简单总结：

并发问题确实存在
共享内存模型正确使用掌握的知识量多
加锁效率就低
存在许多不确定性

Actor模型

Actor模型是一个概念模型，用于处理并发计算。Actor由3部分组成：状态（State）+行为（Behavior）+邮箱（Mailbox），State是指actor对象的变量信息，存在于actor之中，actor之间不共享内存数据，actor只会在接收到消息后，调用自己的方法改变自己的state，从而避免并发条件下的死锁等问题；Behavior是指actor的计算行为逻辑；邮箱建立actor之间的联系，一个actor发送消息后，接收消息的actor将消息放入邮箱中等待处理，邮箱内部通过队列实现，消息传递通过异步方式进行。

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

Actor是分布式存在的内存状态及单线程计算单元，一个Id对应的Actor只会在集群种存在一个（有状态的 Actor在集群中一个Id只会存在一个实例，无状态的可配置为根据流量存在多个）,使用者只需要通过Id就能随时访问不需要关注该Actor在集群的什么位置。单线程计算单元保证了消息的顺序到达,不存在Actor内部状态竞用问题。

举个例子：

多个玩家合作在打Boss，每个玩家都是一个单独的线程，但是Boss的血量需要在多个玩家之间同步。同时这个Boss在多个服务器中都存在，因此每个服务器都有多个玩家会同时打这个服务器里面的Boss。

如果多线程并发请求，默认情况下它只会并发处理。这种情况下可能造成数据冲突。但是Actor是单线程模型，意味着即使多线程来通过Actor ID调用同一个Actor，任何函数调用都是只允许一个线程进行操作。并且同时只能有一个线程在使用一个Actor实例。

Actor模型：Orleans

Actor模型这么好，怎么实现？

可以通过特定的Actor工具或直接使用编程语言实现Actor模型，Erlang语言含有Actor元素，Scala可以通过Akka框架实现Actor编程。C#语言中有两类比较流行，Akka.NET框架和Orleans框架。这次分享内容使用了Orleans框架。

特点：

Erlang和Akka的Actor平台仍然使开发人员负担许多分布式系统的复杂性：关键的挑战是开发管理Actor生命周期的代码，处理分布式竞争、处理故障和恢复Actor以及分布式资源管理等等都很复杂。Orleans简化了许多复杂性。

优点：

降低开发、测试、维护的难度
特殊场景下锁依旧会用到，但频率大大降低，业务代码里甚至不会用到锁
关注并发时，只需要关注多个actor之间的消息流
方便测试
容错
分布式内存

缺点：

也会出现死锁（调用顺序原因）
多个actor不共享状态，通过消息传递，每次调用都是一次网络请求，不太适合实施细粒度的并行
编程思维需要转变

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

第一小节总结：上面内容由下往上，从代码层面细粒度层面表达了采用Actor模型的好处或原因。

CQRS/ES（架构层面）

从1000万用户并发修改用户资料的假设场景开始

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

每次修改操作耗时200ms，每秒5个操作
MySQL连接数在5K，分10个库
5 *5k *10=25万TPS
1000万/25万=40s

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

在秒杀场景中，由于对乐观锁/悲观锁的使用，推测系统响应时间更复杂。

使用Actor解决高并发的性能问题

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

1000万用户，一个用户一个Actor，1000万个内存对象。

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

200万件SKU，一件SKU一个Actor，200万个内存对象。

平均一个SKU承担1000万/200万=5个请求
1000万对数据库的读写压力变成了200万
1000万的读写是同步的，200万的数据库压力是异步的
异步落盘时可以采用批量操作

总结：

由于1000万+用户的请求根据购物意愿分散到200万个商品SKU上：每个内存领域对象都强制串行执行用户请求，避免了竞争争抢；内存领域对象上扣库存操作处理时间极快，基本没可能出现请求阻塞情况；

从架构层面彻底解决高并发争抢的性能问题。理论模型，TPS>100万+……

EventSourcing：内存对象高可用保障

Actor是分布式存在的内存状态及单线程计算单元，采用EventSourcing只记录状态变化引发的事件，事件落盘时只有Add操作，上述设计中很依赖Actor中State，事件溯源提高性能的同时，可以用来保证内存数据的高可用。

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

CQRS

上面1000万并发场景的内容来自网友分享的PPT，与我们实际项目思路一致，就拿来与大家分享这个过程，下图是我们交易所项目中的架构图：

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

开源版本架构图：

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

开源项目GitHub： https://github.com/RayTale/Ray

第二小节总结：由上往下，架构层面粗粒度层面表达了采用Actor模型的好处或原因。

Service Fabric

系统开发完成后Actor要组成集群，系统在集群中部署，实现高性能、高可用、可伸缩的要求。部署阶段可以选择Service Fabric或者Kubernetes，目的是降低分布式系统部署、管理的难度，同时满足弹性伸缩。

交易所项目可以采用Service Fabric部署，也可以采用K8S，当时K8S还没这么流行，我们采用了Service Fabric，Service Fabric 是一款微软开源的分布式系统平台，可方便用户轻松打包、部署和管理可缩放的可靠微服务和容器。开发人员和管理员不需解决复杂的基础结构问题，只需专注于实现苛刻的任务关键型工作负荷，即那些可缩放、可靠且易于管理的工作负荷。支持Windows与 Linux 部署，Windows上的部署文档齐全，但在Linux上官方资料没有。现在推荐Kubernetes。

第三小节总结：

借助Service Fabric或K8S实现低成本运维、构建集群的目的。
建立分布式系统的两种最佳实践：
- 进程级别：容器+运维工具（Kubernetes/Service Fabric）
- 线程级别：Actor+运维工具（Kubernetes/Service Fabric）

上面是我对今天话题的分享。

Q&A

Q：单点故障后，正在处理的Cache数据如何处理的，例如，http、tcp请求……毕竟涉及到钱？

A：actor有激活和失活的生命周期，激活的时候使用快照和Events来恢复最新内存状态，失活的时候保存快照。actor框架保证系统中同一个key只会存在同一个actor，当单点故障后，actor会在其它节点重建并恢复最新状态。

Q：event ID生成的速度如何保证有效的scale？有没有遇到需要后期插入一些event，修正前期系统运行的bug？有没有遇到需要把前期已经定好的event再拆细的情况？有遇到系统错误，需要replay event的情况？

A：当时项目中event ID采用了 MongoDB 的ObjectId生成算法，没有遇到问题；有遇到后期插入event修正之前bug的情况；有遇到将已定好的event修改的情况，采用的方式是加版本号；没有，遇到过系统重新迁移删除快照重新replay event的情况。

Q：数据落地得策略是什么？还是说就是直接落地？

A：event数据直接落地；用于支持查询的数据，是Handler消费event后异步落库。

Q：actor跨物理机器集群事务怎么处理？

A：结合事件溯源，采用最终一致性。

Q：Grain Persistence使用Relational Storage容量和速度会不会是瓶颈？

A：Grain Persistence存的是Grain的快照和event，event是只增的，速度没有出现瓶颈，而且开源版本测试中PostgreSQL性能优于MongoDB，在存储中针对这两个方面做了优化：比如分表、归档处理、快照处理、批量处理。

Q7：开发语言是erlang吗？Golang有这样的开发模型库支持吗？

A：开发语言是C#。Golang我了解的不多，proto.actor可以了解一下： https://github.com/AsynkronIT/protoactor-go 。

Q：每个Pod的actor都不一样，如何用Kubernetes部署actor，失败的节点如何监控，并借助Kubernetes自动恢复？

A：actor是无状态的，失败恢复依靠重新激活时事件溯源机制。Kubernetes部署actor官方有支持，可以参考官方示例。在实际项目中使用Kubernetes部署Orleans，我没有实践过，后来有同事验证过可以，具体如何监控不清楚。

Q：Orleans中，持久化事件时，是否有支持并发冲突的检测，是如何实现的？

A：Orleans不支持；工作中，在事件持久化时做了这方面的工作，方式是根据版本号。

Q：Orleans中，如何判断消息是否重复处理的？因为分布式环境下，同一个消息可能会被重复发送到actor mailbox中的，而actor本身无法检测消息是否重复过来。

A：是的，在具体项目中，通过框架封装实现了幂等性控制，具体细节是通过插入事件的唯一索引。

Q：同一个actor是否会存在于集群中的多台机器？如果可能，怎样的场景下可能会出现这种情况？

A：一个Id对应的Actor只会在集群种存在一个。

以上内容根据2019年6月4日晚微信群分享内容整理。分享人郑承良，上海某科技公司架构师，对高并发场景下的分布式金融系统拥有丰富的实战经验，曾为澳大利亚、迪拜多家交易所提供技术支持。DockOne每周都会组织定向的技术分享，欢迎感兴趣的同学加微信：liyingjiese，进群参与，您有想听的话题或者想分享的话题都可以给我们留言。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

奔跑吧，程序员

[美]叶夫根尼·布里克曼（Yevgeniy Brikman） / 吴晓嘉 / 人民邮电出版社 / 2018-7 / 99.00元

本书以软件工程师出身的创业者的角度，全面介绍了创业公司该如何打造产品、实现技术和建立团队，既是为创业者打造的一份实用入门指南，又适合所有程序员系统认识IT行业。书中内容分为三部分——技术、产品和团队，详细描绘创业的原始景象，具体内容包括：创业点子、产品设计、数据与营销、技术栈的选择、整洁的代码、软件交付、创业文化、招兵买马，等等。一起来看看《奔跑吧，程序员》这本书的介绍吧!

码农工具

DockOne微信分享（二一一）：基于Actor模型的CQRS/ES解决方案分享

引言

Actor模型&Orleans（细粒度）

共享内存模型

Actor模型

Actor模型：Orleans

CQRS/ES（架构层面）

从1000万用户并发修改用户资料的假设场景开始

使用Actor解决高并发的性能问题

EventSourcing：内存对象高可用保障

CQRS

Service Fabric

Q&A

奔跑吧，程序员

Base64 编码/解码

SHA 加密

UNIX 时间戳转换