阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心

栏目: 软件资讯 · 发布时间: 5年前

内容简介:那么,实施了一系列优化手段之后的计算机集群究竟是什么样子?混部的情况究竟如何?为了让有兴趣的学生以及相关研究人员,可以从数据上更加深入地理解大规模数据中心,我们特别发布了这份数据集(Alibaba Cluster Data V2018)。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。在数据集中,你可以详细了解到我们是如何通过混部把资源利用率提高到 45%;我们每天到底运行了多少任务;以及业务的资源需求有什么特点。如何使用这份数据

2015 年,我们尝试在阿里巴巴的数据中心,将延迟不敏感的批量离线计算任务和延迟敏感的在线服务部署到同一批机器上运行,让在线服务用不完的资源充分被离线使用以提高机器的整体利用率。

经过 3 年多的试验论证、架构调整和资源隔离优化,目前这个方案已经走向大规模生产。我们通过混部技术将集群平均资源利用率从 10% 大幅度提高到 45%。另外,通过各种优化手段,可以让更多任务运行在数据中心,将“双11”平均每万笔交易成本下降了 17%。

那么,实施了一系列优化手段之后的计算机集群究竟是什么样子?混部的情况究竟如何?

为了让有兴趣的学生以及相关研究人员,可以从数据上更加深入地理解大规模数据中心,我们特别发布了这份数据集(Alibaba Cluster Data V2018)。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。

在数据集中,你可以详细了解到我们是如何通过混部把资源利用率提高到 45%;我们每天到底运行了多少任务;以及业务的资源需求有什么特点。如何使用这份数据集,完全取决于你的需要。

如何下载?

关注 “阿里技术” 官方公众号,并在对话框内回复 “数据集” ,即可免费下载

这个数据可以做什么?

这份 Alibaba Cluster Data V2018 包含 6 个文件,压缩后大小近 50GB(压缩前 270+GB ),里面包含了 4000 台服务器、相应的在线应用容器和离线计算任务长达 8 天的运行情况。

通过这份数据,你可以:

  1. 了解当代先进数据中心的服务器以及任务运行特点;

  2. 试验你的调度、运筹等各种任务管理和集群优化方面的各种算法并撰写论文;

  3. 利用这份数据学习如何进行数据分析,揭示更多我们自己都未曾发现的规律。

上面这几点,没有接触过类似数据的朋友,可能对于这份数据的用处并没有直观的印象,下面我举几个简单的例子:

  • 电商业务在白天和晚上面临的压力不同,我们如何在业务存在波峰波谷的情况下提高整体资源利用率?

  • 你知道我们最长的 DAG 有多少依赖吗?

  • 一个典型的容器存在时间是多久?

  • 一个计算型任务的典型存在时间是多少?一个 Task 的多个 Instance 理论上彼此很相似,但是它们运行的时间都一样吗?

实际上,学者们甚至可以用这些数据作出更加精彩的分析。2017年,我们开放的第一波数据(Alibaba Cluster Data V2017),已经产生了多篇优秀的学术成果。

以下是学者们在论文中引用数据(Alibaba Cluster Data V2017)的例子,其中不乏被 OSDI 这样顶级学术会议收录的优秀文章。我们期待,未来你也能与我们共同分享你用这份数据产生的成果!

" LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI'18 "  (Best paper award!)

阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心

" Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace, Chengzhi Lu et al. BIGDATA 2017 "

阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心

阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心

" CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018 "

阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心
阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心
阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心

" The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: aView from Alibaba Trace, Qixiao Liu and Zhibin Yu. SoCC2018 "

阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心
阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心

阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心

Cluster Data V2018 更出色

新版本 V2018 与 V2017 存在两个最大的区别:

DAG 信息加入

我们加入了离线任务的 DAG 任务信息,据了解,这是目前来自实际生产环境最大的 DAG 数据。

究竟什么是 DAG?离线计算任务,例如 Map Reduce、Hadoop、Spark、Flink 中常用的任务,都是以有向无环图(Directed Acyclic Graph,DAG)的形式进行编排的,其中涉及到任务之间的并行、依赖等方面。下面是一个 DAG 的例子。

阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心

规模更大

上一版数据包含了约 1300 台机器在约 24 小时的内容数据,而新版 Cluster Data V2018 中包括了 4000 台机器 8 天的数据。


以上所述就是小编给大家介绍的《阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

网易一千零一夜

网易一千零一夜

网易杭研项目管理部 / 电子工业出版社 / 2016-9-1 / 46

本书是网易杭州研究院项目管理部多年来丰富的项目管理实践总结与干货分享。字字句句凝结了网易项目经理的甘与苦、汗与泪。 全书围绕项目管理体系,从敏捷实践、项目立项、需求管理、沟通管理,到计划进度管理、风险管理,真实反映了网易面向互联网产品项目管理实战经验与心路历程。 不论你是项目管理新手,还是资深项目经理,都可以从本书中获得启发与借鉴。一起来看看 《网易一千零一夜》 这本书的介绍吧!

URL 编码/解码
URL 编码/解码

URL 编码/解码

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试