基于XGBoost算法的报警分类

栏目: 编程工具 · 发布时间: 7年前

内容简介：公司中常常会出现很多的报警，大量的报警充斥在运维工作人员的工作和生活中，给运维工作人员带来了很大的压力。更让他们头痛的是，他们需要对比报警事件与监控项的变化规律，需要在数量庞大的报警以及监控数据中找到问题的本质，这通常没有明确的规则，更多的时候需要依靠运维人员长期的工作经验。因此，如何能够快速的从报警事件中定位问题，缩小运维人员的排查范围成了提高运维效率的关键。本文针对运维工作人员所关心的6大类报警，通过相关性检验，信息增益比多次筛选确定影响各类报警的监控指标，再以此为特征运用XGBoost算法对报警进行

背景：

公司中常常会出现很多的报警，大量的报警充斥在运维工作人员的工作和生活中，给运维工作人员带来了很大的压力。更让他们头痛的是，他们需要对比报警事件与监控项的变化规律，需要在数量庞大的报警以及监控数据中找到问题的本质，这通常没有明确的规则，更多的时候需要依靠运维人员长期的工作经验。因此，如何能够快速的从报警事件中定位问题，缩小运维人员的排查范围成了提高运维效率的关键。

本文针对运维工作人员所关心的6大类报警，通过相关性检验，信息增益比多次筛选确定影响各类报警的监控指标，再以此为特征运用XGBoost算法对报警进行分类。真正做到了缩小排查范围以及预测报警事件的作用。

方法研究：

本文分别运用了微软论文中相关性分析，信息增益比确定影响各类报警的监控指标，运用XGBoost算法对报警进行分类，下面将详细分析：

信息增益比：

利用相关性能选择出与报警类相关的所有特征，但是仍然有大量的监控项被选出，如果直接进行分类很容易出现过拟合现象。因此利用相关性检验只能是特征的初步筛选，为达到精确定位问题的目的，需要对监控项进行精细筛选，本文采用的方法是信息增益比。

信息增益和信息增益比是衡量离散特征对模型的贡献程度的重要指标，常常用于决策树的构建之初。特征A对于训练数据集D的信息增益g(D,A)用于表示特征A使数据集 D的分类不确定性减少的程度。对于数据集D，设|D|代表样本容量，设样本有K个类别，|ck|为属于类别ck的样本个数，再设特征A有n个不同的取值,并根据特征A的取值将划分成n个子集，记子集Di中属于类别ck的样本集合为Dik,因此信息增益g(D,A)可以表示为: 基于XGBoost算法的报警分类

信息增益比是对于信息增益的改进，克服了信息增益在选择训练特征时出现的偏向选择取值较多特征的问题，信息增益比的具体表示如下：基于XGBoost算法的报警分类

本文对于经过相关性检测筛选出的各个监控项计算信息增益比的值，并选出前K个值（实际操作用选择5个）作为影响报警的最后的监控项特征。

XGBoost算法：

在选择出影响各个报警的监控特征后需要建立相应的分类器进行报警分类，本文选择的是XGBoost算法。XGBoost算法是决策树模型与AdaBoost算法结合的产物，是GDBT模型的改进，在分类方面表现出优异的效果。XGBoost的分类思想以及具体实现：

若已知第t-1轮的决策树，则由Boost思想希望利用前t-1轮构建的决策树构建第t轮的决策树，因此第t轮的目标函数是：

基于XGBoost算法的报警分类

其中L(x)是损失函数，一般为似然函数，将L(x)在第t-1棵树处进行二阶泰勒展开：

基于XGBoost算法的报警分类

而对于一棵决策树而言：基于XGBoost算法的报警分类

其中Wj是第j个叶子节点的预测值，q(x)是一个索引映射，其作用是将输入映射到叶子的索引号上面；T是叶子节点的个数。因此目标函数可以写成如下形式：

基于XGBoost算法的报警分类

对Wj求导并带入上式中可得：

基于XGBoost算法的报警分类

由上式可知通过XGBoost算法可以直接构建出决策树每个叶子节点的预测值，于是问题转化为对于第t轮决策树应该构建多少个叶节点，而对节点的分裂可以用贪心算法进行计算。

若对于某一个叶节点进行再分裂，则会穿红色呢过的目标函数的下降量为：基于XGBoost算法的报警分类

对于每一次叶节点的分裂应该枚举所有的可能的分割方案，并按照上述公式计算分裂后的目标函数下降量，直至达到最大的决策树深度，或者Gain值都小于0为止。

总结：

利用上述方法，我们对host.alive，df.bytes.used.percent、sys.disk.rw、cpu.idle、mem.swapused.percent和disk.io.util等6大类报警进行了分类，最终的结果如下：

host.alive的报警指标： 'cpu.idle', 'net.if.totoal.bits.sum', 'mem.memused.percent', 'mem.swapused.percent', 'ss.closed'；分类精确度：99.6%
df.bytes.used.percent的报警指标：'load.1min','load.5min','load.15min','ss.timewait', 'ss.closed'；分类精确度：81%
sys.disk.rw的报警指标：'load.1min','load.5min', 'load.15min', 'df.statistics.used.percent', 'ss.timewait'；分类精度：98%
cpu.idle的报警指标：'df.statistics.used.percent', 'ss.timewait','ss.closed','cpu.idle', 'mem.memused.percent'；分类精确度：76.6%
mem.swapused.percent的报警指标：'agent.alive', 'load.1min','load.5min','load.15min', 'net.if.totoal.bits.sum'；分类精度：80.8%
disk.io.util的报警指标：'load.1min', 'load.5min','load.15min', 'mem.memused.percent', 'ss.closed'；分类精度：75.9%

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

重构

Martin Fowler / 熊节 / 人民邮电出版社 / 2010 / 69.00元

重构，一言以蔽之，就是在不改变外部行为的前提下，有条不紊地改善代码。多年前，正是本书原版的出版，使重构终于从编程高手们的小圈子走出，成为众多普通程序员日常开发工作中不可或缺的一部分。本书也因此成为与《设计模式》齐名的经典著作，被译为中、德、俄、日等众多语言，在世界范围内畅销不衰。本书凝聚了软件开发社区专家多年摸索而获得的宝贵经验，拥有不因时光流逝而磨灭的价值。今天，无论是重构本身，业界对重......一起来看看《重构》这本书的介绍吧!

码农工具