内容简介:正如Google所展示的那样,应用机器学习来理解散热模式,并微调数据中心冷却系统,以实现最高效率,是机器学习的合理数据中心用例。但是,将机器学习应用于互联网数据中心管理的软件初创公司AdeptDC认为,如果考虑的不仅仅是冷却甚至是电力,它还会更有效。该公司早年一直专注于冷却优化,正在扩大其功能范围,承诺从电源、冷却和硬件收集数据的系统,关联所有各种信息,以全面优化效率、排除故障、发出事件警报,并通过识别异常来防止设备故障。AdeptDC预计将在下个月推出其数据中心运营商的AI助手,首席执行官拉亚戈什在接受
正如Google所展示的那样,应用机器学习来理解散热模式,并微调数据中心冷却系统,以实现最高效率,是机器学习的合理数据中心用例。但是,将机器学习应用于互联网数据中心管理的软件初创公司AdeptDC认为,如果考虑的不仅仅是冷却甚至是电力,它还会更有效。
该公司早年一直专注于冷却优化,正在扩大其功能范围,承诺从电源、冷却和硬件收集数据的系统,关联所有各种信息,以全面优化效率、排除故障、发出事件警报,并通过识别异常来防止设备故障。
AdeptDC预计将在下个月推出其数据中心运营商的AI助手,首席执行官拉亚戈什在接受采访时说道。它使用相同的机器学习技术和相同简单的安装方法,通过 Docker 容器,不需要硬件传感器。
该公司了解到,它必须解决的不仅仅是飞行员对潜在客户的冷却。
戈什说:“我们一直在美国和海外运营着几个数据中心的飞行员,而我们所学到的是降低冷却成本和提高相对效率是很好的,但不是运营商主要关心的事情。”
运营商主要担心避免故障,这通常是由于冷却问题和相关硬件问题而导致的。(上个月灾难性的微软Azure停电只是最近一个备受瞩目的例子。)应用其技术来帮助解决这种问题是AdeptDC的新目标。他说:“我们使用相同的机器学习技术,但我们使用它来确保硬件运行正常并预测性能问题,而不只是电源和冷却优化。”
这意味着从服务器电源和风扇收集运营数据,据他称,其故障是数据中心运营中的主要问题。“CPU已经在硬件架构中得到了解决,但电源系统和服务器风扇始终处于故障状态。”
AdeptDC的角度是将硬件数据与设施冷却系统状态数据相关联。
戈什说:“像谷歌这样的公司使用环境数据来代表数据中心生态系统和性能的总体健康状况。”他建议,环境数据(温度和湿度)是整个系统健康状况的一部分,但电压监测也很关键。电压是整个数据中心健康状况的主要指标;如果电压表现得很奇怪,那么就会出现各种各样的问题。
安装后大约需要一周的时间来收集足够的数据以获得基线并开始生成准确的相关性。
当存在事故并对冷却系统进行微调时,相关性对于生成修正建议很有用,但最重要的是,它们对于检测正常操作期间的异常非常有用。一旦AdeptDC标记异常,其仪表板将显示其所在的逻辑层:IT、网络或电源和冷却。
“我们希望捕捉到作为预警的症状。”戈什说。
相关性也有助于排除故障。该系统包括用于分类事件的清单,以帮助员工,这可能在停电期间恐慌或在错误的地方寻找问题。“当数据中心出现故障时,大部分团队都会跑到服务器机房,但服务器问题可能与冷却问题有关。”戈什说。
有多个故障排除级别:
第一级是简单的事情。例如,如果服务器指示灯未亮起,则电源或冷却系统可能存在问题。下一级稍微复杂一些,例如设备内部的电压问题。更复杂的水平处理气流数据等事情。
如果系统通过较低级别并且无法识别问题,则机器学习功能会启动以查找根本原因与可能导致问题的各种其他来源之间的关联。
使用机器学习来处理事件可以帮助弥补熟练数据中心工作人员的减少。“存在巨大的人才短缺,数据中心运营管理方面没有大学课程,因此这将成为未来的一个大问题。”Ghosh指出。“部分工作可以通过人工智能以更系统的方式完成,我非常希望下一代人工智能可以帮助弥合供需之间的差距。”
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- Linux中断一网打尽(2) - IDT及中断处理的实现
- Kernel trace tools(一):中断和软中断关闭时间过长问题追踪
- Java中断机制
- 展开中断或忽略的序号
- haskell – 让重命名功能中断代码
- Cloudflare 接口服务中断故障复盘与思考
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。