本文共 2101 字,大约阅读时间需要 7 分钟。
自从数据中心引入了云计算、虚拟化等大咖技术,立刻变了模样,这些技术大幅提升了数据中心的运行效率,给数据中心带来了诸多好处。不过,任何事情都有两面性,我们在享受新技术带来的益处时,也给数据中心运维的管理带来了不便,需要管理对象的数量、规模及复杂度均呈现指数级增长,传统人工干预、保姆式管理监控与故障处理的方式肯定无法满足要求了。比如对于公有云及大型私有云,服务器数量往往可以达到数万到数十万、百万规模,各类系统云服务及租户的业务应用负载数量,也达到了数以百万乃至千万级的程度,这样全靠人工维护不现实,必须引入自动化、智能化运维的管理模式,将人均维护管理效率从平均每人数十台服务器,提升到平均每人数千台服务器。运维的管理不能成为数据中心上云发展的绊脚石,也要跟得上数据中心的发展。本文将着重介绍几种现代运维中运用的新技术手段。
自动化人工故障修复机制
数据中心难免会出现这样那样的问题,靠人工发现不仅速度慢,而且容易误判。不妨将这个识别工作交由软件来处理。首先,要建立一个故障模式库,长期积累各种曾经或者可能会出现的故障预判、识别,这个故障库内容要实时保持更新,不断将一些新的故障类型和经验输入进去。其次,将故障判断的方法告知软件设备,由软件自动完成判断,软件根据从数据中心各个设备收集上来的运行参数,与故障模式库里保存的参数进行对比,如果发现有相同的,认为是数据中心出故障了。最后,数据中心可以采取告警方式通知运维人员,也可以由软件执行一键式修复。这个取决于业务的重要性以及数据中心故障经验积累的丰富性,万一恢复动作错误,可能会引发二次故障,给数据中心带来更大的损失,所以修复机制一定要慎重,非紧急的业务故障不建议采用自动修复,待人员确认之后再去手工执行修复。实际上,云计算的引入增加了数据中心故障自动检测和修复的难度,所有的应用业务都已和物理硬件设备脱离,形成了一个纯软件的虚拟世界,复杂的虚拟系统给故障的排查和分辨都带来了难度,这给自动化人工故障修复带来了极大挑战。不过,数据中心运维走自动化的路已不可避免,过多的人力成本对于任何一个高速扩张的数据中心都无法承受。
日志和监控信息集中管理与控制
传统数据中心中,各软硬件系统的日志监控信息往往相对零散孤立,没有实现与业务和用户的自动关联,当出现故障时,甚至还需要依此登录到每台设备上去排查,效率低下。在有些数据中心虽然部署了网管系统、日志服务器,依然需要人工检查。当数十万的设备同时输出日志时,海量的数据根本没有办法进行检查,这时就要统一对这些信息进行分析和判断。很多数据中心建设运维管理云平台,就是要将这些海量数据进行统一处理,依然是通过提前设定判断条件,然后发现不符合常规的日志及时进行告警。云平台的判断条件忽略了日志告警的设备差异,只关心对业务有影响的日志信息,设计一些特有的判断故障的条件,这些条件需要和各种设备厂商沟通好,证实这些判断是有效的,然后在云平台中部署。云平台的功能很强大,仅仅是依靠设备主动输出日志来诊断是远远不够的,它还可以主动从数据中心的任何一个环节采集监控信息,这些监控信息可以实时反映整个数据中心系统运行的综合状态,一旦出现异常的参数或者有变化的数值,就要引起警惕,输出告警。
大数据的机器学习机制
传统数据中心的故障发现与修复建议的处理,主要依赖云平台收集的日志和监控信息,通过运维人员长期积累的历史经验进行判断,人的行为是最不可靠的,很多时候经验都是错误的,而机器则不会出错,只要你给它足够的学习信息,它就可以做出正确的判断。最近Master很火,Master是一款会下围棋的机器人,在最近的围棋比赛中,取得了60胜1和的成绩,1和还是因为掉线被系统判和,落败者包括聂卫平等顶尖围棋高手,这说明只要给设备足够的学习时间,它的智慧可以远远超过人类。运维的管理也可以引入机器学习技术,通过对数据中心运维海量数据的分析,利用大数据建模,自动化地、智能化地挖掘出更多高价值的、运维人员认知范围外的故障模式与系统优化模式,从而进一步提升系统运维的效率。通过大数据机器学习,对大规模运维场景下的性能与故障规律分析、趋势预测及故障根因识别定位,提升机器自动化运维的能力,最终其将超过人工运维的判断准确性,就像机器人下围棋一样,最终机器运维数据中心也要大大超过人们自动去做。人们只要去研究如何让这些机器正确学习,学习好就可以了。
显而易见,云数据中心新的自动化运维技术特点主要是:自动化、自学习。由机器自我学习,自动完成数据中心的运维和故障修复。未来的数据中心虽然规模更大,系统更复杂,但在运维的管理上要从简,实现自动化运维管理。数据中心运维将人的因素排除,让数据中心形成一个完全的自治系统,实现成为真正的无人数据中心。当然,数据中心的自动化运维还有很长的路要走,没有哪个数据中心能够真正脱离人工参与。这就像自动驾驶汽车技术发展一样,技术复杂,并彻底改变了现有的生活方式,要人们接受需要很长时日。对于数据中心也一样,自动化运维技术虽好,但仍不够成熟,很多人持观望的态度,但愿未来这类技术可以很快完善起来。
本文转自d1net(转载)