1、故障事件系统
故障监控系统目前还在小范围推广过程中,配合实施了简单的定期会议制度,集中各家软件服务商一起察看系统的报修和处理情况,由于有了管理手段,通过系统报修的处理速度明显加快,故障报修者几乎第一时间就能得到最直接的反馈,使用者也对此表示满意。在使用过程中我们又根据实际增加了上传附件功能,报修者直接上传故障截屏,让维护人员可以迅速找到故障点。
通过一段时间的运行,我们发现某个系统经常性被报修业务无法同步,这个异常引起重视,但是发现同步的双方都正常,这个时候监控工具的作用就体现出来了,通过图示可以明显看出在每天同步的12点前,该系统都会重起,但是有时候重起时间稍长,就会错过数据同步从而造成问题,经过进一步调整顺利解决了这个故障。
2、应用监控系统
安装
Applications Manager的安装比较简单,一台pc server 即可,B/S的管理架构,安装完成后就可进行登录进行管理。
实施
Applications Manager的实施主要有两个工作,添加监视器和对监视器中的指标设定报警阀值及报警动作。添加监视器比较轻松,基本上常用的应用服务器类型都可以找到对应的预制模板,我们使用到的Jboss、Apache、Oracle As都比较轻松的建立了监视器,对于windows系统还可以通过SNMP和WMI两种方式连接。对于现在安全等级保护中关于定期修改密码的要求,虽然WMI最简单,但是需要管理员的权限,所以没有采用。总的来说配置监视器在技术上没有什么难点,相反对于单位内自己的信息资源的整理倒是工作的重点,首先要确定需要监控核心的业务系统,然后找到与之相关的服务器、数据库和中间件的树立,确定必须要设定监控的指标以及出现告警后的告警信息的推送对象,通过树立慢慢的基础维护管理的脉络也清晰了起来。
运行
经过一段时间的运行,不得不说Applications Manager给我的工作带来了极大的便利,监控轮训我统一设置为5分钟,也就是说现在任何时间、任何一个监视器所对应的管理对象发生了异常,最多5分钟,系统维护方和管理方都会同时收到告警进短信,短信中会明确告知故障台服务器的什么系统出了问题,有了这样的管理利器,大大降低了系统平均修理时间 (MTTR),很多故障在系统用户没有感知的情况下已经被解决。
Applications Manager除了监控、报警功能外,在使用中还发现一些其它的特点总结如下:
1、监视器信息丰富、专业性强
对于提供的监视器都不是简单的看看是否运行正常而已,由于Applications Manager融合了各大厂商产品自身提供的监控功能,因此每一种类型的监视器都提供了丰富的功能,比如Oracle数据库,不仅可以看到内存分配、响应时间、查询的集中率和SGA等静态配置情况,而且还能看到当前查询、会话和锁的情况。从管理角度说,自从用了Applications Manager后,就再也没有去登录过Oracle自己的客户端了,数据库维护商来了打开Applications Manager,哪个数据库需要调整维护一目了然。
2、统计报表功能强大、界面展示直观
大量的数据集中之后,如何展示,如何让用户可以直观的通过图获得想要得信息是检验一个管理系统优秀与否的重要指标,在这一点上Applications Manager做的还算不错,我最喜欢的就是可用性的图表,分别可以察看最近24小时、一周和一个月的可用性,任何原因的停机都会很直观的反应在这张图表上。 另外Applications Manager还提供了比较强大的报表功能,这些报表都是预制的直接启用即可,报表会在指定的时间发到指定的邮箱。如果觉得预制报表不符合需求,还可以根据提供的各项指标自定义报表,比如针对oracle 数据库提供将近50个动态指标完全可以满足各种特殊的需求。
3、工具功能再强大也需要人的管理
Applications Manager无疑是一套比较优秀的应用管理软件,但是并不是说将系统装好,监视器配好从此就高枕无忧了,一方面,众多的指标都是死的,在初期配置完成后就需要不断的去调整和优化这些报警阀值,减少误报,提高报警的准确性;另外一方面,想要将这套工具运用到能够进行故障的预先干预,做到将故障消灭在萌芽,靠系统本身是做不到的,必须要熟悉所监控对象的各种指标的含义,通过一段时间的积累故障事件,通过分析故障点的表现特征,逐步尝试建立可行的指标模型,其中还是需要投入大量精力的。 在使用了Applications Manager之后不是什么事都没有了,而可以看作一个新的开始,让管理人员在更高的一个层面上对IT系统进行管理,可以大大提高工作效率,但不一定能够降低工作量,因为相应的可能需要学习更多新的知识,花更多的时间摸索实践。