国家电网某地电力公司网络硬件综合监控运维项目
综合监控运维方案自动采集、存储、分析设备状态数据,通过设备远程控制和自动化编排运维的能力,对设备进行远程调控和维护,快速提高工作效率的同时,降低IT运维成本,保障电力信息系统稳定、高效运行。
国家电网某地电力公司是国家电网有限公司的子公司,负责当地电网规划、建设、运营和供电服务,下属多家地市供电企业和检修公司、信息通信公司等业务支撑实施机构。
项目现状
随着公司信息化建设加速,其信息内网中存在大量物理服务器、存储设备、光纤交换机等设备,缺少监控设备细颗粒度部件状态的运维工具,无法满足实际运维需求。
设备类型:存储设备、服务器、光纤交换机、交换机等
设备品牌:华为、H3C、浪潮、惠普、IBM、中兴、联想、DELL、曙光、南瑞、神州鲲泰、超聚变、沃趣、长城超云、Brocade、MELLANOX、贝尔、锐捷等
设备数量:2000+台
项目期望:
- 将网络内近200种不同品牌、不同型号、不同类型的设备统一、集中监控;
- 提供详细的、粒度细设备监控指标库,支持监控的指标包括但不限于:CPU、内存、磁盘、网口、温度等;
- 能够实时监控设备的运行数据,快速判断出硬件部件故障位置与级别,提供高效的故障排查和处理手段;
- 解决设备产生的事件和日志信息格式多样、复杂不一致的问题,可以对其进行集中管理,并转化为清晰易于理解的告警信息;
- 具有多种可供选择的告警通知方式,包括但不限于邮件、短信、微信等;
- 解决目前主要依赖人工巡检,造成的巡检频度低,人力耗费大的问题;
- 解决不同类型设备配置复杂和设备配置工作量大的问题,能够对设备的配置文件进行管理;
- 能够与SG-I6000设备状态评价模块进行对接。
智和信通方案
经过与用户一线运维工程师的深入交流,智和信通充分明确了其对监控运维平台的核心需求,并通过对其日常运维工作的分析提供出针对性的解决方案。
海量异构设备统一纳管
内置大量不同类型、不同品牌型号设备监控模型,通过多维度监控设备,获取网络最新运行状态。监控指标涵盖在线状态、Ping、CPU、内存、网络接口、磁盘、进程、电源、风扇、温度等各方面。且不同类型和应用场景下的设备具备差异监控资源和监视指标,在设备统一纳管的情况下,实现差异化故障告警。
提供设备、资源、设备间连接关系自动化发现绘制能力,以图形方式实现设备、资源、链路状态的直观展示,为设备部件故障的实时发现和有效处理提供便利。
灵活可配的设备、资源、监视任务模型库
支持自定义配置设备类型、设备资源模型和故障监视器、性能监视器监视任务等模型,实现对电力公司内部覆盖存储设备、服务器、光纤交换机、交换机等设备类型,华为、H3C、浪潮、惠普、IBM、中兴、联想、DELL、曙光、南瑞、神州鲲泰、超聚变、沃趣、长城超云、Brocade、MELLANOX、贝尔、锐捷等设备品牌的近200个品牌型号的监控支持。
全面监控设备性能,感知网络运行态势
全面采集网络内存储、服务器、光纤交换机、交换机等设备的性能信息,按照时间、资源、性能类型等多种维度,图形、表格等多种形式进行实时性能和历史性能的展示。并通过智能算法分析历史数据,对磁盘容量、交换机端口容量、机房机柜容量进行展示和预测分析,并根据容量可使用时间进行自定义预警。
多种告警机制,可自定义告警阈值
支持多种告警机制,自定义配置告警阈值,从众多的事件、日志和状态信息中分析提炼异常数据并转化为告警。第一时间获取准确的告警信息,快速标示已执行操作的告警,迅速定位告警设备。
智能告警降噪,快速定位故障根因
采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,对各类告警进行自动压缩收敛,减少无效告警,一步定位发生故障的源头设备。快速检索异常问题关联涉及的各项维度与影响范围,快速定位问题边界,直达故障根因。
多种告警通知途径结合故障自愈能力,实现快速排障
通过故障阈值的设置,在故障真正到来前,提前触发通知机制,三级逐步预警。告警发生中,自动关联调取内置的故障处置预案,配合告警自愈及自动派单能力,快速实现排障处置;在故障消失后,系统能自动检测到先前故障,并做自动清除告警处理。
提供界面颜色、提示声、光效闪烁、信息列表、Email、短信、钉钉、企业微信、个人微信等多种通知渠道。
匹配真实运维场景的自动化巡检
可自定义巡检策略对设备的运行情况进行统计和报表生成,并可预设时间巡检策略执行时间,进行自动化巡检,可向指定邮箱发送巡检结果报告。通过平台内人工触发或定时触发的方式,将巡检工作托管至平台自动执行,解放人力,实现对设备的定期快速检查。
设备配置文件备份、对比、恢复
定期自动对设备策略进行巡检备份,可在线查看、下载保留或通过本次执行结果与上次执行结果或基线文件的对比,当配置出现异常时进行自动告警,并可结合故障自愈能力,自动回滚到信任的版本。
全网IT资产统一管理
提供网络内IT设备一键同步资产数据库的功能,快速同步拓扑内的监控设备,并对其进行资产生命周期管理。以图谱的方式呈现资产与其他资产、配品配件、网络链路、使用人等静态关联关系。
对接I6000系统,实时推送告警与设备状态数据
方案实现与I6000系统的对接,将设备的异常告警信息集中存储,统一分析处理,转化为I6000可识别的、符合国网要求的标准格式。通过设备信息同步功能,将设备资产、监控信息快速同步至I6000,丰富I6000内关于设备的性能、告警、基本信息等内容。
应用价值
通过部署智和信通综合监控运维方案,7*24小时实时监控全网设备,获取IT设备的状态信息,真正满足用户硬件资源精细化监控需求。
通过精细化监控设备的各项硬件指标,实时了解设备的运行状态和负载情况,及时发现硬件组件可能出现的性能瓶颈和故障,不但为设备配置调整和优化提供数据支撑,而且提前预警设备可能出现的故障,以便运维人员有充足的时间准备排障操作。同时,在故障出现后快速诊断故障产生的根本原因,提升排障效率,减少因设备故障带来的业务中断和损失。
在整体运维工作中通过智和信通综合监控运维方案自动采集、存储、分析设备状态数据,通过设备远程控制和自动化编排运维的能力,对设备进行远程调控和维护,快速提高工作效率的同时,降低IT运维成本,保障电力信息系统稳定、高效运行。