对运营商网络实行“主动发现、智能定位、自动处理、协同调度”的运维服务。面向CT全网设备运行、网络业务性能以及业务质量与用户感知, 7*24小时全网故障的实时主动发现、故障根因智能定位、故障自动处理、故障处理协同运维,贯穿网络故障运维的全流程处理环节,从面向设备的监控,到面向业务的监控,再到面向客户的监控,使得监控运维过程真正做到因客户而动,因业务而动。
在日常维护工作中各个专业相对隔离、网管众多,对运维的支撑工作没有形成合力,不能满足全业务运营支撑保障。综合监控项目立足于各专业、中心的网管之上对各类数据进行标准化,面向全网进行集中监控。
综合监控工作直接面向全网设备的运行状况、网络性能以及业务质量与用户感知,系统7*24小时在线运行,为运维人员提供支撑手段,全面提升集中化管理效率。
围绕如何进行海量告警数据的实时处理以及查询分析来进行架构设计和实现,设计上应用使用springcloud微服务架构,采用kafka、drools、flink、Redis、ES等关键技术满足分布式、系统云化的要求,保证高可用、高并发,数据快速增长的7*24小时运行。
1、监控协同运维场景 系统对重大故障/事件,通过智能识别对重大故障/事件进行发布,将信息自动通知到维护人员,同时,系统进行倒计时,对于超时故障/事件进行自动升级/发布,故障修复后,系统自动发布修复信息,实现全流程的线上自动化发布、记录的闭环管理。 2、跨专业故障定位场景 监控人员监控到大面积基站退服,系统按照业务逻辑自动匹配RCA规则库,调用处理规则进行根故障识别,通过判断定位到影响基站退服的传输故障设备。