面向CT全网设备运行、网络业务性能以及业务质量与用户感知, 7*24小时全网故障的实时主动发现、故障根因智能定位、故障自动处理、故障处理协同运维,贯穿网络故障运维的全流程处理环节,从面向设备的监控,到面向业务的监控,再到面向客户的监控,使得监控运维过程真正做到因客户而动,因业务而动。
在日常维护工作中各个专业相对隔离、网管众多,对运维的支撑工作没有形成合力,不能满足全业务运营支撑保障。综合监控项目立足于各专业、中心的网管之上对各类数据进行标准化,面向全网进行集中监控。
综合监控工作直接面向全网设备的运行状况、网络性能以及业务质量与用户感知,系统7*24小时在线运行,为运维人员提供支撑手段,全面提升集中化管理效率。
围绕如何进行海量告警数据的实时处理以及查询分析来进行架构设计和实现,设计上应用使用springcloud微服务架构,采用kafka、drools、flink、Redis、ES等关键技术满足分布式、系统云化的要求,保证高可用、高并发,数据快速增长的7*24小时运行。
1、监控协同运维场景
系统对重大故障/事件,通过智能识别对重大故障/事件进行发布,将信息自动通知到维护人员,同时,系统进行倒计时,对于超时故障/事件进行自动升级/发布,故障修复后,系统自动发布修复信息,实现全流程的线上自动化发布、记录的闭环管理。
2、跨专业故障定位场景
监控人员监控到大面积基站退服,系统按照业务逻辑自动匹配RCA规则库,调用处理规则进行根故障识别,通过判断定位到影响基站退服的传输故障设备。
新疆电信建设了云资源池,对外提供云网业务,针对云网业务我们提供云专线IPRAN、云专线PON、云专线IPSEC、智能网专线业务的云网一体化端到端运维监控管理。
基于运营商的网络基础优势,发挥云网融合网络服务能力,提供差异化服务。以业务视角为云网业务提供端到端监控能力,实现客户感知评估/预测、故障定位的闭环处理,提升运维质量。为云网业务市场人员提供业务分析报告,提升云网业务经济效益。
设计上应用使用springcloud微服务架构,采用kafka、drools、flink 、Redis关键技术满足分布式、系统云化的要求,保证高可用、高并发,数据快速增长的7*24小时运行。
1、客户业务隐患提前处理场景
云网运维人员发现业务质量劣化时,通过业务质量溯源分析,明确业务质量劣化因素,主动进行业务劣化问题处理,针对可自动修复的劣化因素,系统会自动通过专业网管进行修复。
2、客户申诉快速排障场景
云网运维人员接到客户投诉工单后,使用系统的一键诊断功能,对用户专线进行一键诊断,从云侧VPC至客户侧接入设备,逐步定段、逐项排查,快速明确客户业务故障点。
3、客户专线中断自动定位自动处理场景
系统周期监控客户业务网络运行情况,当检测到客户业务中断时,立刻进行故障定界定位,并派发故障工单,自动进行故障处理。