神州泰岳智慧运维解决方案以运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深度分析,形成AI能力平台,为上层异常检测、故障诊断、自动化智能建单/派单、自动化故障自愈,智能运维协同/客服/外呼/营销机器人,以及基于增强现实技术的远程巡检/诊断,等多维度智慧运维场景提供AI能力支撑。
2020年3月某运营商集团IT公司下发了《关于下发2020年全网智慧运维(AIOps)场景落地指导意见及试点工作要求的通知》,要求各省公司参与全网智慧运维场景建设。某省分作为非集中化省份,需要参与“省端场景落地”和“两级联动试点”两项专题。 基于此背景,某省分公司希望神州泰岳结合客户运维现状,协助完成不同维度智慧运维场景的建设。
神州泰岳与客户进行充分沟通和现状调整,结合客户数据累积情况和运维能力,与客户梳理出多个智慧运维场景落地,上线运行后为客户在以下三个方面提供价值: 1. 提高资源异常检测及预警率 面向客户主机类、数据库类、应用类、网络类等IT资源建立负载健康度模型,通过预测算法判断负载健康度的变化趋势,同时引入无人干预的异常检测算法降低人为阈值经验干扰,从而实现各类资源异常的提前发现与提前预警处理。 2. 智能提升资产使用率 通过自动化与智能化数据分析手段,智能分析处于低效运行状态的IT资源,并主动向客户IT资产管理人员发送提醒,给出合理配置建议协助其改善资产低效状态,提升数据中心资源整体使用率。 3. 提高智能化运维能力 基于人工智能技术的故障根因分析对告警信息进行实时采集、转换和集中监控,并对关键信息进行分析处理,对告警信息进行过滤、筛选、匹配、分类等预处理,并通过算法进行告警溯源,建立根源告警和衍生告警之间的关系,从而过滤掉冗余告警,实现对故障的快速诊断,提高智能运维能力。
结合客户数据累积情况和运维能力,与客户梳理出多个智慧运维场景落地,涉及3大类、6个能力维度共计13个运维场景的建设。充分利用现有平台、结合实际运维现状进行AIOps场景建设,为某省分智慧运维场景的实际落地与应用提供切实有效的保障。
1. 利用指标的历史性能数据进行AI模型训练,生成异常检测模型。并应用异常检测模型对指标性能值进行实时的异常检测。具体场景包括主机异常检测、数据库异常检测、中间件异常检测、网络异常检测。 2. 通过智能化分析手段,寻找历史告警中的频繁项集,深入挖掘告警之间的关联关系,自动分析告警之间的传导关系,从而生成告警根因规则。借助告警根因规则,在大量告警中快速定位根源告警。 3. 通过引入人工智能算法技术,提高知识的搜索效率、通过对知识的深度挖掘分析,将知识进行分类处理和整合,形成有效的知识沉淀,同时通过相似度算法等实现知识与问题相互匹配并推送。 4. 用户可以通过智能客服机器人咨询问题,机器人可以针对用户问题比对知识库中的相似问题与知识,向用户推荐相似知识,帮助用户自助解决问题。