神州泰岳

方案介绍

神州泰岳智慧运维解决方案以运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深度分析,形成AI能力平台,为上层异常检测、故障诊断、自动化智能建单/派单、自动化故障自愈,智能运维协同/客服/外呼/营销机器人,以及基于增强现实技术的远程巡检/诊断,等多维度智慧运维场景提供AI能力支撑。

客户价值

整个任务的执行过程以流程节点编排的方式进行,便于用户理解和操作平台-算法实践平台的任务建模使用过程;智能运维解决方案已在效能提升、质量保障、成本优化三个智能运维方向实现多场景落地,共涵盖7个维度、30余个智能运维场景。

查看更多

优势分析

经典案例

多维异常检测管理

提供以图形和统计数据的方式展示主机类、数据库类、中间件类、网络类异常检测结果。并支持对异常检测告警信息按内容进行模糊查询,同时能够针对具体异常检测告警查看关联的监控告警信息。

模型训练数据管理

对数据接入配置,后续的数据处理、数据标注等进行统一管理。

推理配置管理

模型推理是对各类模型学习成果的验证,并提供推理服务的基础配置进行管理。

AI算法模型管理

模型训练:提供对已有的数据,基于机器学习、深度学习算法进行数据训练,并生成可用的模型。包括对模型训练任务的新建、删除、查询、展示功能。 模型管理:模型训练任务生成的模型会录入到模型库进行统一管理。具体包含模型列表、模型的评估、发布,模型的查询、删除管理。其中根据模型所关联的算法生成对应的评估指标,以确认模型准确度。根据模型评估结果,确定是否为可用模型;并进行模型发布,开放对应的API供其他系统调用。 AI算法库:对各项AI能力涉及的AI算法进行统一管理。提供异常检测场景用到的算法介绍和使用说明;具体功能包括算法列表展示、添加、修改、删除、查看。

开放式的AI能力输出

各项AI能力均提供完善的标准化能力开放接口,支持通过Restful API调用AI能力进行上层应用场景封装。

场景化支撑

神州泰岳智能运维解决方案已在效能提升、质量保障、成本优化三个智能运维方向进行落地,共涵盖7个维度、30余个智能运维场景。

多数据源接入

提供多种数据源接入方式,支持API、FTP、ES等多种接入手段,数据接入过程便捷高效。

常见算法封装

通过AI算法库对各项AI能力涉及的AI算法进行统一管理,对AI算法的属性进行统一维护。AI算法库中内置多种机器学习算法与深度学习算法,开箱即用;可根据实际项目需求基于算法进行业务逻辑封装、算法参数调优。

AI算法调试流程化编排

采用拖拽式、流程化编排的数据分析建模方式,整个任务的执行过程以流程节点编排的方式进行;便于用户理解和操作平台-算法实践平台的任务建模使用过程

可视化AI建模

经典案例

某运营商省分全网智慧运维场景建设

合作背景

2020年3月某运营商集团IT公司下发了《关于下发2020年全网智慧运维(AIOps)场景落地指导意见及试点工作要求的通知》,要求各省公司参与全网智慧运维场景建设。某省分作为非集中化省份,需要参与“省端场景落地”和“两级联动试点”两项专题。 基于此背景,某省分公司希望神州泰岳结合客户运维现状,协助完成不同维度智慧运维场景的建设。

客户价值

神州泰岳与客户进行充分沟通和现状调整,结合客户数据累积情况和运维能力,与客户梳理出多个智慧运维场景落地,上线运行后为客户在以下三个方面提供价值: 1. 提高资源异常检测及预警率 面向客户主机类、数据库类、应用类、网络类等IT资源建立负载健康度模型,通过预测算法判断负载健康度的变化趋势,同时引入无人干预的异常检测算法降低人为阈值经验干扰,从而实现各类资源异常的提前发现与提前预警处理。 2. 智能提升资产使用率 通过自动化与智能化数据分析手段,智能分析处于低效运行状态的IT资源,并主动向客户IT资产管理人员发送提醒,给出合理配置建议协助其改善资产低效状态,提升数据中心资源整体使用率。 3. 提高智能化运维能力 基于人工智能技术的故障根因分析对告警信息进行实时采集、转换和集中监控,并对关键信息进行分析处理,对告警信息进行过滤、筛选、匹配、分类等预处理,并通过算法进行告警溯源,建立根源告警和衍生告警之间的关系,从而过滤掉冗余告警,实现对故障的快速诊断,提高智能运维能力。

  

技术方案

结合客户数据累积情况和运维能力,与客户梳理出多个智慧运维场景落地,涉及3大类、6个能力维度共计13个运维场景的建设。充分利用现有平台、结合实际运维现状进行AIOps场景建设,为某省分智慧运维场景的实际落地与应用提供切实有效的保障。

应用场景

1. 利用指标的历史性能数据进行AI模型训练,生成异常检测模型。并应用异常检测模型对指标性能值进行实时的异常检测。具体场景包括主机异常检测、数据库异常检测、中间件异常检测、网络异常检测。 2. 通过智能化分析手段,寻找历史告警中的频繁项集,深入挖掘告警之间的关联关系,自动分析告警之间的传导关系,从而生成告警根因规则。借助告警根因规则,在大量告警中快速定位根源告警。 3. 通过引入人工智能算法技术,提高知识的搜索效率、通过对知识的深度挖掘分析,将知识进行分类处理和整合,形成有效的知识沉淀,同时通过相似度算法等实现知识与问题相互匹配并推送。 4. 用户可以通过智能客服机器人咨询问题,机器人可以针对用户问题比对知识库中的相似问题与知识,向用户推荐相似知识,帮助用户自助解决问题。