神州泰岳

产品介绍

Ultra-AIOps智能运维平台是由神州泰岳软件公司自主研发的智能运维产品,建立AIOps基础能力平台,包括智能预测、图像识别、异常分析等计算能力,为各类智能化分析场景应用提供基石;本产品操作简单,满足一线运维人员自助式使用需要。AIOps智能运维平台以运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深度分析,协助支撑传统企业进行数字化转型,使运维变得更智能更简单。

优势特点

产品功能

经典案例

神州泰岳

开放式的AI能力输出

各项AI能力均提供完善的标准化能力开放接口,支持通过Restful API调用AI能力进行上层应用场景封装。

场景化支撑

神州泰岳智能运维解决方案已在效能提升、质量保障、成本优化三个智能运维方向进行落地,共涵盖7个维度、30余个智能运维场景。 1) 效能提升 智能问答:智能在线客服、智能运维机器人、智能营销机器人、智能外呼机器人、智能地税机器人 智能决策:工单自动分类、工单热点挖掘、智能工单分拣、票据识别、图像比对、图像自动分类、虚拟机智能扩缩容、智能投诉分析、智能知识库、警务数据智能核查、智能刑侦研判等。 容量预测:资源池容量预测 2) 质量保障 异常检测:主机异常检测、数据库异常检测、中间件异常检测、网络异常检测、日志异常检测等。 故障诊断:告警根因分析、告警收敛、告警影响分析等。 故障自愈:故障智能处置、智能重启等。 3) 成本优化 资源优化:计算资源优化、存储资源优化

多数据源接入

提供多种数据源接入方式,支持API、FTP、ES等多种接入手段,数据接入过程便捷高效。

常见算法封装

1) 通过AI算法库对各项AI能力涉及的AI算法进行统一管理,对AI算法的属性进行统一维护。 2) AI算法库中内置多种机器学习算法与深度学习算法,开箱即用; 3) 可根据实际项目需求基于算法进行业务逻辑封装、算法参数调优。

AI算法调试流程化编排

采用拖拽式、流程化编排的数据分析建模方式,整个任务的执行过程以流程节点编排的方式进行;便于用户理解和操作平台-算法实践平台的任务建模使用过程

可视化AI建模

遵循界面化配置的建设思路,以交互式的图形界面配置方式实现任务建模、算法调优等过程,有效降低运维人员在模型训练和算法调优过程中的技术门槛。 1) 提供界面化、引导式的AI建模方式,模型训练过程与预测结果实时可见。并支持进行模型评估,通过反复训练提升模型准确度。 2) 可通过训练数据标注、结果标注两种方式进行数据标注,保证样本数据质量。

AI建模

1) 模型训练 2) 模型管理 3) AI算法库

推理配置

对各类推理服务的基础配置进行管理。 异常检测对象管理:主机类、数据库类、中间件类、网络类异常检测对象管理。

数据管理

数据接入配置:对模型训练数据的接入方式进行集中管理。

异常检测结果

主机类、数据库类、中间件类、网络类异常检测结果展示。 1) 主机类异常检测结果 2) 数据库类异常检测结果 3) 中间件类异常检测结果 4) 网络类异常检测结果

图像识别

通过OCR技术对图像文件进行智能化分析、识别处理,协助用户完成票据识别、图像相似度比较、图像分类等工作。

工单热点挖掘

1) 系统实时监控热点问题并预警,让支撑人员及时聚焦并处理热点问题,管理层及时聚焦关注热点问题。 2) 对历史问题工单进行聚焦、分析,聚类出用户关心的问题,辅助决策。

工单自动分类

1) 系统通过“智能识别”自动识别并选择工单分类,减少发错流程的概率。 2) 系统自动进行问题分类、打标签,减少问题分析定位时间和问题类型定位错位概率,提升服务响应能力,提升支撑人员工作效率。

智能机器人客服

秉承灵活、开放、高效的产品设计原则,提供与客户现有平台体系无缝对接的解决方案,打造最会听、最会做、最会学的智能机器人客服。

指标异常检测

1) 指标异常检测主要由三部分组成:在线异常检测、离线分类及模型训练、离线标注及效果评估。 2) 异常指标检测实践效果 a) 某服务器网卡流量(byte)超出预测值上限,产生异常检测告警 b) 某服务器网卡流量(byte)指标在正常情况下的波动范围

经典案例

某运营商省分全网智慧运维平台

合作背景

2020年3月某运营商集团IT公司下发了《关于下发2020年全网智慧运维(AIOps)场景落地指导意见及试点工作要求的通知》,要求各省公司参与全网智慧运维场景建设。某省分作为非集中化省份,需要参与“省端场景落地”和“两级联动试点”两项专题。

  

客户价值

某省分公司参与全网智慧运维场景建设,涉及3大类、6个能力维度共计13个运维场景的建设。充分利用现有平台、结合实际运维现状进行AIOps场景建设,为智慧运维场景的实际落地与应用提供切实有效的保障。

技术方案

1) 利用指标的历史性能数据进行AI模型训练,生成异常检测模型。并应用异常检测模型对指标性能值进行实时的异常检测。具体场景包括主机异常检测、数据库异常检测、中间件异常检测、网络异常检测。 2) 通过智能化分析手段,寻找历史告警中的频繁项集,深入挖掘告警之间的关联关系,自动分析告警之间的传导关系,从而生成告警根因规则。借助告警根因规则,在大量告警中快速定位根源告警。 3) 通过引入人工智能算法技术,提高知识的搜索效率、通过对知识的深度挖掘分析,将知识进行分类处理和整合,形成有效的知识沉淀,同时通过相似度算法等实现知识与问题相互匹配并推送。 4) 用户可以通过智能客服机器人咨询问题,机器人可以针对用户问题比对知识库中的相似问题与知识,向用户推荐相似知识,帮助用户自助解决问题。