ALL IN AI,看神州泰岳AIOps如何赋能赋智企业运维

2018-07-10

近日,神州泰岳IT运营事业部总经理王晓君在DOIS DevOps国际峰会暨DevOps金融峰会上发表了题为《全栈智能化运维手段,赋能传统运维转型》的演讲,阐述了在云计算、大数据、人工智能的新技术风潮中,传统企业运维如何结合前沿技术和实际运维场景,实现传统运维华丽转身的。演讲干货多多,引发思考无数。

AIOps是一种全新的运维管理思路,它整合了大数据和人工智能或机器学习功能,用于增强和部分替代大范围的IT运维流程和任务。2017年,国际知名咨询机构Gartner首次将AIOps概念从基于大数据及算法,扩充为基于人工智能。在王晓君看来:“AIOps更多是说怎么能够把先进的工具跟我们现在的运维场景有效地结合起来。”

神州泰岳IT运营事业部总经理王晓君

王晓君介绍说:“AIOps不是一步到位、一蹴而就的,很多工具和手段需要积累。”在配置管理、监控手段、自动化运维手段、运维大数据沉淀、运维管理理念和技术等多个层面都需要长期的、持之以恒的基础建设,神州泰岳的全栈式智能化运维能力就是在深耕运维管理行业的十余年中点滴积累下来的。今天,神州泰岳的AIOps整合了监控采集、配置管理、流程引擎、自动化作业调度、大数据实时流式处理能力、智慧语义分析、融合通信七大核心组件,形成了自身独特的面向全生产场景的全栈智能化运维管理解决方案,在传统运维的道路上发挥着引领性作用,构建企业信息化的核心竞争力,助力大型企业运营转型。

基于神州泰岳的整体AIOps业务布局,王晓君分享了三个典型场景,详细阐述了前沿技术是如何与运维结合,从而带来了运维场景的全面创新。

场景一:智能运维协同

智能运维协同的目标是运维智能化。神州泰岳的做法是把监控采集、自动化作业调度、大数据与机器学习、融合通信等技术整合,打造基于移动互联网思维、智能化、扁平化的智能运维体验。

※ 运维协同的界面就是一个聊天界面,有手机端也有PC端,并实现多端信息同步。发生告警时,由机器人自动向运维人员发出告警信息,替代传统的短信告警、语音告警或桌面告警等模式;运维人员可基于聊天会话点击告警事件,查看告警详情,以及便捷地进行告警确认和派单等操作。针对这条告警,机器人会从其知识库里调出处理预案,指导运维人员操作。

※ 机器人客服将不厌其烦地回答运维过程中遇到的问题,为你找到80%以上问题的处理方法,免去阅读操作手册的繁冗。同时,机器人能不断积累日常运维经验,自动化调度操作脚本,自动执行某些操作指令。

※ 可勾选各类聊天工具中的部分聊天信息,直接创建问题工单,并选择性推送到特定的问题解决群协商解决,机器人也会自动搜索知识库,推送解决方案。

场景二:工单智能分类和精准派单

智慧语义分析技术可实现多层次理解能力,并识别褒贬、态度等倾向性,识别篇章的语境并自动化提取摘要。

大型企业客户,其运营支撑团队庞大,且为全国性组织,运维工单数量巨大,运用智慧语义技术,可对工单进行非结构化解析,并智能分类和精准派单。当工单类型庞大时,人工分拣是非常困难的,带有AI语义分析功能的系统势必带来分类速度、分类准确性的大幅提升。

场景三:网络故障定位分析

网络故障定位“三板斧”,解决当下故障定位难、严重依靠人工的痛点,使网络流量异常检测成为可能。

※ 基于生成式对抗网络(GAN),采用非监督学习方式,依据网络设备之间上下行的历史流量数据,进行网络流量异常检测,极大提高自学习效率和异常检测的准确性;

※ 基于图计算技术,挖掘网络设备实体之间的潜在不易观察的行为和联系,对故障根源进行定位;

※ 根据故障类型,自动弹出运维工具箱,系统推荐相关调度作业,执行后可进一步进行故障排查及故障处置。

上述三个场景都是神州泰岳基于多年的运维服务经验,结合AI、云计算、大数据等前沿技术,拓展形成的运维管理新模式、新场景。随着新技术的更多引入,新技术与业务场景的不断融合,传统的运维管理领域也将迸发出新的生命力。王晓君坚定地相信:“在未来,运维管理领域中AIOps是必然走向,我们会坚定向这个方向走。”