English

产品介绍

神州泰岳全栈智能监控中心以配置资源管理为核心,以全面自动化为理念,以AI智能运维为支撑,面向IT、CT、IoT领域提供专业的全栈管控适配能力,从IaaS层、PaaS层、SaaS层实现全方位、全场景、跨专业、跨平台、标准化、自动化、数字化、智能化的监控管理,打造贯穿应用系统全生命周期的运维管理解决方案。

优势特点

产品功能

适用场景

经典案例

全栈统一采集

提供面向全专业的统一采集能力,覆盖IT、CT及IoT领域内各类资源对象的性能与配置采集。

开箱即用支撑能力

预设了默认监控指标,预置了运维经验库,开箱即采集,无需用户干预,包括常见故障的处理方案。 产品在设计时就充分考了用户使用的全过程自助化,使用户能够根据自身需要快速有效的进行各类运维管控类操作。 1) 监控采集自助化 全栈智能监控提供了监控采集脚本自助扩展功能,用户可以基于Python、Shell、Perl和PowerShell等开发语言定制自己的监控采集脚本。 2) 监控策略配置自助化 全栈智能监控将监控策略配置过程完全开放给每一个功能用户,用户可以自主地对监控策略进行配置。各用户的监控策略彼此隔离、互不影响。 3) 监控分析自助化 全栈智能监控提供自助化的数据分析工具,可以通过配置、SQL编程等方式进行多维度数据分析与挖掘。 4) 视图呈现自助化 提供管理视图用户自助配置能力,帮助用户基于管理视图进行管理信息高效消费与管理工具的高效使用。

贯穿始终自动化理念

全栈智能监控平台通过融合自动化运维能力,实现产品安装自动化、监控接入自动化、策略生成自动化、故障诊断与处理的自动化。 1) 产品安装自动化 所有组件均支持自动化安装部署,用户通过图形化界面操作即可完成自动化部署过程。 2) 监控接入自动化 支持自动检测待监控资源、自动检查部署条件、自动安装监控代理、自动化下发预设监控模板。 3) 策略生成自动化 支持根据性能指标的历史波动情况,自动判断指标类型,自动生成监控指标的阈值参数。 4) 故障诊断自动化 当告警发生时,支持通过命令通道调用指定的脚本,以实现故障诊断或故障自愈等场景。

智能运维场景支撑

全栈智能监控平台结合AI能力,构建指标异常检测、告警关联分析、故障预测等上层智能运维场景。

自助式用户体验

秉承监控能力外放的理念,充分考虑用户使用的全过程自助化,将各类监控操作开放给客户自助使用。

开放式运维能力输出

全栈智能监控提供了完善的标准化能力开放接口,支持通过Restful API调用系统功能,实现告警对接、数据上传、性能查询等一系列操作。

智能化运维场景

产品内置了智能化运维场景,主要包括指标异常检测、故障预测、故障自愈、告警关联分析。

资源性能管理

支持各类资源的性能管理,同时满足对CPU、内存、磁盘、进程、端口等监控要求 。可以对资源的详情信息进行查看,包括:资源基础配置信息、性能分析、实时告警、关联资源信息等。

多维视图展示

平台支持各类视图展示,如:云视图、告警视图、资源视图,性能视图,还支持客户量身定制所需的个性化视图。视图呈现构建业务场景的深度应用,打造从数据到决策的最短路径,为决策及指挥、生产系统提供高效的数据可视化能力。

告警管理

以可视化列表的形式,实时展示活动告警信息。对新产生的告警支持通过短信、邮件、微信等多渠道发出提醒。同时,支持对历史告警进行多维度的复合查询。

策略管理

平台内置了各种资源模型对应的监控策略,用户可以基于内置策略自定义个性化监控策略。可进行监控暂停、策略配置变更等批量操作。

指标管理

针对各种资源类型提供默认的指标模型,用户可根据实际需要添加自定义指标; 提供对监控采集脚本的集中管理功能,支持用户自定义Python/Shell/SQL采集脚本,关联对应的监控指标。

资源纳管

资源纳管功能是将被监控对象形成统一的资源纳入及管理,系统通过引导式的界面设计,协助用户完成资源录入、监控策略配置、资源发现等一系列操作。资源纳管对象包括IaaS类资源、PaaS类资源、SaaS类资源等全栈资源。

重点场景保障

针对重要节点日期以及重点场景提供重点保障举措。

决策支撑

平台支持对质量保障和成本优化两个方向的决策支撑能力,提供:故障订阅、计算资源优化、数据中心容量优化,助力运维管理,提高故障解决率,提升资源使用效率。

故障自愈

通过监控平台对不同对象中的指标告警,自动关联自动化平台中动作流程,实现各自故障自愈,包括:主机平台故障自愈、数据库故障自愈、应用故障自愈等。

告警关联分析

告警关联分析,通过告警与资源、资源与资源之间的关联、分层的结构创建资源告警关联模型,通过基于拓扑结构的告警信息展示,便于运维人员进行故障精准定位,边界界定、故障影响分析等。

故障预测

故障预测应用场景,是通过对被采集对象的性能数据、事件收集,借助AI算法模型,以视图的形式展示未来一段时间内,数据的变化走向,对超出数值门限范围的,触发告警,生成告警提示。

指标异常检测

通过异常检测能力的建设,针对时序性的指标提供智能化的异常识别手段,快速有效的发现关键指标的异常情况,有效地支撑系统和服务的稳定运行,保障业务的可用性、连续性。

经典案例

电信运营商公众云统一监控平台

合作背景

为支撑业务快速稳定发展,需实现硬件设施到业务应用的端到端监控能力。

客户价值

1、实现基础设施硬件至应用的全栈监控覆盖,护航业务稳定高效。

2、提供了可纳管百万级别以上监控对象的平滑扩展能力,促进IT运维降本增效。

3、具备1分钟的指标采集粒度能力,确保故障感知及时性,提升业务连续性。

  

技术方案

在实现拓扑管理、资源管理、性能管理、告警管理功能的基础上,根据各省个性化要求,对各省业务平台综合网管做功能的定制化开发。

应用场景

大型网络的设备资源管理与性能监控。