神州泰岳

产品介绍

神州泰岳全栈智能监控产品Ultra-FullStackMonitoring以配置资源管理为核心,以全面自动化为理念,以AI智能运维为支撑,面向IT、CT、IoT领域提供专业的全栈管控适配能力,从IaaS层、PaaS层、SaaS层实现全方位、全场景、跨专业、跨平台、标准化、自动化、数字化、智能化的监控管理,打造贯穿应用系统全生命周期的运维管理解决方案。

优势特点

产品功能

适用场景

经典案例

神州泰岳

乐高式高性能架构设计

神州泰岳Ultra-FullStackMonitoring产品与其他神州泰岳运营管理类产品一样,采用了分布式组件与AI框架作为底层技术平台,在服务中台采用了微服务架构。因此其在技术架构层面具备高内聚、低耦合的设计特点,具备海量的监控资源纳管能力及动态负载弹性扩缩能力。 神州泰岳Ultra-FullStackMonitoring产品既可以与神州泰岳其它相关产品(如Ultra-AutoOpsCenter、Ultra-DCGuardians、Ultra-PerfInsights等)以一站式运维中台的模式提供服务,也可以以独立产品的形式交付给客户,甚至能够以独立服务形式与第三方厂商应用进行基于统一服务管控形式的功能对接与能力融合。

智能运维场景全面支撑

神州泰岳Ultra-FullStackMonitoring产品中内嵌了AI框架,引入机器学习与深度学习算法,充分挖掘历史运维数据潜在数据价值,并在上层构建了一系列智能运维场景,协助用户达成“质量保证” 与“效能提升”的双向提升。 目前已支持智慧运维场景包括但不限于: 1) 指标异常检测 2) 故障诊断与故障自愈 3) 告警智能收敛 4) 故障影响分析 5) 多维根因分析

贯穿始终的自动化理念

神州泰岳Ultra-FullStackMonitoring产品借助自动化手段能够帮助用户在如下场景中提升运维效率、降低运维成本。 1) 产品安装自动化 所有组件均支持自动化安装部署,用户通过图形化界面操作即可完成自动化部署过程。 2) 监控接入自动化 支持自动检测待监控资源、自动检查部署条件、自动安装监控代理、自动化下发预设监控模板。 3) 策略生成自动化 支持根据性能指标的历史波动情况,自动判断指标类型,自动生成监控指标的阈值参数。 4) 故障诊断自动化 当告警发生时,支持通过命令通道调用指定的脚本,以实现故障诊断或故障自愈等场景。

自助式的集中操作入口

神州泰岳Ultra-FullStackMonitoring产品定位于日常运维操作的统一入口,为各类运维角色提供集中场景化支撑。 产品在设计时就充分考了用户使用的全过程自助化,使用户能够根据自身需要快速有效的进行各类运维管控类操作。 1) 监控采集自助化 全栈智能监控提供了监控采集脚本自助扩展功能,用户可以基于Python、Shell、Perl和PowerShell等开发语言定制自己的监控采集脚本。 2) 监控策略配置自助化 全栈智能监控将监控策略配置过程完全开放给每一个功能用户,用户可以自主地对监控策略进行配置。各用户的监控策略彼此隔离、互不影响。 3) 监控分析自助化 全栈智能监控提供自助化的数据分析工具,可以通过配置、SQL编程等方式进行多维度数据分析与挖掘。 4) 视图呈现自助化 提供管理视图用户自助配置能力,帮助用户基于管理视图进行管理信息高效消费与管理工具的高效使用。

与CMDB体系深度融合

神州泰岳Ultra-FullStackMonitoring产品内嵌配置管理数据库(CMDB)相关组件,所消费的资源数据全部来自于统一的配置管理数据库,被管理资源状态也会及时更新至配置管理数据库。 这一核心设计理念使得CMDB成为真正意义上的ICT运营管控核心,不再需要通过多个资源数据库联邦与同步的信息实现资源数据的管理。

面向全栈统一监控覆盖

神州泰岳Ultra-FullStackMonitoring产品提供了面向全专业的统一采集能力,覆盖IT、 CT及IoT领域内各类资源对象的性能与配置采集,将其纳入统一的KPI指标体系进行管理控。支持范围包括: 1) IT对象采集 服务器、存储、网络、操作系统、数据库、中间件、大数据环境、云环境、容器环境等IT基础架构资源与业务应用。 2) CT对象采集 各类BRAS\AC\SR\CR等接入网、核心网及承载网设备。。 3) IoT对象采集 各类智慧园区、智慧警务、智慧交通中的IoT设备及泛感知设备。

全栈监控覆盖

1) 带外监控 2) 基础监控 3) 云环境监控 4) 大数据环境监控 5) 容器与容器云监控 6) 应用性能监控 7) 日志深度监控

智慧运维支撑

产品中内嵌了AI框架,通过AI框架训练神经网络模型和算法,充分挖掘运维数据中的潜在数据规律与价值,从而实现以往依靠人为经验无法落地的一系列智慧运维场景。 1) 指标异常检测 2) 故障诊断与故障自愈 3) 告警智能收敛 4) 故障影响分析 5) 多维根因分析

基础监控管理

产品提供了面向基础运维操作的可视化管理交互能力,包括资源管理、告警管理、拓扑管理及策略管理。 1) 资源管理 2) 告警管理 3) 拓扑管理 4) 策略管理

监控可视化呈现

产品提供了丰富的监控可视化手段,具体可分为:运维工作台、深度监控分析视图、自定义仪表盘及运维分析报表。 1) 运维工作台 2) 深度监控分析视图 3) 自定义仪表盘 4) 运维分析报表

资源生命周期管理

1) 面临挑战。 a) 企业内部推行运维场景自研,希望由己方研发团队掌握需求与源码,但重新构建一套完整的运维产品体系过于复杂,无法落地 b) 部分运维能力已在企业内部由其他厂商或自建完毕,出于避免重复投资角度希望与全栈监控解决方案进行融合 2) 面向能力开放模式下的解决方案。 a) 泰岳全栈监控解决方案支持将自身标准运维能力以API的形式对外开放,企业用户可以基于开放式的API进行场景自研开发,泰岳在此过程中将协助用户进行接口调试 b) 泰岳全栈监控解决方案在企业内部落地后,利用开放式的API与其它运维中心或第三方系统进行能力融合。泰岳在此过程中将协助用户进行上层场景设计、服务编排与API调试

新业务模式下全栈监控解决方案

1) 面临挑战 a) 运营商CT设备IT化,采用网络虚拟化及网络编排的方式承载原有网络传输与交换功能,业务复杂度急剧增加。 b) 5G时代下的IoT与边缘计算,边缘节点数据中心数量多且分散,IoT设备类型复杂且数量众多,如何实现统一运维管理 2) 面向新业务模式下的解决方案 a) 面向BO融合后的新型管理中心,提供同时覆盖IT与CT数据中心的集中式运维管理方案。 b) 面向智慧城市、智慧安防、智慧园区等领域,提供贯穿IoT资源全生命周期的运维支撑能力,支持与各类专业系统对接实现数据同步,在上层基于客户需求定制构建统一运维管理系统。

业务支撑中心全栈监控解决方案

1) 面临挑战 a) 关注从系统到业务的全监控,亟需深度故障发现手段。 b) 云化架构导致被管系统愈加复杂,故障定位难度呈指数增加。 c) 面临市场竞争压力业务需要快速上线,如何保证快速迭代下的业务能够得到高效监控保障。 2) 面向业务支撑中心解决文字案 a) 提供从基础设施到业务的端到端监控覆盖能力。 b) 提供面向云化架构各类技术栈的全栈监控能力。 c) 提供应用性能分析与日志智能分析手段,协助用户快速定位应用及业务故障原因。 d) 支持敏态运维模式,提供贯穿需求管理、开发管理、发布管理、运维管理的DevOps一体化解决方案,协助用户打通运维开发壁垒,加速需求价值流动速度。

中大型数据中心全栈监控方案

1) 面临挑战 a) 海量的存量设备且数量规划持续增加,给运维带来巨大压力。 b) 分散式的数据中心机房,异地运维严重消耗时间成本与人力成本。 c) 数据中心内部通常已有多套小型运维系统,运维数据分散且界面操作不便。 2) 面向中大型数据中心解决方案 a) 提供海量监控纳管能力,支持纳管1000万资源实例以上的规模。 b) 面向基础设施实现跨数据中心的集中硬件监控与远程带外操作管理 c) 针对云及IDC中心提供深度分析服务,如IDC网络流量分析、云资源池容量优化分析、云资源计费支撑等场景 d) 提供多端系统对接能力,支持对各类小型运维系统的数据和操作API进行管控,构建上层统一运维管理场景

经典案例

某公有云监控平台

合作背景

某公有云平台作为业内前十的公有云,共有17个资源池节点,分布在全国若干省份,拥有2万余台物理机、20万余台的虚拟机。 神州泰岳协助客户构建了覆盖全国各资源池节点的统一监控管理系统,以一套集中式系统纳管了各个资源池全量被管设备。

  

客户价值

1) 提供了覆盖基础设施硬件至业务应用的全栈监控能力,保证监控覆盖无死角 2) 提供了海量资源监控纳管能力,且随着资源池持续扩展,该系统无需进行系统架构及调整即可在未来纳管百万级别以上的监控对象 3) 在海量监控纳管的背景下,还为所有监控指标提供1分钟频率的监控粒度,保证了故障发生的第一时间即可感知故障 4) 所有监控资源均统一存储在CMDB中,实现了监控资源与云资源的集中分析 5) 借助一系列自动化运维能力,客户显著释放了运维人力,以10人左右的管理团队即可对海量监控资源进行运维管理

技术方案

某公有云的统一监控平台基于神州泰岳Ultra-FullStackMonitoring产品构建,具备极强的监控纳管能力。自系统上线后持续支撑公有云业务的快速发展,提供了从硬件设施到业务应用的全方位端到端运维管理。该系统采用了两级架构设计,一级节点承载监控管理、资源管理、自动化运维等一系列核心功能。,二级节点为采集层与执行层,避免了各资源池建立烟囱式运维系统。两个一级节点采用异地灾备模式,保证一级节点高可用性。 除了对2万余台物理机、20万左右的虚拟机进行统一监控纳管之外,该系统还提供了故障自动诊断、CMDB资源统一管理、运维可视化分析、面向不同角色的统一运维门户、监控大屏及运维掌上APP等功能,协助用户全面提升运维过程中的标准化、自动化、智能化水平。