神州泰岳实力守卫“新基建”风潮下的数据中心

2020-04-08

序言

受新冠肺炎疫情影响,春节假期之后,一场蔚为壮观的云端复工复学潮上演,在线办公、在线教育应用需求猛涨,快速增长的“云端经济”如寒冬里的一抹亮色,引人注目。疫情的爆发虽然在客观上一定程度驱动了数字经济的发展,但也检验出了数字经济相关支撑和配套方面的不足,IT基础实施作为数据中心的的根基,它的稳定性直接决定着云端业务的健康性,基础设施及其配套的集中运维管理显得格外重要。尤其在3月初,数据中心更是作为“新基建”的重要组成部分被重新提起,作为数字经济的重要基础设施之一,它拥有建设分散、位置偏远、数量庞大、无人值守等特点,传统的“救火队”式管理,已经无法满足云端在线业务的使用要求,神州泰岳无人值守解决方案为数据中心全面护航,守护云端在线业务。

护航数据中心,神州泰岳能做什么呢?让我们详细解读一下。

数据中心可视化

通过泰岳无人值守管理解决方案为数据中心提供可视化手段,让所有工作都可以远程完成。

以逼真的二维面板效果完成对机房、机柜视图设备运行状态呈现 对机柜空间U位、设备前面板状态、后面板状态等实时监控呈现 设备面板指示灯保持与机房真实面板效果一致,以红、橙、绿进行闪烁

针对每一台设备均提供设备控制台,即使远程也可以真实了解到数据中心内当前设备的运行情况,以及进行相关故障远程处理等,每个设备控制台主要分为:

基本信息区:包括设备的厂家、序列号、位置、操作系统版本、当前运行情况等基本信息,当出现故障时可快速联系维保厂家 健康监控区:包括设备的硬件运行状态监控、物理部件状态等,以及对设备的故障日志进行相应的解析等 远程维护区:当设备故障时,提供快速维护通道,包括远程KVM、远程电源开关机、远程CRT、远程系统修复等。

硬件健康状态监测 泰岳无人值守管理解决方案提供故障精准定位手段,对设备部件进行实时状态监测,降低人工巡检的误操作和误判断,实现健康诊断自动化,并支持对服务器硬件故障日志采集解析,并触发相应告警,可解析日志大类65个,事件457个。

远程维护管理 实现对数据中心IT设备的深度远程管控,让所有故障都可以远程响应和诊断处理,将系统的平均恢复时间(MTTR)从2天缩短至15分钟内。

远程接入控制,无需IT人员前往现场,借助vKVM功能,让工程师能远程进行故障诊断、操作系统安装、数据备份恢复等。 远程电源开关机,通过远程控制计算机电源实现开机、关机、重启操作系统、重新配置BIOS或出厂复位。 远程修复或重装系统,远程设置PXE,通过网络远程挂载Window或Linux操作系统ISO镜像文件,实现操作系统修复或重新安装。

部件资产收集 提供对设备的硬件、槽位等物理及部件级信息收集,满足资产台账统计要求,减少人工梳理的困难,提升部件级信息统计的准确率。物理信息包括设备本身的厂家、型号、序列号、零件编号以及各个部件信息。部件信息包括厂家、序列号、零件编号、健康状态等。

智能化分析手段 泰岳无人值守管理解决方案提供智能化分析手段,为故障的分析决策、机房建设优化提供参考依据。

(1)故障分析与决策: 提供一整套基于硬件信息的智能分析系统,基于性能负荷、功耗、散热等实时监测数据,进行统计分析和数据挖掘,设定阀值,配置各种预警预案,有效防止热点事件、电路过载等事件或系统停机事件发现并制定维修更换方案,彻底避免意外停机,保障业务连续性。系统停机风险可以降低90%以上,结合容错服务器的零秒切换,自动恢复方案,使系统可靠性达到99.999%以上,预计每年非计划停机时间小于30秒。

(2)机房空间智能分析: 根据整个机房、机柜的实时功耗情况及U位分布情况,核算出可用机房空间。待新设备接入上架时根据新设备的占用U位、功耗使用,提供合理的设备上架位置,并提供系统健康评估、功耗模型,制冷分析和功耗策略等高级功能,为各种数据中心运维管理提供有效的工具和方法。

(3)硬件厂家质量分析: 支持对众多厂家的设备硬件故障损坏率进行智能分析,供采购部作为下次设备采购依据。

神州泰岳数据中心无人值守管理解决方案能够有效的降低系统停机风险:1)故障后系统的平均恢复时间(MTTR)缩短90%以上;2)数据中心IT设备报修关闭时间小于30分钟,可大幅提升云端业务的健康性,具有显著的经济效益和社会效益。