神州泰岳:在云端,我们如何为壳木游戏这家公司带来价值

2019-08-01

7月29日,在“2019AWS合作伙伴峰会”APN咨询合作伙伴分论坛上,神州泰岳云业务事业部技术总监莫喆分享了《神州泰岳为壳木游戏提供架构优化》的实践案例。

壳木游戏是一家国际化的移动游戏公司,从成立以来一直专注于游戏出海业务。虽然名气不大,但壳木游戏的业绩在中国游戏出海的厂商中一直位于前列,壳木游戏开发运营的《War and Order》(战火与秩序),已经连续30个月流水超过千万美元。壳木游戏旗下所有的游戏都部署在在AWS云平台之上,在AWS平台上,壳木游戏部署了超过1000台的游戏服务器和数据库。

以下为演讲的主要内容

在运维领域,壳木游戏面临的挑战包括三点。人员方面,壳木游戏没有专职的运维人员,运维工作由后台开发人员兼任,没有时间和精力研究AWS、网络、安全的专业技术;安全方面,壳木游戏的部署架构较为简单,很多维护端口只有简单的IP鉴权,缺乏有效的运维审计手段;维护方面,壳木的所有游戏都要求7*24运行,维护窗口很少,同时缺乏对应用整体性能进行持续自动化监控的手段。

在接触到壳木游戏的运维团队后,神州泰岳首先参照AWS LandingZone的理念帮助壳木游戏搭建了一个定制化的多账号运营环境。在这个多账号的运营环境中,通过AWS的OU服务,在总的维护账号下,为每一个游戏建立了单独的账号,这样的设计可以帮助壳木游戏进行成本核算,同时,统一维护账号又为游戏运营维护带来了便利。

经过网络改造后,壳木游戏的生产环境和维护环境实现了分离。所有的维护操作都是通过堡垒机先连接到维护VPC,再通过AWS的内部网络连接到生产环境。维护VPC部署在东京,这样的设计不仅实现了运维和生产的隔离,还巧妙的解决了时延的问题。从壳木游戏北京办公室到AWS东京区域的时延很小,从东京区域到美西俄勒冈区域使用AWS内网的线路网时延也很小,通过这样的跳转,运维人员访问服务器的速度提高了2倍。另外,为了保障安全,在这个网络架构中,还搭建了VPN服务。

除了网络改造外,我们还帮助壳木游戏搭建了一个单独的运维平台。运维平台是泰岳比较熟悉的领域和业务,针对壳木我们不仅仅提供了传统的堡垒机、数据审计、基础架构监控、应用监控等,针对AWS云环境我们对原有的产品进行了改造,并针对AWS以及壳木的特点进行了二次开发,实现了AWS云平台以及壳木自研的发布、构建、资源管理工具的紧密集成。

我们把所有的运维操作,基础设置监控数据、应用监控数据、甚至包括游戏运营的日志都收集到了一起,并且放在了S3上。在这个基础之上,我们搭建了统一的数据展现平台,完全按照壳木要求定制了数据展现界面。

以上所有工作,网络改造、二次开发、实施部署一共花费了三个月的时间,这期间我们完全没有影响壳木的正常运行。也就是说,在壳木的游戏业务不间断、游戏频繁更新和发布的状态下,我们完成了整个项目的建设工作。

项目结束之后,我们还参考了AWS的最佳实践,和壳木游戏一起进行了成本优化和持续改进。成本优化和持续改进的主要内容包括EBS自动调整、服务自动启停、自动扩展等等。例如,根据游戏业务的特点,我们帮客户游戏实现了游戏服务器的自动类型切换。当游戏服务器的玩家活跃度较低,服务器负载较低的时候,运维平台会自动的将服务器调整为T系列,当游戏服务器的玩家活跃度提高,服务器负载升高时,运维平台会自动将服务器调整为C系列。

通过上述的工作,神州泰岳为壳木带来了两方面价值。一方面,帮助壳木游戏搭建了一个小而美的维护平台,针对性地解决了壳木的运维问题,既减轻了运维工作负担,又提升了系统整体的安全性;另一方面,更为实际的是,通过架构优化,壳木每个月在AWS上的支出减少了3万美元左右。

神州泰岳在类似的云上优化运维服务领域有三个方面的优势。首先,神州泰岳是国内领先的ICT供应商,在系统监控、安全保障、支持服务、优化改进等方面有丰富的产品和经验积累,这是云上客户亟需的服务。其次,神州泰岳具有强大的专业服务能力,公司先后通过了包括ISO27001、ISO20000、CMMI L5、DEVOPS L3、AWS MSP在内的一系列认证,有一支高素质且具有丰富经验的技术团队。另外,在公有云领域,神州泰岳专注于AWS云业务,目前公司云业务部技术团队的所有技术人员均拥有AWS中级以上的资格认证。