嘉宾 | 何琦
(资料图)
出品 | CSDN云原生
2022年9月15日,在中国信通院、腾讯云、FinOps产业标准工作组联合发起的《原动力x云原生正发声 降本增效大讲堂》系列直播活动第8讲上,针对游戏平台上云到底是花钱还是省钱这一话题,三七互娱SRE负责人何琦进行了经验分享。本文整理自何琦的分享。
IDC运维的困境
当前,我们的业务通过机房A与机房B进行部署,机房A、B之间通过网络专线的方式实现网络互通,形成一张内网,且两机房均部署大量虚拟化的物理机。
在IDC运维中,由于单台物理机易产生故障,故业务的每一台虚拟机都分布在不同的物理机上,形成双机房、多机部署的高可用稳定架构。在这样的架构环境下,该如何进行扩容处理呢?
如上图所示,若红线所示的业务需扩容一台虚拟机,由于当前机房中所有服务器的虚拟机资源均被占用,故需新增一台物理设备作为宿主机,并对其做虚拟化处理。
与此同时,也带来了新增物理机剩余虚拟机资源的浪费问题。
在业务缩容时,同样存在资源浪费现象。如上图所示,当红框标注的业务下线时,由于其他业务仍占据着该物理机的其余资源,所以无法回收,仍需保留。从成本角度看,其余业务此时需承担更多的成本,总成本消耗并未得到优化,浪费现象依然存在。
在IDC环境下,若想在资源隔离的同时,提升资源利用率及稳定性,该怎么做呢?
对于大企业来说,可以提高投入,完善基础设施,为业务提供更好的设备与更稳定的资源。此外,其强大的团队能够为运维体系“量体裁衣”,资源腾挪空间也相对较大。
但这种运维方式能否直接应用在中小规模公司呢?答案是否定的。此时中小企业若想解决IDC环境下缺乏弹性资源管理的困境,只有上云。
上云之路
先规划,后上云
如上图所示,我们可以将上云想象成为一座“围墙”,围墙内是企业的内部业务,可进一步分为运维和生产两个区域,且围墙共有VPN、负载均衡以及NAT三座“大门”。
用户访问业务必须从“负载均衡”大门进入,以负载均衡的方式访问生产区域的业务服务器及对应数据库。
运维人员从“VPN”大门进入,通过堡垒机内网控制生产区域的所有机器。
生产区域的机器通过“NAT网关”大门实现对外网的访问。
这样的架构不但能够清晰内、外网边界,且“VPN”、“负载均衡”及“NAT”均在企业可管控范围内,能够做到事前有审批、事中有监控、事后可审计。生产区域做网段隔离,为不同业务分配不同网段,使业务与业务之间通过网段借用云产品的安全组实现隔离,以此形成上云的统一规范。
从IDC到云,红利显著
服务器、内存等均可按业务需求进行精确分配。
资源层面隔离使安全性更高、交付速度显著提升。
通过上云控制成本、提升效率,不同角色都能够形成安全与成本意识,提升DevOps协同。
Dev & Ops的使命和协同
通常情况下,产品和运营人员负责设计功能并对开发人员提出相应需求,开发完善后,由SRE进行部署、发现问题并处理,同时联动运维侧DBA、网络、安全等人员。
开发看重效率,运维看重稳定,这其中必然会产生矛盾,二者的协同也离不开“效率”与“稳定”两大使命。
降本增效,用数据让业务看得见成效
作为深度参与游戏平台上云的策略者,我们希望通过自身的努力整体呈现业务的稳定、安全、成本及效率。于是我们采取定期性的工作,如将成本运营的数据组织起来进行例会,查看并分析可用性数据、容量数据、安全数据及成本数据等。
如上图所示,这是一张PV趋势图,可以看到数据平稳且具有一定的周期性,无突增或突降现象,说明整体业务在过去处于平稳运行中。
平稳运行的背后离不开充足的容量支持。如上图所示,我们可以清晰看到总容量始终是实际业务峰值的5~7倍,且处在周期性的更新变化中。容量可控代表成本可控,这也为降本或增量提供了良好的决策依据,因此可以通过削减总容量的方式降低成本。
在安全层面,上层接入WAF后,若请求在经过时触碰规则,便会触发拦截。通过WAF拦截能够在提升安全性的同时,使后端资源及成本得到极大释放,实现资源利用率的提升。
上云为什么能省钱?
案例1:https证书卸载
IDC环境下,https卸载会占据极大的CPU资源。在上云后,所有的业务请求都会经过负载均衡,负载均衡在按照流量计费的同时,具有https证书卸载的功能,一次购买实现两类功能,避免了在后端CPU资源上的成本消耗。
案例2:WAF拦截黑产
上云并定义WAF及相应规则后,非正常请求在前端就可以被拦截,后端资源不会被消耗。
降本增效,拥抱云原生
当前,我们正处在IDC与云原生之间,微服务化并不能一步实现,因此我们遵循“两步走”策略来拥抱云原生。
将虚拟机更换为云虚拟机架构。
在云上部署架构的基础上向云原生转型。
最后,对于上云究竟是在花钱还是省钱这一问题,不同阶段的考量不同。IDC部署阶段,由于中小企业基础设施薄弱,需投入成本增强稳定性与安全性。云原生时期,计费模式带来的成本消耗已作为产品选择的一条标准早早被纳入考量,除此之外,架构改造与云原生的结合能够有效提升工作效率,为实现长期节约资源及成本提供了可能性。
【原动力×云原生正发声降本增效大讲堂】第一期聚焦在优秀实践方法论、资源与弹性、架构设计;第二期聚焦全场景在离线混部、K8s GPU资源效率提升、K8s资源拓扑感知调度主题;第三期邀请4家业界知名企业分享各企业云原生降本增效技术实践,为开发者带来更多样化场景业务下的技术干货。点击『此处』进入活动专题页,带你体验云原生降本增效实践案例、了解如何解决企业用云痛点、掌握降本增效关键技能……