AWS Auto Scaling组失控“暴走”:客户努力惨重成本

2021-03-09 20:50 jianzhan

AWS Auto Scaling组失控“暴走”:客户努力惨重成本


AWS Auto Scaling组失控“暴走”:客户努力惨重成本 管理方法员能够特定1个亚马逊Web服务(AWS)Auto Scaling组应用延展性负载平衡(ELB)身心健康查验,这将保证该服务在服务器上是运作的–而不只是服务器自身是运作的。这能够迅速和全自动拆换任何个人行为不一切正常的服务器,杀掉那些坏的服务器并用好的整洁的服务器替代它们。

AWS Auto Scaling组是1个出色的作用,该全自动化系统软件负责管理方法宕机并为客户全自动拓展服务。1个Auto Scaling组联接到延展性负载平衡,则会让保证运用一直起动并处在运作中这件事情得非常容易。

管理方法员能够特定1个亚马逊Web服务(AWS)Auto Scaling组应用延展性负载平衡(ELB)身心健康查验,这将保证该服务在服务器上是运作的 而不只是服务器自身是运作的。这能够迅速和全自动拆换任何个人行为不一切正常的服务器,杀掉那些坏的服务器并用好的整洁的服务器替代它们。

应用ELB身心健康查验,而不仅是延展性测算云(EC2)身心健康查验是很关键的。我碰到过这样的难题,服务器仍在运作,但服务器上的服务早已死掉而且没法再次起动。该ELB会从服务器断掉,由于它已已不服务恳求,但AWS Auto Scaling组并沒有更换它,由于服务器仍在运作。最后,全部服务器都有了一样的难题,该服务终止工作中。随后,我收到了1个来自Pingdom的警示,通告我说Web服务不工作中。AWS Auto Scaling组1直觉得全部的服务器都一切正常,沒有检验出具体的Web服务早已身亡而且没法重新启动。

最好是对每个生产制造服务应用Scaling组,即便她们其实不必须真实的全自动拓展。我的绝大多数AWS Auto Scaling组只是简易的叙述为, 维持X数量的服务器1直运作。 这代表着,假如出現1个难题随后在其中1台服务器宕掉,该服务器会被杀掉并全自动更换。这其实不代表着我必须依据负载全自动提升服务器的数量。但那使得全自动化1些简易的DevOps每日任务如再次起动1台服务器变得更非常容易。

究竟甚么地区错误了?

有关AWS EC2标价的1个必须小小的探讨的客观事实是,客户依照每台服务器运作随意一部分小时来付款花费。这代表着,假如1个客户起动服务器,随后在5分钟内杀死它,他依然要为这详细的1小时买单。这好像是可接纳的,可是假如1个客户杀掉1个服务器随后应用彻底同样种类和部位的1个新的服务器来更换它,这个行为会让花费翻倍。

最初,我起动了1个服务器,被扣除1台服务器的花费,5分钟后杀掉该服务器,随后换为另外一台。但我被扣除了2倍服务器运作的花费,直至第1台服务器被起动(图1)以后做到1小时。当你将那种计费方式和AWS Auto Scaling组持续杀死和再次起动服务器的不正确融合起来,成本费就会持续上涨。

Auto Scaling在5分钟后杀死1个案例并起动另外一个。

在我的这个实例中,Auto Scaling组的配备有1个难题,1个服务器持续被杀死并在有难题的同1地区内被再次起动。这代表着,每5分钟,1个新的服务器起动,旧的被替代,从而造成每小时12个案例小时的花费 就算在任什么时候间始终都仅有1个案例在运作。而且该案例乃至都沒有一切正常工作中。

我1刚开始沒有留意到,直至收到以后的帐单目录,由于这个缘故出現了1笔附加的1200美金的开支。这时候,我联络了AWS的适用人员。当我发现这个难题的情况下我十分消沉,但亚马逊修补了它并给了我因为坏掉的Auto Scaling组致使的附加的个人信用度。 AWS还对于该难题开展了检验,并给了我Auto Scaling组失控的2个月的个人信用度。

如今回想起来,我本应当设定Auto Scaling组的通告,我本应当认证Auto Scaling的个人行为不能能每15分钟超出1次。有了这些更改,数最多只将会出現4倍的一切正常收费。这依然是不尽人意的,但却沒有12倍那末不尽人意。我本应当认证全部地域的服务器都一切正常起动了。

怎样避免Auto Scaling常见故障?

最先,定阅Auto Scaling组通告 即便它只是应用1个电子器件电子邮件详细地址,由于应用寻呼将会有点极端化。管理方法员还应当当心该组忽然 暴走 。假如的确产生了1些甚么情况而且AWS Auto Scaling组不断的起动和取代服务器,管理方法员则能够禁用1个能用地区或阻拦该组实行任何实际操作。把 理智 時间提升到15分钟或许是个非常好的主张,防止止相近的不正确产生到彻底失控。

最终,保证ELB在服务器起动以后给予了充足富裕的時间来决策是不是最后会一切正常起动。假如该服务一般必须5分钟才可以起动取得成功,那末给它15分钟。假如开发设计人员查验到他最少有2台服务器跑在ELB后边,在新的服务器正在起动时,运作的服务器务必可以解决负载。

出示附加的工作能力一直1个非常好的主张,由于客户将会必须在修补难题的情况下停掉1些服务器。请记牢,AWS Elastic Beanstalk內部应用的是Auto Scaling组,因而还可以定阅对她们的通告,假如她们被设定好的话。


2019-07⑵9 20:08:41 云资讯 云对决:AWS增幅放缓至37%,谷歌云年收入经营率提升80亿美元 AWS第2季度37%的收入同比提高降至自刚开始独立汇报销售业绩以来的最低点,但依然是零售和高新科技大佬亚马逊盈利的绝大多数驱动力来源于。