自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里云故障,又是運(yùn)維的鍋?

運(yùn)維 系統(tǒng)運(yùn)維
昨天,技術(shù)圈又出一次重大技術(shù)故障。這一故障,直接導(dǎo)致了國內(nèi)半個(gè)互聯(lián)網(wǎng)癱瘓。

 昨天,技術(shù)圈又出一次重大技術(shù)故障。這一故障,直接導(dǎo)致了國內(nèi)半個(gè)互聯(lián)網(wǎng)癱瘓。

[[234574]]

6 月 27 日,據(jù)網(wǎng)友反映,阿里云官網(wǎng)出現(xiàn)大規(guī)模訪問異常,圖片服務(wù)等產(chǎn)品無法正常使用,官網(wǎng)賬號(hào)也無法登陸。

這次故障于北京時(shí)間 2018 年 6 月 27 日,16:21 左右開始,16:50 分開始陸續(xù)恢復(fù)。官方給出的故障時(shí)間大概持續(xù) 30 分鐘,陸續(xù)恢復(fù)時(shí)間有一個(gè)小時(shí)多。

阿里云掛了,技術(shù)圈沸騰了,以下是各路網(wǎng)友的吐槽:

最怕就是在上線交差的時(shí)候出現(xiàn)了 Bug。

隨后,阿里云正式發(fā)布通告稱,于北京時(shí)間 2018 年 6 月 27 日 16:21 分左右,阿里云官網(wǎng)的部分管控功能,及 NAS、OSS 等產(chǎn)品的部分功能出現(xiàn)訪問異常。阿里工程師正在緊急處理中。

在 6 月 27 日凌晨時(shí)分,阿里云給了官方說明,故障起因是上線一個(gè)自動(dòng)化運(yùn)維新功能時(shí),執(zhí)行了一項(xiàng)變更驗(yàn)證操作,觸發(fā)了一個(gè)未知代碼 Bug,錯(cuò)誤代碼禁用了部分內(nèi)部 IP,導(dǎo)致部分產(chǎn)品訪問鏈路不通。

阿里云稱,“對(duì)于這次故障,沒有借口,我們不能也不該出現(xiàn)這樣的失誤!我們將認(rèn)真復(fù)盤改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程,敬畏每一行代碼,敬畏每一份托付。 ”

阿里云近年故障歷史:

  • 云盾升級(jí)觸及 Bug 造成服務(wù)器大量文件被誤隔離。正是因?yàn)檫@一低級(jí)錯(cuò)誤,影響了大范圍的用戶,造成了用 top 進(jìn)程、top 命令、apt-get 相繼被滅。
  • 阿里云北京機(jī)房內(nèi)網(wǎng)故障引發(fā)大面積服務(wù)異常。
  • 阿里云香港服務(wù)癱瘓 12 小時(shí)主要是因?yàn)闄C(jī)房建設(shè)方和運(yùn)營商電力故障,阿里云直到電力故障發(fā)生近 12 個(gè)小時(shí)后才得以進(jìn)入機(jī)房搶修。

昨日美國媒體報(bào)道,據(jù)美國市場研究機(jī)構(gòu) Synergy Research Group 的數(shù)據(jù),今年***季度,阿里巴巴超越 IBM 成為全球第四大云基礎(chǔ)設(shè)施及相關(guān)服務(wù)的提供商,落后于亞馬遜、微軟和谷歌。

阿里云故障,僅是運(yùn)維操作失誤?

對(duì)于昨日阿里云出現(xiàn)大范圍故障,今天凌晨,阿里云官方微博公布了故障的原因,直接原因是由于"運(yùn)維操作失誤",改進(jìn)措施是"復(fù)盤改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程"。

能坦誠的公布問題,而不是用系統(tǒng)抖動(dòng)或者光纖挖斷之類的詞來敷衍大家,這一點(diǎn)值得肯定。

除了公告提到的增強(qiáng)發(fā)布流程驗(yàn)證之外,重新審視系統(tǒng)整體的隔離保護(hù)體系我覺得也值得一做。故障的時(shí)間偏長,暴露了對(duì)突發(fā)問題處理手段及預(yù)案的匱乏。

一個(gè)不斷演進(jìn)的系統(tǒng),出現(xiàn)問題不可避免,反復(fù)的強(qiáng)調(diào)或者追求不出問題未必是***的方向,讓團(tuán)隊(duì)具備快速解決問題的能力通常來說更加可行。

出了問題后,只要有相應(yīng)的手段來隔斷問題的范圍(類似大樓里面的防火門),減少對(duì)非故障模塊的干擾,通常不會(huì)對(duì)用戶整體造成干擾。

從昨天的情況來看,要么就沒有防火門的設(shè)計(jì),要么系統(tǒng)有類似的機(jī)制,但是處理人員不能熟練地啟用。

如果是前者,則需要重新審視整體架構(gòu),如果是后者,那就是團(tuán)隊(duì)內(nèi)部需要反思的問題。

寫在***

每一次的故障確實(shí)不應(yīng)該發(fā)生,但有時(shí)又難以避免。對(duì)此,不少網(wǎng)友表示,理解身為同行的程序員們,解決問題比解決人更重要。

但是也有不少人認(rèn)為:

  • 出了故障可以原諒,那客戶的損失該如何算?
  • 如果是沒按規(guī)范操作導(dǎo)致的事故肯定是要處罰的,否則這次事故的復(fù)盤就是無價(jià)的經(jīng)驗(yàn)啊。
  • 技術(shù)人員肯定得背故障啊,但是這事應(yīng)該要升級(jí),不是說一個(gè)技術(shù)人或者開除就算了的。

注:部分素材來源于高可用架構(gòu),其他素材是互聯(lián)網(wǎng)綜合整理。

責(zé)任編輯:武曉燕 來源: 高可用架構(gòu)
相關(guān)推薦

2023-06-06 11:47:36

運(yùn)維物力人力

2018-05-08 09:49:15

數(shù)據(jù)庫運(yùn)維優(yōu)化

2018-05-02 14:30:33

數(shù)據(jù)庫運(yùn)維優(yōu)化故障

2013-09-13 16:15:29

柯旻運(yùn)維云計(jì)算運(yùn)維

2018-06-28 09:12:37

阿里云故障運(yùn)維

2018-11-02 15:05:19

IT運(yùn)維故障操作

2013-08-04 21:44:48

運(yùn)維故障故障排查云計(jì)算

2015-11-03 16:03:09

AppDeploy運(yùn)維工具

2018-10-19 16:35:20

運(yùn)維

2012-12-11 22:41:20

淘寶部署雙11

2019-08-27 08:55:05

2018-04-24 09:46:12

阿里交易運(yùn)維

2015-06-23 14:24:03

2017-09-25 10:52:27

2015-11-04 13:14:49

AppDeploy運(yùn)維工具

2022-12-16 09:35:00

運(yùn)維開發(fā)

2019-12-26 10:10:41

運(yùn)維架構(gòu)技術(shù)

2019-09-16 17:08:12

運(yùn)維AIOpsIT運(yùn)營

2018-06-13 09:56:14

運(yùn)維智能無人化

2020-06-30 09:35:25

智能運(yùn)維云架構(gòu)IT運(yùn)營
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)