四年一遇:Windows Azure崩潰原因初步探明
譯文在四年才會碰到一次的2月29日,Windows Azure經(jīng)歷了一次不小的災難,Azure平臺的架構與開發(fā)服務出現(xiàn)了較嚴重的斷線情況,尤其是服務管理組件,在當天凌晨發(fā)生了全世界范圍內的大面積無法訪問。
經(jīng)過緊急搶修,Azure Service Dashboard在當天下午3點半發(fā)布報告說Windows Azure的服務管理系統(tǒng)服務已經(jīng)基本恢復正常,包括Access Control 2.0、Azure Reporting和Azure Marketplace等一些其他受到影響的組件。
緊接著,微軟在官方博客上發(fā)布了對這次斷線情況的調查結果。
“在某些地區(qū),Windows Azure監(jiān)測到一些異常現(xiàn)象而導致計算服務功能停機,”微軟服務器與云計算副總裁Bill Laing在官方博客中寫到,“問題觸發(fā)的很快,最終我們把它確認為軟件的bug。雖然最終的根源原因還在進一步調查中,但看上去和閏年的時間計算失誤有關。”
“問題出現(xiàn)之后,我們立即采取了相應措施,首先是要確保用戶已經(jīng)上線的服務正常運行,然后開始修復工作,”他在博客中繼續(xù)寫到,“絕大多數(shù)的用戶服務在下午2點57分就已經(jīng)完全恢復。”
Bill Laing在博客中保證微軟將會繼續(xù)對導致此次斷線的技術問題進行進一步的解釋,此外對這次斷線給用戶造成的不便致以誠摯的抱歉。
顯然微軟的道歉不足以停止Azure用戶在官方論壇上繼續(xù)發(fā)泄自己的抱怨,即使是在Azure服務已經(jīng)恢復之后。“我們至少丟掉了兩位正在測試我們系統(tǒng)的潛在客戶,”一位用戶抱怨說,“我們還算是一家小公司,那些大企業(yè)的損失顯然更多。我們選擇Windows Azure就是看好它的數(shù)據(jù)冗余技術,可現(xiàn)在該怎么向客戶解釋呢?”