2023年中國互聯(lián)網(wǎng)故障總結(jié)之十大故障
一、故障回顧
2023年過去了,2023年是一個(gè)非常艱難的一年,各大互聯(lián)網(wǎng)故障不斷,裁員不斷;跟大家分享一下2023年的各個(gè)公司的故障回顧。
圖片
1 3月29日 唯品會(huì)
故障描述:2023-03-29 00:14~12:01 唯品會(huì)329機(jī)房宕機(jī)12小時(shí)P0級故障,業(yè)績損失超億元,影響客戶800多萬
故障原因:南沙機(jī)房重大故障的主要原因是南沙 IDC 冷凍系統(tǒng)故障導(dǎo)致機(jī)房設(shè)備溫度快速升高宕機(jī),造成線上商城停止服務(wù)。
故障影響:持續(xù) 12 個(gè)小時(shí),由于崩潰時(shí)間太長,影響了很多消費(fèi)者無法正常下單,導(dǎo)致公司業(yè)績損失超億元,影響客戶達(dá) 800 多萬,公司將此次故障判定為 P0 級故障。與此同時(shí),唯品會(huì)認(rèn)為此次事故暴露出容災(zāi)應(yīng)急預(yù)案和風(fēng)險(xiǎn)防范措施不到位,并決定對此次事件嚴(yán)肅處理。對基礎(chǔ)平臺(tái)部負(fù)責(zé)人做了免職處理。
圖片
2 3月29日 騰訊廣州機(jī)房故障14+小時(shí)
故障描述:00:23~15:00 騰訊廣州機(jī)房故障14+小時(shí) 因制冷系統(tǒng)故障,容災(zāi)處置中。
故障原因:本次事故由廣州電信機(jī)房冷卻系統(tǒng)故障導(dǎo)致,騰訊將其定義為公司一級事故。為此,騰訊對相關(guān)部門和領(lǐng)導(dǎo)進(jìn)行了嚴(yán)肅的問責(zé)和處罰,其中包含公司高級執(zhí)行副總裁、TEG(技術(shù)工程事業(yè)群)總裁盧山(LS)和 WXG(微信事業(yè)群)副總裁周顥(harveyzhou)在內(nèi)的管理者承擔(dān)領(lǐng)導(dǎo)責(zé)任,被予以通報(bào)批評。盧山目前為騰訊總辦(騰訊總經(jīng)理辦公室,為公司最高決策機(jī)構(gòu))成員。此外,TEG 華南數(shù)據(jù)中心的兩位總經(jīng)理和總監(jiān)被處以降級和免職處罰,WXG 技術(shù)架構(gòu)部的兩位總監(jiān)和組長當(dāng)期績效考核給予 Underperform 等評級(二星級別,最高為五星)。騰訊管理層認(rèn)為,這次故障暴露了公司在容災(zāi)設(shè)計(jì)和應(yīng)急預(yù)案方面存在的不足,有關(guān)業(yè)務(wù)部門的風(fēng)險(xiǎn)防范意識不到位。
制冷系統(tǒng)包括了凍水系統(tǒng)和蓄冷系統(tǒng);利用蓄冷+電力的差價(jià)進(jìn)行削峰填谷;但是因?yàn)榭刂剖д`導(dǎo)致了故障。
3 6月8日 廣東電信故障
圖片
6月8日晚間,廣東省通信管理局緊急召集廣東電信、廣東移動(dòng)、廣東聯(lián)通廣東廣電、廣東鐵塔相關(guān)負(fù)責(zé)人就廣東電信突發(fā)網(wǎng)絡(luò)故障及應(yīng)急處理情況召開網(wǎng)絡(luò)運(yùn)行安全緊急調(diào)度會(huì)。廣東省通信管理局黨組書記、局長蔡立志要求廣東電信深入查明原因,做好后續(xù)處置,加強(qiáng)網(wǎng)絡(luò)運(yùn)行保障。
廣東電信網(wǎng)絡(luò)罕見地出現(xiàn)了5小時(shí)的大面積斷網(wǎng)事件,引發(fā)社會(huì)各界的關(guān)注。此次故障的原因目前尚未得到官方的解釋,但是從獨(dú)立電信分析師付亮的看法來看,應(yīng)該是廣東電信核心網(wǎng)某個(gè)關(guān)鍵模塊出現(xiàn)了故障。此次事件對億萬用戶的生產(chǎn)和生活都帶來了嚴(yán)重影響,同時(shí)也必須引起政府和電信企業(yè)等相關(guān)方面的重視。為此,應(yīng)加強(qiáng)電信網(wǎng)絡(luò)的基礎(chǔ)設(shè)施建設(shè)和安全防護(hù),確保人們的網(wǎng)絡(luò)使用暢通無阻,避免重大電信網(wǎng)絡(luò)故障的再次發(fā)生。
4 7月6日 boss直聘故障
7月6日上午,BOSS直聘APP出現(xiàn)短時(shí)間服務(wù)異常,經(jīng)過團(tuán)隊(duì)搶修已恢復(fù)正常。期間為用戶帶來的不便我們深表歉意。我們將持續(xù)優(yōu)化服務(wù)保障。感謝大家一直以來的關(guān)注與支持。
圖片
5 7月26日 小紅書iOS版APP大規(guī)模閃退
圖片
7月27日凌晨,社交應(yīng)用小紅書的iOS版本出現(xiàn)大規(guī)模閃退問題,用戶反映卸載重裝也無法解決。對此,小紅書客服在微博上回應(yīng)稱,這是由于技術(shù)故障引起的。他們建議用戶遇到無法啟動(dòng)的情況時(shí),可以前往App Store下載最新版本(版本號7.97.2)。部分網(wǎng)友表示,更新后應(yīng)用可以正常使用。
故障原因:客戶端重大缺陷 + 處置不合理引發(fā)新的崩潰:線上存在部分業(yè)務(wù)Crash,只能卸載重裝或升級App版本解決。
6 10月23日 語雀故障
語雀在故障公告中稱,10月23日下午,服務(wù)語雀的數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)在進(jìn)行升級操作時(shí),由于新的運(yùn)維升級工具bug,導(dǎo)致華東地區(qū)生產(chǎn)環(huán)境存儲(chǔ)服務(wù)器被誤下線。受其影響,語雀數(shù)據(jù)服務(wù)發(fā)生嚴(yán)重故障,造成大面積的服務(wù)中斷。為了盡快恢復(fù)服務(wù),語雀和數(shù)據(jù)存儲(chǔ)運(yùn)維團(tuán)隊(duì)全力進(jìn)行數(shù)據(jù)恢復(fù)工作,但受限于恢復(fù)方案、數(shù)據(jù)量級等因素,整體用時(shí)較長。
針對所有受到上述故障影響的用戶,語雀作出了賠償方案:對個(gè)人用戶贈(zèng)送6個(gè)月的會(huì)員服務(wù);對空間用戶會(huì)單獨(dú)制定賠償方案。
除此之外,語雀還披露了改進(jìn)措施。具體為:升級硬件版本和機(jī)型,實(shí)現(xiàn)離線后的快速上線。該措施在本次故障修復(fù)中已完成;運(yùn)維團(tuán)隊(duì)加強(qiáng)運(yùn)維工具的質(zhì)量保障與測試,杜絕此類運(yùn)維護(hù)bug再次發(fā)生;縮小運(yùn)維動(dòng)作灰度范圍,增加灰度時(shí)間,提前發(fā)現(xiàn)bug;從架構(gòu)和高可用層面改進(jìn)服務(wù),為語雀增加存儲(chǔ)系統(tǒng)的異地災(zāi)備。
圖片
7 11月12日 阿里云故障
2023 年 11 月 12 日 17:39 起,阿里云云產(chǎn)品控制臺(tái)訪問及管控 API 調(diào)用出現(xiàn)異常、部分云產(chǎn)品服務(wù)訪問異常,工程師排查故障原因與訪問密鑰服務(wù) (AK) 異常有關(guān)。工程師修訂白名單版本后,采取分批重啟 AK 服務(wù)的措施,于 18:35 開始陸續(xù)恢復(fù),19:20 絕大部分 Region 產(chǎn)品控制臺(tái)和管控 API 恢復(fù)。
圖片
https://help.aliyun.com/noticelist/articleid/1064981333.html
原因:訪問密鑰服務(wù) (AK)在讀取白名單數(shù)據(jù)時(shí)出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導(dǎo)致不在此白名單中的有效請求失敗,影響云產(chǎn)品控制臺(tái)及管控 API 服務(wù)出現(xiàn)異常,同時(shí)部分依賴 AK 服務(wù)的產(chǎn)品因不完整的白名單出現(xiàn)部分服務(wù)運(yùn)行異常。
改進(jìn)措施:
1、增加 AK 服務(wù)白名單生成結(jié)果的校驗(yàn)及告警攔截能力。
2、增加 AK 服務(wù)白名單更新的灰度驗(yàn)證邏輯,提前發(fā)現(xiàn)異常。
3、增加 AK 服務(wù)白名單的快速恢復(fù)能力。
4、加強(qiáng)云產(chǎn)品側(cè)的聯(lián)動(dòng)恢復(fù)能力。
8 11月27日 滴滴故障
事件回顧:11月27日晚,滴滴出行對當(dāng)天晚間滴滴App服務(wù)出現(xiàn)異常進(jìn)行了回復(fù),滴滴出行稱,由于系統(tǒng)故障,今天晚間滴滴App服務(wù)出現(xiàn)異常,經(jīng)技術(shù)緊急修復(fù),目前正陸續(xù)恢復(fù)中。截至27日晚23時(shí)28分,經(jīng)多人測試,該狀況尚未恢復(fù)。
故障原因:更新的 kubernetes master 組件版本與預(yù)期的版本不一致,導(dǎo)致一個(gè)大集群中的容器全部宕機(jī),兩個(gè)版本分別為 v1.12 和 v1.20。滴滴彈性云內(nèi)部的 kubernetes 版本升級在兩個(gè)月以前就已經(jīng)在所有機(jī)房升級完成,整個(gè)升級過程中0故障且業(yè)務(wù)無感知。kubernetes v1.20版本已經(jīng)在滴滴彈性云中穩(wěn)定運(yùn)行了幾個(gè)月。因此此次故障猜測是由于誤操作導(dǎo)致 kubernetes master 組件由 v1.20 回退至 v1.12 導(dǎo)致。
圖片
9 12月3日 騰訊視頻故障
12月3日,大量騰訊用戶在社交平臺(tái)反映,購買的騰訊視頻會(huì)員出現(xiàn)問題,本來可以看的VIP視頻,提示需要開通會(huì)員
目前騰訊視頻出現(xiàn)了短暫技術(shù)問題,我們正在加緊修復(fù),各項(xiàng)功能在逐步恢復(fù)中。感謝您的耐心等待,由此給您帶來的不便我們深感歉意。
圖片
有網(wǎng)友反饋:卸載重裝也不管用,重啟也不管用。
圖片
故障原因分析
騰訊這次故障從反饋來看,影響最大的應(yīng)該是vip用戶看不了會(huì)員視頻,因?yàn)楹芏嘤脩糸_始重裝APP,但還是不行;應(yīng)該可以判斷是服務(wù)端的問題。
另外vip用戶很多服務(wù)都看不了,端上識別不出來是vip用戶,從這次故障來看應(yīng)該是會(huì)員賬號體系出現(xiàn)了。
10 12月19日 喜馬拉雅故障
圖片
12月19日,“喜馬拉雅崩了”登上微博熱搜,有網(wǎng)友反映喜馬拉雅App出現(xiàn)崩潰狀況,無法正常使用或聆聽節(jié)目。
隨后,喜馬拉雅官博發(fā)文致歉,稱問題目前已緊急修復(fù),不會(huì)影響用戶的會(huì)員等權(quán)益,同時(shí)將抽獎(jiǎng)送出5張喜馬VIP月卡作為補(bǔ)償。
二 原因分類
- 客戶端故障:小紅書
- 業(yè)務(wù)服務(wù)故障:騰訊視頻、語雀
- 基礎(chǔ)服務(wù):阿里云
- 基礎(chǔ)平臺(tái):滴滴
- 基礎(chǔ)設(shè)施:騰訊、唯品會(huì)
圖片
- 越是底層的故障,影響越大
- 越是影響大的故障,往往越簡單
三 2023年關(guān)鍵字
開猿節(jié)流:滴滴的故障
2023年是一個(gè)比較艱難的一年,大部分公司其實(shí)還在裁員
增長、成本、穩(wěn)定性其實(shí)一直就是一個(gè)公司不斷的發(fā)展階段面臨的問題;在整體經(jīng)濟(jì)無法快速復(fù)蘇的時(shí)候,裁員就成了主流但裁員帶來的問題也是必然的 裁員帶來的后果就是熟悉系統(tǒng)的人走了,留下來的對系統(tǒng)的各種預(yù)案不熟悉;故障的頻率大大增加
滴滴的故障可以看出來,熟悉的人都走了,留下來的對各種預(yù)案不熟悉,所以增加了故障的時(shí)間和影響面。
降本增效:騰訊&&唯品會(huì)
熟悉的人都走了,寫ppt的人留下了;現(xiàn)在是一個(gè)非常卷的時(shí)代,因?yàn)樵鲩L點(diǎn)沒有了,很多人就開始瘋狂內(nèi)卷,卷什么呢?卷ppt。越是重大故障其實(shí)越簡單,越簡單的事情越難晉升。越是花哨的東西越?jīng)]用,越?jīng)]用的東西越好晉升,就陷入到這個(gè)無限死循環(huán)中。
其實(shí)在騰訊和唯品會(huì)的故障中,出發(fā)點(diǎn)是好的都是為了降低成本所以采用了。南沙這次故障其實(shí)本意出發(fā)點(diǎn)是好的。制冷系統(tǒng)包括了凍水系統(tǒng)和蓄冷系統(tǒng);利用蓄冷+電力的差價(jià)進(jìn)行削峰填谷;但是因?yàn)榭刂剖д`導(dǎo)致了故障。
四 故障經(jīng)驗(yàn)
大道至簡:越是重大的故障其實(shí)越是簡單;越是簡單的手段其實(shí)越有效。
華為云的干冰預(yù)案,華為云有好幾次來冷卻系統(tǒng)出問題的時(shí)候依然能保障機(jī)房的問題,這里有一個(gè)非常非常重要的預(yù)案就是干冰,機(jī)房儲(chǔ)備了大量的干冰來保障。方案很簡單單就是有效。
至簡難收: 簡單的事情往往有很難得到職級和薪資待遇的提升。
這里我們可以各種公司的各種ppt各種花哨。但實(shí)際上有多少效果不得而知。
是騾子是馬,拿出來溜溜;技術(shù)優(yōu)越感到頭來忽悠的只是自己。前10年百度以技術(shù)號稱,百度掉隊(duì)了現(xiàn)在阿里以技術(shù)號稱,阿里開始退縮了滴滴、小紅書、騰訊;每個(gè)公司都在盡力輸出自己的技術(shù)優(yōu)越性,無疑不命中了故障自己講多自己就信了,不要在輸出技術(shù)優(yōu)越感了,因?yàn)檩敵龅脑蕉?,迷惑的只能是自己,做?分,輸出10分,到底行不行只有試過才知。