誰動了我的車票 宕機是否是主要原因?!
春運,這一號稱人類歷史上規(guī)模最大的周期性人類大遷徙,2011年如期而至,在從1月19日開始為期40天左右的時間內,鐵道部預計客流量將達28.5億人次,快要把我國大眾運個來回了。如此浩大的客流,再加上一些其他因素,造就了一票難求的現(xiàn)狀。
無助,悲憤,相信這是每一名排隊買票同仁們都有過的感受。
春運期間本來就一票難求,若是售票系統(tǒng)還癱瘓無疑是雪上加霜。今年1月23日中午,北京鐵路的售票系統(tǒng)就癱瘓1小時。據(jù)悉此次有設備故障引發(fā)的售票系統(tǒng)癱瘓導致北京西站、北京站、北京南站的所有售票點均無法出票。多家火車票代售點,代售點均表示,昨日12點半至下午1點半,均無法出票。
“全北京所有的售票點聯(lián)網(wǎng),當然都不能出票。”一位代售點的工作人員說。為了應對這突如其來的事故,三大火車站均啟動應急售票系統(tǒng),應急售票窗口出售的為當天的車票。北京南站為京津城際列車啟用臨時車票:“用粉紅色的紙撕成的票,比普通票小一半,上面寫著字。拿票進站,上哪趟車都可以,不用管座位號。”
圖一 北京南站的手寫票
在售票系統(tǒng)癱瘓的這一個小時內,居然沒有出現(xiàn)排隊混亂,要知道每年的春運排隊都是異常擁擠,各大售票點排隊人群的壯觀程度和密集程度讓人嘆為觀止:密集的排隊大軍中排隊4、5小時是常事,蕭瑟冷風中也許你可以見著批被子的獨特風景。環(huán)顧四周,或許還可以見到持刀插隊的買票者,廈門站就出現(xiàn)了這樣的兩名男子。
圖二 春運排隊購票
除了排隊買票外,網(wǎng)上訂票也成為了一種買票方式,只是由于鐵道部還沒有推出購票系統(tǒng),目前網(wǎng)上訂票大多是代購和轉讓。聯(lián)想到奧運售票系統(tǒng),即便是鐵道部推出購票系統(tǒng)也大概也只能是擺設,如此巨大的購票人群,沒有那個系統(tǒng)能承受得起吧,網(wǎng)上購票不同于排隊買票,排隊即使再怎么人多,再怎么擁擠,售票還是能進行的。網(wǎng)上購票就不一樣了,服務器會由于負載過大而直接宕機了事。
北京奧運售票系統(tǒng)就是個活生生的例子,奧運售票系統(tǒng)開放的第一天就被熱情的搶票大軍沖跨。相比春運,奧運門票的區(qū)區(qū)700萬和28.5億比起來可謂小巫見大巫。而且網(wǎng)站服務器宕機致死原因還不止流量負載過大這一個。
前不久的1月14日,蘋果推出特惠活動,沒想到就在那天蘋果在線商店(apple store)上不去,究竟是在線人數(shù)太多被刷爆還是另有原因?沒有正式的官方解釋。蘋果在線商店宕機影響不過是蘋果的特惠活動趕不上,大不了過段時間再買,試想如果火車票售票系統(tǒng)癱瘓后果不堪設想。
相比此次蘋果事件,服務器宕機在國內外各大IT企業(yè)網(wǎng)站時有發(fā)生。服務器宕機致死一般有幾種原因,除了前面引發(fā)這次北京鐵路售票系統(tǒng)提到的設備(硬件)故障外,還有電源故障、軟件故障、流量負載過大,遭受黑客攻擊等。
#p#
致死原因一:電源故障
停電自然會引起服務器宕機,還沒有哪個服務器不用電的吧。在剛剛過去的2010年,閃電、風暴、洪水、轉換開關的失誤都是今年數(shù)據(jù)中心停電的罪魁禍首,大量的社會媒體網(wǎng)站,如Twitter、Facebook以及一些免費托管的服務器群都有嚴重的斷電現(xiàn)象。在2010年,主要電子商務商服務的服務器就出現(xiàn)了四次嚴重斷電,導致數(shù)百萬美元的交易流產(chǎn),甚至連政府服務網(wǎng)站也出現(xiàn)宕機事件。
iWeb的CL數(shù)據(jù)中心因火災迫使3000臺虛擬服務器主機轉用發(fā)電機設備進行供電,其中三臺發(fā)電機正常啟動,另外一臺因轉換開關故障而啟動失敗。一旦UPS電源被耗盡,該數(shù)據(jù)中心將有三分之一的設備宕機。大約一小時后電力恢復,但至少有450臺的服務器沒有重新啟動,需要進行人工操作,一直持續(xù)到4日的下午4點所有的服務器才開始正常運行。通過這一事件,iWeb在博客中表示,該公司每星期都會對備用電力設備進行測試,防止同類情況發(fā)生。
在此前的9月16日,網(wǎng)上銀行門戶網(wǎng)站Chase.com在遭遇了14號和15號漫長的停電而停機后重新上線,但是冗長的等待過程導致了定期支付賬單無法按時交易。該網(wǎng)上銀行門戶網(wǎng)站表示:將退客戶還在此期間產(chǎn)生的的滯納金,并對此事件進行公開道歉。
在5月初,Amazon云計算服務4次因停電而發(fā)生故障,5月4日的兩次故障的原因則分別是一個UPS單元故障和人為操作失誤;5月8日因配電屏電氣接地和短路引發(fā)的停電曾導致部分用戶失去服務長達7個小時,而且還導致極少量用戶的數(shù)據(jù)丟失。而在5月11日,停電故障則是因為一輛汽車撞倒了Amazon數(shù)據(jù)中心附近的高壓電線桿,而數(shù)據(jù)中心的配電開關又未能正常地從公用電網(wǎng)切換到內部的備用發(fā)電機(配電自動化系統(tǒng)錯誤地將停電原因理解為電氣接地)。
#p#
致死原因二:硬件故障
在去年的12月12日,亞馬遜旗下英國、法國、德國和西班牙網(wǎng)站晚間宕機超過一個半小時,有報道稱,由于亞馬遜停止向維基解密網(wǎng)站提供服務,亞馬遜歐洲購物網(wǎng)站引發(fā)黑客攻擊而出現(xiàn)訪問障礙。但是在第二天,亞馬遜女發(fā)言人馬麗·奧薩科(MaryOsako)在一份電子郵件中談及所謂的遭受拒絕服務攻擊時表示:“今天早些時候公司歐洲零售網(wǎng)站出現(xiàn)短暫的訪問中斷,是由于我們歐洲數(shù)據(jù)中心網(wǎng)絡硬件出現(xiàn)故障,并非遭受分布式拒絕服務攻擊(DDOS)。”
無獨有偶,美國最大的在線支付平臺PayPal在2010年10月29日也因硬件故障發(fā)生宕機事故。宕機發(fā)生于美國東部時間上周五上午11時,當天下午12時30分故障解決。但是,下午2時30分,故障再度發(fā)生,并持續(xù)了近一個小時?;謴秃褪湓到y(tǒng)未能立即發(fā)揮作用。故障期間,PayPal的所有用戶均無法使用該網(wǎng)站的服務。
#p#
致死原因三:軟件故障
2010年2月18日下午(美國當?shù)貢r間),美國博客服務平臺WordPress網(wǎng)站發(fā)生服務故障,此次故障持續(xù)時間達110分鐘,使約1020萬家使用WordPress服務的博客網(wǎng)站受到影響,受到影響的網(wǎng)頁瀏覽數(shù)量高達550萬個。WordPress創(chuàng)始人馬特·穆倫維格(MattMullenweg)在該公司官方博客中表示,故障原因是由于WordPress數(shù)據(jù)中心服務商對一臺主要路由器參數(shù)進行了調整。
穆倫維格當時還表示,希望下次WordPress發(fā)生大規(guī)模服務故障的時間至少也在“四年之后”。但出乎穆倫維格意料的是,僅僅不到四個月之后,WordPress再次發(fā)生大規(guī)模服務故障。在6月10日晚(美國當?shù)貢r間)發(fā)生的那次故障,導致超過1000萬家使用WordPress服務的博客受到影響,其中包括知名科技博客TechCrunch、GigaOm等網(wǎng)站一度無法正常訪問。穆倫維格表示導致此次故障的原因是:WordPress對一部分所托管博客網(wǎng)站的代碼進行了調整。
早在2000年,亞馬遜公司也曾發(fā)生過軟件故障引起的宕機事故,那年的感恩節(jié)前后的兩周,亞馬遜網(wǎng)站在不到兩周時間里出現(xiàn)第三次癱瘓,對此,亞馬遜表示出現(xiàn)故障的原因是網(wǎng)站的內部軟件有問題。亞馬遜發(fā)言人表示:“我們在同一時間運行了兩個軟件,結果證明這兩個軟件無法兼容,于是導致網(wǎng)站出現(xiàn)癱瘓,現(xiàn)在我們已對這一問題進行了確認和分析,而且已排除了故障。”
#p#
致死原因四:“鴨梨”過大 消化不了
相比其他原因,網(wǎng)站服務器宕機事故是較為常見的原因是流量負載過大而引發(fā)。就好比春運一樣,短時間內大量人員的流動導致了鐵路部門的緊張,而突發(fā)性高并發(fā)量訪問則使得系統(tǒng)服務器癱瘓宕機。
流量過大,往往在網(wǎng)游中會出現(xiàn),魔獸世界在中國的代理商由九城變更為網(wǎng)易,與九城服務器經(jīng)常宕機不無關系,但是換作網(wǎng)易后服務器也是經(jīng)常宕機。以下是2010年10月11日魔獸世界服務器故障時官網(wǎng)論壇上游戲玩家的“賀電”截圖,看著這些刷屏帖,魔獸世界的火爆程度可見一斑了:
圖三 WOW網(wǎng)友刷屏“賀電”
與游戲服務器有著類似,近來越來越流行的網(wǎng)上購物也使得大型購物網(wǎng)站面臨著此類宕機風險,此類網(wǎng)站經(jīng)常有由于突發(fā)性高并發(fā)量而宕機的案例,尤其是在感恩圣誕等購物旺季。
沃爾瑪Walmart.com幾乎每年黑色星期五期間都會被巨大的流量沖擊致死,09年沃爾瑪網(wǎng)站集中添加了基于Flash、OpenLaszlo和其他創(chuàng)新技術的互動功能試圖讓顧客便捷地瀏覽內容,然后迅速地結賬走人,試圖改變這種狀況,但是呢,黑色星期五這個網(wǎng)購高峰來臨時,情況依舊,Walmart.com被相當于去年年同期7倍的網(wǎng)絡流量沖垮了,癱瘓長達10小時
圖四 ebay網(wǎng)宕機
不僅沃爾瑪,作為美國數(shù)一數(shù)二的電子商務網(wǎng)站ebay在同時期也發(fā)生了宕機事故,09年11月22日,eBay網(wǎng)站出現(xiàn)宕機,導致賣家至少損失了當日銷售額的80%。eBay發(fā)言人表示,一名員工修改系統(tǒng)后,eBay搜索引擎當天無法使用,出現(xiàn)宕機故障。技術故障“與待售商品激增有關”。
每年感恩節(jié)和圣誕節(jié)前夕,網(wǎng)站上待售商品都會大幅增加,但是經(jīng)過兩年的經(jīng)濟低迷后,eBay低估了增加的幅度。但是那年圣誕臨近時eBay網(wǎng)站上有超過2億件待售商品,這個數(shù)字比上一年同期多出33%,正是這激增的33%的待售商品導致eBay網(wǎng)站不堪重負而宕機。
早在2007年圣誕購物旺季,雅虎電子商務系統(tǒng)就因網(wǎng)絡購物流量過大而出現(xiàn)宕機事故,雅虎發(fā)言人表示,從美國東部時間11月26日5:30(北京時間11月26日18:30)開始,支撐雅虎商家解決方案業(yè)務的基礎設施因網(wǎng)絡購物流量過大而出現(xiàn)故障。受此影響,依賴于這一解決方案的約4萬個網(wǎng)站無法正常完成訂單。
#p#
除了游戲和購物網(wǎng)站外,其他類型的網(wǎng)站呢?
視頻網(wǎng)站優(yōu)酷網(wǎng)也發(fā)去年發(fā)生宕機事件,超過3小時無法訪問。據(jù)報道稱,此次宕機事件起源于“地球一小時”活動,優(yōu)酷網(wǎng)為響應次活動,全站采用關燈模式,意在借此提醒網(wǎng)民注重環(huán)保與節(jié)約。但此舉令網(wǎng)友一時無法適應,大量網(wǎng)友頻繁刷新頁面導致優(yōu)酷網(wǎng)服務器崩潰。想法是好的,可惜事實難料,網(wǎng)友們看視頻追求的清晰,而不是節(jié)能。為了配合“地球一小時”活動而宕機超過3小時,倒不如直接停止服務一小時。
圖五 優(yōu)酷網(wǎng)宕機
Google旗下的Gmail也經(jīng)常發(fā)生宕機事件,09年9月2日,宕機長達1個半小時,流量過大導致服務器過載是此次事故的原因,Google做出了一些改進以改善服務器及路由流量,將網(wǎng)絡查詢轉發(fā)至合適的Gmail服務器,而就在數(shù)臺Gmail服務器離線進行例行升級時,服務器出現(xiàn)了流量過載。在當年的2月份、3月份和5月份,Gmail也先后出現(xiàn)宕機故障。
亞馬遜,雅虎、谷歌都發(fā)生都發(fā)生過宕機事故,那么另一巨頭微軟呢?在09年7月16日時,微軟在線商店就因流量過大而停止服務,此次流量過大是微軟Windows7操作系統(tǒng)在歐洲市場的預售表現(xiàn)火爆引起的。
微軟Hotmail服務在2010年2月17日出現(xiàn)宕機事故,持續(xù)約1個小時。在09年12月4日,微軟的另一個服務搜素引擎Bing在2.0版發(fā)布后的第二天就出現(xiàn)了訪問故障。從下面的宕機頁面大概能猜測出宕機的原因是負載過大吧。
圖六 Bing宕機
目前中國最大的微博平臺新浪微博在2010年12月1日發(fā)生宕機4小時,新浪官方解釋說:之所以掉線幾小時,是因為用戶增長超出預期,服務器倍感壓力。
此次事件中,自上午10點起,用戶無法登陸,新浪的報錯頁面幾次更改,最初的“微博正在升級,將于11:30恢復”,然后改為“12:00恢復”,過了一段時間,干脆改為“稍后恢復”,這樣總不會錯了。從下面這張網(wǎng)友惡搞圖片就能知道。
圖七 時間一改再改
然而,估計是看不到恢復希望,提示信息又改為“微博系統(tǒng)壓力過大正在搶修,我們深表歉意”。悲劇的是“歉意”竟然寫成了“謙意”,于是又有了下面這張圖:
圖八 鴨梨過大導致錯別字
#p#
致死原因五:黑客攻擊
新浪微博宕機事件中,從事件開始時就有人猜測是被競爭對手黑的,直到新浪官方解釋是由于系統(tǒng)壓力過大所致,也還有人懷疑。不過黑客攻擊致使網(wǎng)站宕機的案例也不少。
相信大家對去年年初的百度被黑事件記憶尤新吧,2010年1月12日晨有網(wǎng)友發(fā)現(xiàn)百度無法打開。下面圖片是那次事件的進展。
圖九 百度癱瘓進展
圖十 百度被黑頁面
此次是伊朗網(wǎng)軍在一個月內的第二次攻擊著名網(wǎng)站,09年12月18日,在美國當?shù)貢r間晚10點左右,知名微博網(wǎng)站Twitter遭到黑客攻擊,其首頁遭到篡改,Twitter因此而宕機數(shù)小時。
圖十一 Twitter被黑
#p#
致死原因六:通信運營商原因?
2010年年尾的新浪微博4小時宕機讓5000萬的微博用戶體驗到了微博在他們生活中是多么重要的一部分;10月份的魔獸世界國服取的大面積停服讓網(wǎng)游愛好者體會到了網(wǎng)易的作用;年初的百度大癱瘓更是讓中國網(wǎng)民感嘆百度搜索原來這么方便,而騰訊自然也不會落下,一定也會有大面積的宕機,要不然怎么讓廣大網(wǎng)民知道騰訊的或不可缺呢,怎么體現(xiàn)騰訊在中國互聯(lián)網(wǎng)的重要地位呢?
09年6月25日下午17點后,部分用戶互聯(lián)網(wǎng)訪問出現(xiàn)故障,出現(xiàn)互聯(lián)網(wǎng)擁堵現(xiàn)象,騰訊QQ服務一度中斷。據(jù)說,這一事件是由搜狗與騰訊輸入法一案引起的,2009年6月25日下午17點47分,搜狗發(fā)動了歷史以來最大黑客攻擊,到18點16分,攻擊還在持續(xù),騰訊所有的服務器全部癱瘓,所有的騰訊產(chǎn)品均無法使用。
另有說法稱事件始發(fā)于兩個游戲“私服”為爭奪玩家而相互攻擊,在無法“黑”掉競爭對手網(wǎng)站的情況下,一方干脆對服務器進行了狂轟濫炸,導致QQ大量掉線。由于國內《魔獸世界》正處于停服狀態(tài),多個“私服”人流量近日已連創(chuàng)新高。
不過在6月25日晚間,騰訊科技發(fā)布公告稱,由于電信互聯(lián)網(wǎng)骨干網(wǎng)出現(xiàn)故障,導致騰訊部分服務不能正常使用。
圖十二 騰訊通告
類似的情況在08年的平安夜(12月24日晚)也發(fā)生過,網(wǎng)友反映,除了IM軟件、支付系統(tǒng)和部分Web服務之外,騰訊的手機QQ服務以及多款網(wǎng)絡游戲也出現(xiàn)了無法連接到服務器的情況。此次事件有猜測是黑客攻擊所致,巧合的是,騰訊官方解釋也是由于運營商線路故障??磥眚v訊的運營商總是出問題。
#p#
致死原因七:未知
全球最大的社交網(wǎng)站Facebook今年1月14日上午發(fā)生的歐洲多個國家發(fā)生宕機事故。宕機事故主要發(fā)生在英國、挪威和瑞典等國,蘋果的iPhoneFacebook應用也是如此,而且問題持續(xù)5個小時以上。目前還不清楚是安全問題,還是基礎設施問題所致。而且到目前為止Facebook也沒有給出解釋,相比去年9月23日的那場宕機事故中,F(xiàn)acebook官方在當天就發(fā)出了宕機事故說明,可以理解為此次Facebook是未知原因致死。
類似的未知原因的致死事件還發(fā)生在亞馬遜。2010年6月29日(周二),亞馬遜網(wǎng)站出現(xiàn)大范圍宕機,持續(xù)時間超過3小時,在此期間用戶只能瀏覽空白和部分產(chǎn)品頁面。周二中午,亞馬遜主頁圖片無法顯示,只在屏幕左側顯示有分類列表。搜索功能無法使用,購物車和產(chǎn)品保存列表也出現(xiàn)暫時性空白。有數(shù)據(jù)表明亞馬遜年收入近270億美元,這意味著一旦網(wǎng)站宕機,亞馬遜的損失為每分鐘5.14萬美元。可見宕機事故對知名網(wǎng)站的損失有多大。
講了這么多,此次事件的原因呢?亞馬遜沒有正式的公告,甚至事件的猜測各大網(wǎng)站上都未見報道。只是大談特談宕機的損失。暫且將此次事件也歸為未知原因致死吧。
圖十三 亞馬遜宕機
#p#
總結:服務器經(jīng)常宕機?
服務器宕機,這是每個網(wǎng)站都有可能遇到的問題,但是作為服務器,穩(wěn)定性還是挺高的,即使是文中提到次數(shù)最多的亞馬遜,一年的故障時間也在10小時以內。而且有些致死事件是完全可以避免的。
服務器不比個人電腦,死機重啟沒什么影響,但像上面的亞馬遜,宕機一分鐘就損失上萬美元。因此我們要最大程度的避免宕機,對于不可控的因素,比如通信運營商的原因、未知原因,我們無能為力。但對于誤操作引起的電源故障,硬件問題,或者是某處的設置出錯,我們是可以避免的。對于黑客攻擊和鴨梨過大這兩個致死原因,考慮到經(jīng)費問題。我們只能是盡力避免吧,人家真是下功夫黑你,能怎么辦呢,金無赤足人無完人,無懈可擊的系統(tǒng)也是沒有的吧;鴨梨過大,我們可以說既喜又怕,沒有哪個網(wǎng)站不追求流量吧??墒强紤]到經(jīng)費問題,我們又不可能為幾星期甚至幾天準備而足夠的冗余,只能自求多福。
網(wǎng)絡訂票何時實現(xiàn)?
鐵道部為什么沒有推出網(wǎng)上售票系統(tǒng)呢?很大原因在于節(jié)假日客流的高并發(fā)量上,事實上,北京曾有過網(wǎng)上訂票的嘗試。
2000年,當時的北京鐵路分局“認定”的北京首鐵在線電子商務有限公司成立,開通“首鐵在線”網(wǎng)站,提供火車票查詢、預訂等多項服務。
在2005五一期間,因為網(wǎng)上購票人數(shù)過多,“首鐵在線”服務器出現(xiàn)故障,許多客戶無法網(wǎng)上訂票。當年春運高峰時,網(wǎng)站也曾癱瘓過。2008年,“首鐵在線”放棄火車票余額查詢、網(wǎng)絡訂票、電話訂票功能,只余部分信息查詢服務。多名曾在首鐵在線訂票的網(wǎng)友說,遇到春運等特殊時期,在網(wǎng)上經(jīng)常訂不到,平時緊俏線路也很難訂,還不如在窗口買靠譜。
下圖是該網(wǎng)站現(xiàn)在的公告:
圖十四 首鐵在線網(wǎng)上訂票取消
不過在去年,7月28日舉行的“中國高速鐵路成就”暨第七屆世界高速鐵路大會新聞發(fā)布會上,鐵道部運輸局綜合部主任李軍他表示,鐵道部正在積極推進網(wǎng)上訂票,不久的將來就可以在中國實現(xiàn)網(wǎng)絡訂票。
不知“不久的將來”有多快,而到時候系統(tǒng)服務器能否承受每年春運如此之大的流量壓力呢?是否會和“首鐵在線”一樣壓力過大宕機致死?只能是希望這個不久不要很久,而且訂票系統(tǒng)時候別宕機,這樣或許能緩解一下買票難的壓力。
51CTO觀點:鐵道部的網(wǎng)上售票系統(tǒng)至今還是浮云,顯而易見,這位編輯同仁對“春運”還是有很深的情結的。宕機的原因有很多種,但并不能成為不努力把此事做好的借口。雖然本文大多數(shù)是在介紹服務器軟的硬件宕機原因,但小編還是能感覺出作者醉翁之意不在酒的意境,畢竟我們都有過相似的經(jīng)歷。
在網(wǎng)絡異常發(fā)達的今天,在奪得異常牛X的超算第一后,在實力異常雄厚的鐵道部旗下,能否做出一部能為國民服務的沒有“異常”的售票系統(tǒng)?我們的要求并不算高,我們只是一只想要回家的小鳥。
【編輯推薦】