不要讓Hadoop成為Had oops!
過(guò)去幾年里,數(shù)據(jù)量的生成以每?jī)赡攴乃俣仍鲩L(zhǎng),但企業(yè)的預(yù)算卻沒(méi)有相應(yīng)增長(zhǎng)。這意味著要更有創(chuàng)造性地通過(guò)更少的方式做更多的工作。這是一個(gè)持續(xù)且艱巨的挑戰(zhàn),我沒(méi)有一勞永逸的解決方案,但我可以提供一些指導(dǎo)原則,讓你以更好的姿態(tài)去面對(duì)挑戰(zhàn)。
IDC預(yù)測(cè),到2020年,全球數(shù)據(jù)規(guī)模將達(dá)到44ZB,即44萬(wàn)億GB,如果人們無(wú)法繼續(xù)投資以擴(kuò)大存儲(chǔ)能力,可能在未來(lái)只有15%的數(shù)據(jù)能夠找到地方加以存儲(chǔ)。
在今天的數(shù)據(jù)驅(qū)動(dòng)型經(jīng)濟(jì)中,存儲(chǔ)需求往往超出了計(jì)算資源的需求,這就導(dǎo)致IT基礎(chǔ)設(shè)施無(wú)法均衡負(fù)載??蛻籼砑釉絹?lái)越多的服務(wù)器用來(lái)擴(kuò)展其大數(shù)據(jù)和分析功能,然而CPU資源卻并未得到充分利用。這是因?yàn)榇髷?shù)據(jù)和分析工作通常是存儲(chǔ)密集型,而不是計(jì)算密集型。因此,成功應(yīng)對(duì)數(shù)據(jù)挑戰(zhàn)的關(guān)鍵之一就是認(rèn)識(shí)到基礎(chǔ)設(shè)施所需的不同增長(zhǎng)率,了解到什么會(huì)增長(zhǎng),以什么樣的速度增長(zhǎng)。
為了應(yīng)對(duì)持續(xù)增長(zhǎng)的數(shù)據(jù)挑戰(zhàn),越來(lái)越多的公司創(chuàng)造了一系列技術(shù)和工具,用于攝取,傳輸,分析,存儲(chǔ),預(yù)測(cè),剝離等。其結(jié)果呈現(xiàn)在你眼前,是一幅充滿各種選擇的巨大地圖,并且這些選擇并不都是平等的:有些是死胡同,有些會(huì)把你鎖定到一個(gè)特定的供應(yīng)商,而另一些只能應(yīng)對(duì)今天的問(wèn)題,更不要說(shuō)明天或后天了。
可悲的是,一些組織似乎認(rèn)為,應(yīng)對(duì)數(shù)據(jù)挑戰(zhàn)非常簡(jiǎn)單 :“Just add Hadoop!”,然而直到他們擁有太多的Hadoop或Hadoop裝在了錯(cuò)誤的位置時(shí),才意識(shí)到了問(wèn)題所在。此外,把硬件和軟件簡(jiǎn)單地投入到分析挑戰(zhàn)中,就如同把汽油投入火中,它能燒得更旺,但也可能會(huì)燒到你。將技術(shù)應(yīng)用于數(shù)據(jù)和分析問(wèn)題時(shí),通常包含著的復(fù)雜性。即使是Hadoop,也會(huì)面臨多重挑戰(zhàn)。
除了挑戰(zhàn)之外,也有很多選擇讓你無(wú)從下手。 選擇Hortonworks、Cloudera、MapR還是BigInsights Hadoop發(fā)行版? 是否使用諸如EMC Vblock / VxBlock之類的融合基礎(chǔ)架構(gòu)或超融合基礎(chǔ)設(shè)施(如EMC VxRail和VxRack)?直連式存儲(chǔ)(DAS)是否滿足您的需求,還是應(yīng)該將計(jì)算和存儲(chǔ)分離,使用Isilon為你的數(shù)據(jù)湖橫向擴(kuò)展? 相信我,以上這些只是衡量使用Hadoop所需考慮的一部分因素。大象并不是你在叢林中唯一需要擔(dān)心的, 了解技術(shù)的同時(shí)了解其對(duì)業(yè)務(wù)和IT的影響,對(duì)成功至關(guān)重要。
對(duì)于以上這些挑戰(zhàn),一個(gè)有效解決方案是企業(yè)級(jí)的擴(kuò)展存儲(chǔ)解決方案,如EMC Isilon。在Isilon上運(yùn)行Hadoop擁有以下幾個(gè)優(yōu)點(diǎn)。
除了以上優(yōu)勢(shì),Isilon還通過(guò)以下方式為客戶帶來(lái)好處:
- 消除Hadoop NameNode維護(hù)的昂貴開(kāi)銷
- 大大減少與處理磁盤(pán)故障相關(guān)的工作量
- 通過(guò)消除Hadoop的典型3X數(shù)據(jù)復(fù)制,幫助管理分析存儲(chǔ)增長(zhǎng)的速度
- 減少移動(dòng)和分段數(shù)據(jù)的需要,使其可以訪問(wèn)Hadoop。
對(duì)于許多客戶而言,Isilon代表了可擴(kuò)展性,可用性和性能的***平衡,同時(shí)降低了與Hadoop集群相關(guān)的運(yùn)營(yíng)開(kāi)銷。沒(méi)有任何銀彈能解決爆炸性數(shù)據(jù)增長(zhǎng)所帶來(lái)的所有問(wèn)題,但是應(yīng)用橫向擴(kuò)展存儲(chǔ)技術(shù)往往有助于減輕痛苦。