第2期:非結(jié)構(gòu)化數(shù)據(jù)分析技術(shù)是忽悠
大數(shù)據(jù)概念興起的同時(shí)也帶熱了非結(jié)構(gòu)化數(shù)據(jù)分析。傳說一個(gè)企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),如果按占據(jù)空間來算,這個(gè)比例大體不假,畢竟音視頻這類數(shù)據(jù)真地很大。有這么大的數(shù)據(jù)量,需要進(jìn)行分析是很自然的事了,而要分析當(dāng)然就要有相應(yīng)的技術(shù)手段了。
那為什么說非結(jié)構(gòu)化數(shù)據(jù)分析技術(shù)是忽悠呢?
不存在通用的非結(jié)構(gòu)化數(shù)據(jù)計(jì)算技術(shù)
非結(jié)構(gòu)化數(shù)據(jù)五花八門,有聲音圖像、文本網(wǎng)頁、辦公文檔、設(shè)備日志、….;每類數(shù)據(jù)的都有各自的計(jì)算處理手段,比如語音識(shí)別、圖像比對(duì)、文本搜索、圖結(jié)構(gòu)計(jì)算等等,但是并不存在一種適用于所有非結(jié)構(gòu)化數(shù)據(jù)的通用計(jì)算技術(shù)。語音識(shí)別的方法不能用于圖像比對(duì)、文本搜索和圖結(jié)構(gòu)計(jì)算也扯不上關(guān)系。
一個(gè)廠商如果擅長(zhǎng)某種技術(shù),那一定會(huì)直接宣稱自己專業(yè)于該領(lǐng)域,而不會(huì)泛泛地說自己精于非結(jié)構(gòu)化數(shù)據(jù)分析。比如人臉識(shí)別做得非常精準(zhǔn)、或是文本敏感詞挖掘的專業(yè)公司,顯然這樣更容易定位用戶和應(yīng)用場(chǎng)景。如果一家公司只說自己擅長(zhǎng)非結(jié)構(gòu)化數(shù)據(jù)分析而不指明具體的領(lǐng)域,那就不知道到底能做些什么了。
面向非結(jié)構(gòu)化數(shù)據(jù)的通用技術(shù)只是存儲(chǔ)
雖然許多專業(yè)技術(shù)領(lǐng)域都可以歸類為對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理,但總體應(yīng)用范圍并不廣泛,大多數(shù)用戶還用不上這些專門技術(shù),而只是需要把這些數(shù)據(jù)存儲(chǔ)下來。非結(jié)構(gòu)化數(shù)據(jù)沒有通用的分析計(jì)算技術(shù),但存儲(chǔ)和相應(yīng)的管理(增刪檢索等)是可以通用化的。非結(jié)構(gòu)化數(shù)據(jù)占據(jù)的空間較大,經(jīng)常需要不同于結(jié)構(gòu)化數(shù)據(jù)的特殊存儲(chǔ)手段。
不過,如果不是數(shù)據(jù)量特別大,或者有高并發(fā)的檢索需求,大多數(shù)的網(wǎng)絡(luò)文件系統(tǒng)(如HDFS)已經(jīng)能夠勝任存儲(chǔ)和訪問需求。廠家如果只喊能做非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和基本管理,那會(huì)顯得沒什么技術(shù)含量。所以這些廠商會(huì)不遺余力地往分析上靠,但沒有實(shí)質(zhì)東西。而能提供大容量高性能的訪問的專業(yè)存儲(chǔ)廠商卻只會(huì)喊存儲(chǔ),而不會(huì)刻意提及分析。
通用分析技術(shù)在于相伴產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)
采集非結(jié)構(gòu)化數(shù)據(jù)的同時(shí),常常會(huì)伴隨著采集許多相關(guān)的結(jié)構(gòu)化數(shù)據(jù),比如音視頻的制作人、制作時(shí)間、所屬類別、時(shí)長(zhǎng)、…;有些非結(jié)構(gòu)化數(shù)據(jù)經(jīng)過處理后也會(huì)轉(zhuǎn)變成結(jié)構(gòu)化數(shù)據(jù),比如網(wǎng)頁日志中拆解出訪問人IP、訪問時(shí)刻、關(guān)鍵搜索詞等。所謂的非結(jié)構(gòu)化數(shù)據(jù)分析,經(jīng)常實(shí)際上是針對(duì)這些伴生而出的結(jié)構(gòu)化數(shù)據(jù),這個(gè)領(lǐng)域有不少較為成熟的通用計(jì)算技術(shù)(比如關(guān)系代數(shù)和關(guān)系數(shù)據(jù)庫)。
但現(xiàn)在只喊結(jié)構(gòu)化數(shù)據(jù)顯得不夠時(shí)髦,為了吸引用戶,就要把本質(zhì)上的結(jié)構(gòu)化數(shù)據(jù)分析說成是非結(jié)構(gòu)化數(shù)據(jù)分析了。
作為需求方的用戶,這時(shí)候需要清楚地知道到底要對(duì)這些數(shù)據(jù)做什么處理。如果只是簡(jiǎn)單存儲(chǔ),那上個(gè)HDFS這類開源網(wǎng)絡(luò)文件系統(tǒng)就夠了;如果有高性能訪問需求,那要找專業(yè)的存儲(chǔ)廠商;如果其實(shí)要分析的是伴生出來的結(jié)構(gòu)化數(shù)據(jù),那就是已經(jīng)熟悉的數(shù)據(jù)庫類業(yè)務(wù)了;如果真有特定的處理需求,那也是找專門領(lǐng)域的廠商和技術(shù)??傊灰悍旱刂徽f需要非結(jié)構(gòu)化數(shù)據(jù)分析。