機(jī)器學(xué)習(xí)促進(jìn)大數(shù)據(jù)分析走向繁榮
譯文【51CTO獨(dú)家特稿】機(jī)器生成的日志數(shù)據(jù)可以說(shuō)是大數(shù)據(jù)宇宙當(dāng)中的暗物質(zhì)。它由分布式信息技術(shù)生態(tài)系統(tǒng)當(dāng)中的每一層、每個(gè)節(jié)點(diǎn)乃至每種組件所產(chǎn)生,其范疇從智能手機(jī)到物聯(lián)網(wǎng)終端可謂無(wú)所不包。它無(wú)窮無(wú)盡、無(wú)處不在,我們能夠?qū)ζ溥M(jìn)行收集、處理、分析以及使用,但整個(gè)過(guò)程大多在幕后進(jìn)行。
日志數(shù)據(jù)往往充當(dāng)著眾多枯燥企業(yè)應(yīng)用程序的基礎(chǔ),其中包括故障排查、調(diào)試、監(jiān)測(cè)、安全、反欺詐、合規(guī)性以及電子取證等等。不過(guò)在分析點(diǎn)擊流、地理位置、社交媒體以及其它與各類(lèi)消費(fèi)者核心類(lèi)用戶(hù)密切相關(guān)的行為記錄數(shù)據(jù)當(dāng)中,它同樣能夠成為一種強(qiáng)大的指導(dǎo)性工具。
僅憑人類(lèi)的能力根本無(wú)法跟上機(jī)器記錄數(shù)據(jù)的產(chǎn)生速度。絕大部分這類(lèi)數(shù)據(jù)在設(shè)計(jì)思路或者實(shí)際使用上都完全不會(huì)考慮人為分析的可能性。除非以粗暴的方式進(jìn)行直接過(guò)濾,否則日志數(shù)據(jù)那極端的體積、可怕的積累速度以及豐富的具體類(lèi)別將迅速擊潰人類(lèi)的認(rèn)知能力。Accenture公司在最近的一篇文章中對(duì)此作出了簡(jiǎn)潔的解釋?zhuān)?o:p>
隨著日志文件在體積與種類(lèi)方面的不斷攀升,日志管理方案解析日志文件、追蹤潛在問(wèn)題乃至切實(shí)發(fā)現(xiàn)錯(cuò)誤的難度也在隨之提升——特別是交叉日志間存在關(guān)聯(lián)性時(shí),這種情況就變得更為突出。即使在最理想的狀況下,也需要由經(jīng)驗(yàn)豐富的管理員來(lái)捋順事件鏈、過(guò)濾干擾信息并最終診斷出根本原因——這實(shí)在是個(gè)相當(dāng)復(fù)雜的過(guò)程。
很明顯,自動(dòng)化已經(jīng)成為在日志數(shù)據(jù)當(dāng)中找到分析結(jié)論的關(guān)鍵所在,這一點(diǎn)在大數(shù)據(jù)領(lǐng)域體現(xiàn)得尤為突出。自動(dòng)化機(jī)制能夠確保數(shù)據(jù)收集、分析處理以及規(guī)則與事件驅(qū)動(dòng)響應(yīng)能夠切實(shí)與數(shù)據(jù)中的信息相匹配,并在數(shù)據(jù)流的傳輸過(guò)程中完成任務(wù)執(zhí)行。而要實(shí)現(xiàn)日志分析機(jī)制的自動(dòng)化擴(kuò)展,關(guān)鍵因素則包括機(jī)器數(shù)據(jù)集成中間件、業(yè)務(wù)規(guī)則管理系統(tǒng)、語(yǔ)義分析、流計(jì)算平臺(tái)以及機(jī)器學(xué)習(xí)算法。
在以上因素當(dāng)中,機(jī)器學(xué)習(xí)是自動(dòng)化流程以及日志數(shù)據(jù)規(guī)?;治龅闹刂兄?/strong>。不過(guò)機(jī)器學(xué)習(xí)對(duì)于日志數(shù)據(jù)分析工作而言并不是一套能夠以不變應(yīng)萬(wàn)變的固定解決方案。不同的機(jī)器學(xué)習(xí)技術(shù)適合不同類(lèi)型的日志數(shù)據(jù)以及不同的分析挑戰(zhàn)。利用相關(guān)性與其它現(xiàn)有模式為機(jī)器學(xué)習(xí)機(jī)制構(gòu)建先驗(yàn)性監(jiān)督方案才是正確的處理方式。不過(guò)監(jiān)督性學(xué)習(xí)人為為其編寫(xiě)一套源自日志參考性“培訓(xùn)數(shù)據(jù)”集,只有這樣才能準(zhǔn)確定義機(jī)器學(xué)習(xí)算法的辨別能力、從而選擇與實(shí)際最為相符的處理能力。
不過(guò)如果日志數(shù)據(jù)模式無(wú)法以預(yù)告方式作出精確定義,那么非監(jiān)督性強(qiáng)化學(xué)習(xí)機(jī)制可能更為適合。這些由機(jī)器學(xué)習(xí)技術(shù)支持的日志數(shù)據(jù)分析方案可謂自動(dòng)化處理的最理想場(chǎng)景,因?yàn)榇祟?lèi)方案會(huì)自主選擇匹配程度較高的處理模式并進(jìn)行優(yōu)先級(jí)排序,從而在無(wú)法人為提供培訓(xùn)數(shù)據(jù)集的前提下完成既定任務(wù)。
多日志關(guān)聯(lián)性屬于非監(jiān)督性強(qiáng)化學(xué)習(xí)方案所針對(duì)的核心日志數(shù)據(jù)分析用例。由于異構(gòu)式日志數(shù)據(jù)集在結(jié)合過(guò)程中會(huì)衍生出更高程度的異構(gòu)性、復(fù)雜性以及不可預(yù)測(cè)性,分析過(guò)程當(dāng)中數(shù)據(jù)變量以及數(shù)據(jù)關(guān)系將始終混亂而模糊。有鑒于此,如果我們僅僅利用簡(jiǎn)單的查詢(xún)、預(yù)先設(shè)定好的報(bào)告與儀表板乃至其它標(biāo)準(zhǔn)化分析機(jī)制對(duì)其進(jìn)行查看,隱藏在數(shù)據(jù)中的信息模式根本不會(huì)現(xiàn)身。在這類(lèi)情況下,機(jī)器學(xué)習(xí)能夠利用各類(lèi)定量方法——例如聚類(lèi)、馬爾科夫模型以及自組織映射等等——提取出最值得注意的關(guān)系模式。
無(wú)監(jiān)督性強(qiáng)化學(xué)習(xí)機(jī)制的另一大關(guān)鍵性使用場(chǎng)景在于確定某種特定關(guān)系模式此前從未出現(xiàn)過(guò)——或者確實(shí)曾經(jīng)出現(xiàn),但卻被人為分析方案標(biāo)記為“干擾因素”。有作者曾撰文探討過(guò)將機(jī)器學(xué)習(xí)機(jī)制應(yīng)用在安全日志分析當(dāng)中,從而“立即為用戶(hù)提供一種典型的訪問(wèn)模式——即使這種特定方式模式此前從未出現(xiàn)過(guò)——并防止個(gè)人信息丟失所引發(fā)的高風(fēng)險(xiǎn)。”
大多數(shù)藏身于海量日志數(shù)據(jù)中的分析結(jié)論都擁有幾大共同特征:復(fù)雜、隱蔽而且此前從未出現(xiàn)過(guò)。相較于先驗(yàn)性知識(shí),從日志數(shù)據(jù)本身著手進(jìn)行學(xué)習(xí)已經(jīng)成為眾多數(shù)據(jù)科學(xué)家們投入大量時(shí)間與精力的研發(fā)重點(diǎn)。他們正不斷對(duì)自己的機(jī)器學(xué)習(xí)算法作出調(diào)整,希望能夠從日志中找到就連最出色的人類(lèi)專(zhuān)家也往往會(huì)忽視的重要“信號(hào)”。
原文鏈接:
http://www.infoworld.com/d/big-data/big-data-log-analysis-thrives-machine-learning-244329
核子可樂(lè)譯