AI在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用:機器學(xué)習(xí) VS. 深度學(xué)習(xí)
人工智能(Artificial Intelligence)最初可以追溯至1956年,當(dāng)時幾名計算機科學(xué)家相聚在達特茅斯會議,提出了“人工智能”的概念,夢想著用當(dāng)時剛剛出現(xiàn)的計算機來構(gòu)造復(fù)雜的、擁有與人類智慧同樣本質(zhì)特性的機器。其后,人工智能就一直縈繞于人們的腦海之中,并在科研實驗室中慢慢孵化。
如今,人工智能實現(xiàn)了爆炸式發(fā)展,幾乎所有行業(yè)(尤其是安全行業(yè))中的所有軟件都至少采用了某種形式的AI技術(shù)。ESG研究發(fā)現(xiàn),12%的企業(yè)組織已經(jīng)廣泛部署了基于人工智能的安全分析,27%的受訪企業(yè)也已經(jīng)在有限的基礎(chǔ)上部署了基于人工智能的安全分析。專家預(yù)計,這種部署趨勢會在2018年實現(xiàn)新一輪增長。
在過去幾年間,AI的主要子集——機器學(xué)習(xí)(Machine Learning)和深度學(xué)習(xí)(Deep Learning)——已經(jīng)取得了突破性進展,幾乎為它們觸及到的每個領(lǐng)域帶來了翻天覆地地變化。如今,人工智能、機器學(xué)習(xí)以及深度學(xué)習(xí)等術(shù)語,已經(jīng)成為人們耳熟能詳?shù)母哳l詞,但是仍然存在不少人對這三者的含義及其背后的關(guān)系似懂非懂、一知半解。
為了幫助大家充分了解每個術(shù)語的含義及其區(qū)別,接下來我們將為大家介紹每個子集的優(yōu)點及其局限性。
機器學(xué)習(xí)的挑戰(zhàn)
“機器學(xué)習(xí)”的概念來自于人工智能發(fā)展的早期。在過去的25年里,機器學(xué)習(xí)已經(jīng)發(fā)展成為AI內(nèi)部的領(lǐng)先分支。該技術(shù)主要通過使用算法來解析數(shù)據(jù)、學(xué)習(xí)數(shù)據(jù),然后對真實世界中的事件做出決策和預(yù)測。因此,與傳統(tǒng)的為解決特定任務(wù)、硬編碼的軟件程序不同,機器學(xué)習(xí)是用大量的數(shù)據(jù)來“自我訓(xùn)練”,通過各種算法從數(shù)據(jù)中學(xué)習(xí)如何完成任務(wù)。
舉例來說,當(dāng)我們?yōu)g覽網(wǎng)上商城時,經(jīng)常會出現(xiàn)商品推薦的信息。這就是商城根據(jù)你往期的購物記錄和冗長的收藏清單,識別出這其中哪些是你真正感興趣,并且愿意購買的產(chǎn)品。這樣的決策模型,可以幫助商城為客戶提供建議并鼓勵產(chǎn)品消費。
曾經(jīng),符號與邏輯被認(rèn)為是人工智能實現(xiàn)的關(guān)鍵,而進入21世紀(jì)后,則是基于統(tǒng)計的機器學(xué)習(xí)占據(jù)了主導(dǎo)地位。目前可以說,學(xué)習(xí)AI主要的是學(xué)習(xí)機器學(xué)習(xí)。但是,需要再次強調(diào)的是,人工智能并不等同于機器學(xué)習(xí),機器學(xué)習(xí)只是人工智能的一個子集。
盡管這項技術(shù)很強大,但仍然存在缺陷,特別是當(dāng)其應(yīng)用于安全領(lǐng)域時,這種缺陷顯得尤為突出。傳統(tǒng)機器學(xué)習(xí)的主要缺陷之一,是其依賴于特征提取(feature extraction)——即人類專家規(guī)定每個問題的重要特征(比如屬性)的過程。比如說,將機器學(xué)習(xí)運用于臉部識別時,圖像中的原始像素?zé)o法饋入到機器學(xué)習(xí)模塊里面,需要先將它們轉(zhuǎn)換成特征,例如瞳孔間距、臉部比例、臉部紋理和膚色等才行。
這就意味著,為了讓機器學(xué)習(xí)解決方案能夠識別惡意軟件,人類專家需要首先手動編制與惡意軟件相關(guān)的各種特征。對于網(wǎng)絡(luò)安全領(lǐng)域而言,這無疑將會限制到威脅檢測的效率和精確度。因為人類專家需要定義特定的特征,所以尚未定義到的特征可能就會逃避掉安全檢測,使其無法被發(fā)現(xiàn)。
此外,這種對人類參與的依賴還引發(fā)了機器學(xué)習(xí)最大的挑戰(zhàn)之一——人為錯誤的可能性。鑒于“特征工程”(將領(lǐng)域知識應(yīng)用于特征提取的過程)需要人類專家來定義特征,就不可避免地會出現(xiàn)遺漏或忽略等人為失誤現(xiàn)象。在上述提及的惡意軟件例子中,如果人類專家在編程期間遺漏或忽略某些特征,都可能會造成系統(tǒng)崩潰的結(jié)果。
可以這么說,大多數(shù)機器學(xué)習(xí)算法的性能取決于識別和提取特征的準(zhǔn)確性。為了使機器學(xué)習(xí)系統(tǒng)準(zhǔn)確無誤,人類專家必須在方法論的基礎(chǔ)上定義特征,因為機器學(xué)習(xí)是一種基于線性的模型(linear model),所以人類專家選擇的特征只能依賴簡單的線性屬性。鑒于這種限制,一些企業(yè)及學(xué)者開始轉(zhuǎn)向研究深度神經(jīng)網(wǎng)絡(luò)(DNN),以更好地保護其基礎(chǔ)設(shè)施,并為即將發(fā)生的攻擊做好準(zhǔn)備。
所謂“線性模型”(linear model),即使用簡單的公式通過一組數(shù)據(jù)點來查找“最優(yōu)擬合”線。通過你已知的變量方程(比如,原料),你可以求出你想要預(yù)測的變量(例如,烘烤蛋糕需要多長時間)。為了求出預(yù)測量,我們輸入已知的變量得到答案。也就是說,為了求出烘烤蛋糕需要多長時間,我們只需要輸入原料即可。
深度學(xué)習(xí)的發(fā)展
深度學(xué)習(xí),也稱為“深度神經(jīng)網(wǎng)絡(luò)”(DNN),它是機器學(xué)習(xí)的子領(lǐng)域,從人類大腦的工作機理獲得了靈感。深度學(xué)習(xí)與傳統(tǒng)機器學(xué)習(xí)在概念上的一大區(qū)別在于,深度學(xué)習(xí)可以直接對原數(shù)據(jù)進行訓(xùn)練,而不需要對其特征進行抽取。
例如,將機器學(xué)習(xí)運用于臉部識別時,圖像中的原始像素?zé)o法饋入到機器學(xué)習(xí)模塊里面,需要先將它們轉(zhuǎn)換成特征——如瞳孔間距、臉部比例、臉部紋理和膚色等方可。而深度學(xué)習(xí)則不需要任何特征提取過程,能夠直接對原始數(shù)據(jù)進行“自我訓(xùn)練”。此外,深度學(xué)習(xí)還可以擴展到數(shù)以億計的訓(xùn)練樣本,并隨著訓(xùn)練數(shù)據(jù)集不斷增長而得到發(fā)展和完善。
在過去幾年間,深度學(xué)習(xí)在計算機視覺、語音識別以及文本理解的大多數(shù)基準(zhǔn)方面,已經(jīng)實現(xiàn)了20-30%的提高——這是人工智能和計算機科學(xué)史上最大的性能飛躍。能夠?qū)崿F(xiàn)如此突破的部分原因在于,深度學(xué)習(xí)能夠檢測數(shù)據(jù)之間的非線性相關(guān)性,而這些數(shù)據(jù)對于人類來說通常太過復(fù)雜,以至于根本無從定義。與傳統(tǒng)的機器學(xué)習(xí)不同,深度學(xué)習(xí)支持任何以及新的文件類型,并且能夠檢測出未知攻擊,這對于網(wǎng)絡(luò)安全領(lǐng)域而言是極具吸引力的優(yōu)點。
雖然,這些優(yōu)勢使得深度學(xué)習(xí)在某些方面超越了基于機器學(xué)習(xí)的解決方案,但其同樣面臨著一些挑戰(zhàn)。研究人員需要負(fù)責(zé)包含數(shù)百萬個文件的大量數(shù)據(jù)樣本來訓(xùn)練神經(jīng)網(wǎng)絡(luò),并處理高度復(fù)雜的算法。在很多情況下,深度學(xué)習(xí)是一門依賴科學(xué)家的經(jīng)驗和知識的“藝術(shù)”,不幸的是,該領(lǐng)域的現(xiàn)有專家是一大稀缺資源。
深度學(xué)習(xí)對于安全性的影響
如今,深度學(xué)習(xí)已經(jīng)在各行各業(yè)中得到了實施,特別是在網(wǎng)絡(luò)安全方面產(chǎn)生了重大影響。2017年最大的惡意軟件攻擊——如WannaCry、NotPetya以及DDoS事件等——促使企業(yè)重新思考其安全策略,及其對于未來攻擊的被動應(yīng)對方式。對于整個網(wǎng)絡(luò)安全行業(yè)而言,能夠以最少的人際交互實現(xiàn)最有效的應(yīng)急響應(yīng),是其一直追求的目標(biāo)。因此,由于深度學(xué)習(xí)能夠減少人際交互的事實,所以組織正紛紛轉(zhuǎn)向基于深度學(xué)習(xí)的解決方案。
深度學(xué)習(xí)能夠在不需要任何人員參與的情況下,實時防范新出現(xiàn)的惡意軟件,同時保持低誤報警率,這對于保護端點、移動設(shè)備、數(shù)據(jù)以及基礎(chǔ)架構(gòu)都非常有利。在成功防止惡意軟件之后,深度學(xué)習(xí)技術(shù)還可以幫助公司了解它是什么類型的惡意軟件——即勒索軟件、后門程序或間諜軟件——以采取進一步的安全措施。在大多數(shù)情況下,這需要專家對信息進行適當(dāng)?shù)姆治?,然而深度學(xué)習(xí)軟件會自動識別和分析數(shù)據(jù),而無需人為干預(yù)。
同樣地,該技術(shù)還可以用來確定特定攻擊源自何處。過去,由于各種原因限制,實現(xiàn)這一目標(biāo)對于企業(yè)IT和安全團隊而言一直是一項艱巨的任務(wù)。例如,每個民族國家通常有不止一個用于開發(fā)這種先進惡意軟件的網(wǎng)絡(luò)單位(cyber unit),這就使得傳統(tǒng)的署名權(quán)歸屬算法(authorship attribution algorithms)毫無用武之地。此外,APT通常會使用最先進的逃避技術(shù),不過,DNN有能力學(xué)習(xí)APT本身的高級特征提取。
2018年,深度學(xué)習(xí)在安全領(lǐng)域的持續(xù)成功將令人興奮,而且它不會止步于此。除了安全領(lǐng)域之外,深度學(xué)習(xí)還正在為氣候制圖、抗擊衰老和疾病等許多其他行業(yè)帶來革命性的變化,不可否認(rèn),該技術(shù)帶來的影響是深遠(yuǎn)的。
【本文是51CTO專欄作者“”李少鵬“”的原創(chuàng)文章,轉(zhuǎn)載請通過安全牛(微信公眾號id:gooann-sectv)獲取授權(quán)】