大模型之神經(jīng)網(wǎng)絡(luò)特征提取綜述 原創(chuàng)
“ 特征提取是神經(jīng)網(wǎng)絡(luò)的核心能力之一,但其復(fù)雜程度遠(yuǎn)沒有想象中的那么簡單 ”
在之前的文章編碼器和解碼器中介紹了編碼器和解碼器的核心功能之——特征提取和特征重建;編碼器的核心任務(wù)是特征提取,而解碼器的核心任務(wù)是特征重建。
但除開模型設(shè)計(jì)者也就是神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)者之外,對(duì)大模型的使用者來說,大模型就是一個(gè)黑盒模型;用戶只需要給定輸入,大模型就可以根據(jù)訓(xùn)練結(jié)果給出相對(duì)應(yīng)的數(shù)據(jù)輸出。
因此對(duì)使用者來說,大模型內(nèi)的一切都是不可見的;而且由于大模型的訓(xùn)練和微調(diào)都是由神經(jīng)網(wǎng)絡(luò)自身完成的,因此包括神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)者在內(nèi);沒人知道大模型的內(nèi)部到底是怎么運(yùn)作的;這也是為什么大模型缺乏可解釋性的原因之一。
大模型的特征提取
要想了解大模型的特征提取,首先要明白一個(gè)概念就是——什么是特征?
事實(shí)上我們每時(shí)每刻都在接觸不同的特征,比如說我們每天睜眼看到的東西,我們使用的物品,我們認(rèn)識(shí)的人。
先來回答一個(gè)問題,我們是怎么區(qū)分不同的人和物的?
答案就是通過特征,比如蘋果和香蕉的特征不一樣;男人和女人的特征也不一樣,你的朋友和其他人的特征也不一樣。
所以,我們的大腦就是通過我們的五感輸入的信息,然后通過提取特征來區(qū)分不同的人和物。
再回到人工智能領(lǐng)域,大模型是怎么提取特征的?
在深度學(xué)習(xí)爆火之前,特征提取并不是由神經(jīng)網(wǎng)絡(luò)自身來完成的;在那時(shí)的機(jī)器學(xué)習(xí)領(lǐng)域,特征提取是由業(yè)內(nèi)的專家人士,通過自己的一套方法論來進(jìn)行特征提取。
這種方式的好處是特征提取的可解釋性,因?yàn)樘卣魈崛〉娜苛鞒潭际怯扇祟惖耐瓿傻?;因此這些專家可以給你解釋為什么要提取這個(gè)特征,以及怎么提取這個(gè)特征。
但在神經(jīng)網(wǎng)絡(luò)模型爆火之后,所有的特征提取都是由模型自身來完成;雖然神經(jīng)網(wǎng)絡(luò)是由人類自己設(shè)計(jì)的,但人類也并不完全了解里面到底發(fā)生了什么;這也是為什么部分人擔(dān)心大模型安全問題的原因之一。因?yàn)樗峭耆豢煽氐摹?/p>
但從另一方面來說,由于神經(jīng)網(wǎng)絡(luò)中的特征是模型在學(xué)習(xí)中逐漸生成的;所以這些特征沒有人為的干預(yù),特征的分布更加客觀,更有利于模型進(jìn)行分類和回歸;這一點(diǎn)是人工特征提取所無法比擬的。
傳統(tǒng)的特征提取方法是通過人工提取而來,人工神經(jīng)網(wǎng)絡(luò)中的特征是通過網(wǎng)絡(luò)層計(jì)算得來的,最簡單的特征提取方法就是在確定好數(shù)據(jù)標(biāo)簽y’后,通過反向傳播算法和線性層來提取特征,比如y=wx+b,其中y是輸出值,x是固定輸入,w是權(quán)重,b是偏差,w和b都會(huì)隨著模型的反向傳播不斷更新。一般通過損失函數(shù)E=1/2(y-y’)求得損失,然后通過反向傳播算法降低損失E,由于損失函數(shù)中的y’是固定的,只有改變輸出y,讓y和y’越來越接近,才能夠達(dá)到我們的目的,而改變y的值回到了前向輸出公式y(tǒng)=wx+b上,在這個(gè)公式中,能夠改變的值就只有w和b,所以最終我們通過改變w和b的值讓輸出的y發(fā)生變化,讓其和標(biāo)簽y’更加接近。可見,在輸入x不變的前提下,w和b的改變會(huì)讓輸出y有越來越接近標(biāo)簽y’。
從理論上來說,在網(wǎng)絡(luò)層較淺時(shí),提取到的特征不會(huì)有很強(qiáng)的標(biāo)準(zhǔn)性,這里的標(biāo)志性指的是特征對(duì)原始數(shù)據(jù)的代表性。而到了神經(jīng)網(wǎng)絡(luò)層數(shù)越深的時(shí)候,模型提取到的特征會(huì)更具代表性;簡單來說就是網(wǎng)絡(luò)層數(shù)越深,模型能夠解決的任務(wù)越復(fù)雜,這也是為什么說網(wǎng)絡(luò)模型越深,能力越強(qiáng)。
神經(jīng)網(wǎng)絡(luò)的快速發(fā)展是最近這幾年才大規(guī)模開始的,關(guān)于神經(jīng)網(wǎng)絡(luò)特征的理解,也是仁者見仁,智者見智,但是總體的目標(biāo)是不變的,那就是朝著越來越高效的特征提取方向發(fā)展。不管是以前的CNN模型,還是這兩年的transformers模型,以及提出的各種注意力的方法,都是在設(shè)計(jì)怎么去除掉對(duì)于當(dāng)前任務(wù)無關(guān)的冗余信息,增加對(duì)于當(dāng)前任務(wù)有用的信息權(quán)重,從而實(shí)現(xiàn)特征的高效提取,以達(dá)到快速高效的完成任務(wù)。
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/Tdhs_5wAF09-PESBi3tAzQ??
