自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

神經(jīng)網(wǎng)絡(luò)是怎么學(xué)習(xí)的? 原創(chuàng)

發(fā)布于 2025-1-13 10:40
瀏覽
0收藏

“ 神經(jīng)網(wǎng)絡(luò)的本質(zhì)就是一個數(shù)學(xué)函數(shù),也就是y=f(x)中的f ”

今天這篇文章主要是用來記錄一個問題,神經(jīng)網(wǎng)絡(luò)是怎么學(xué)習(xí)的?

這個問題是在昨天寫神經(jīng)網(wǎng)絡(luò)的開發(fā)框架——PyTorch和神經(jīng)網(wǎng)絡(luò)架構(gòu)——Transformer架構(gòu)時突然發(fā)現(xiàn)的一個問題。

神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程

在學(xué)習(xí)大模型或者說神經(jīng)網(wǎng)絡(luò)的過程中,我們知道一件事就是,神經(jīng)網(wǎng)絡(luò)在設(shè)計完成之后,需要經(jīng)過大量的數(shù)據(jù)進(jìn)行訓(xùn)練;具體流程就是要把訓(xùn)練數(shù)據(jù)輸入到模型中,然后模型經(jīng)過一系列的處理,如損失計算,參數(shù)調(diào)整(反向傳播算法),一步一步的把模型參數(shù)調(diào)整到最優(yōu)解。

神經(jīng)網(wǎng)絡(luò)是怎么學(xué)習(xí)的?-AI.x社區(qū)

但是從PyTorch框架來看,所謂的模型訓(xùn)練就是在不斷的進(jìn)行數(shù)學(xué)運(yùn)算,包括矩陣運(yùn)算,求導(dǎo)等等;而從Transformer架構(gòu)來看,模型訓(xùn)練就是經(jīng)過架構(gòu)中的編碼器和解碼器,通過數(shù)學(xué)計算的方式提取數(shù)據(jù)的特征,最終獲得結(jié)果。

這里就產(chǎn)生了一個問題,那就是為什么數(shù)據(jù)經(jīng)過一系列數(shù)學(xué)運(yùn)算之后,就可以學(xué)習(xí)到數(shù)據(jù)的特征;雖然說模型是通過矩陣運(yùn)算,把數(shù)據(jù)轉(zhuǎn)化為向量之后,通過計算向量之間的數(shù)學(xué)關(guān)系來表示數(shù)據(jù)的特征;比如說,歐式距離,平方差等。

在多維的向量空間中,具有語義或關(guān)聯(lián)性的數(shù)據(jù)在多維空間中就會呈現(xiàn)一定的數(shù)學(xué)關(guān)系;但神經(jīng)網(wǎng)絡(luò)是怎么知道它們之間的數(shù)據(jù)關(guān)系的?

神經(jīng)網(wǎng)絡(luò)是怎么學(xué)習(xí)的?-AI.x社區(qū)

在無監(jiān)督學(xué)習(xí)中,數(shù)據(jù)之間的關(guān)系是模型根據(jù)自身的數(shù)學(xué)規(guī)則去計算訓(xùn)練數(shù)據(jù)的潛在關(guān)系;而在監(jiān)督學(xué)習(xí)中,模型是通過損失函數(shù)計算訓(xùn)練數(shù)據(jù)與目標(biāo)結(jié)果的數(shù)學(xué)關(guān)系——損失差;之后在經(jīng)過調(diào)優(yōu)函數(shù)進(jìn)行反向傳播,動態(tài)調(diào)整模型參數(shù)的過程。

所以,從表現(xiàn)來看神經(jīng)網(wǎng)絡(luò)之所以能學(xué)習(xí)到數(shù)據(jù)特征,主要原因并不在于數(shù)學(xué)計算,而在于怎么進(jìn)行這個數(shù)學(xué)計算,比如第一步該怎么算,第二步該怎么算;最終計算出一個結(jié)果。

因此,神經(jīng)網(wǎng)絡(luò)模型就類似于一個數(shù)學(xué)領(lǐng)域中的函數(shù),也就是y=f(x),核心就在于這個f——數(shù)學(xué)關(guān)系。

而神經(jīng)網(wǎng)絡(luò)這個函數(shù)f(x)和普通函數(shù)的區(qū)別就在于,普通函數(shù)是一個具備一定關(guān)系的數(shù)學(xué)公式,其參數(shù)和關(guān)系是固定的;而神經(jīng)網(wǎng)絡(luò)這個函數(shù)的參數(shù)和關(guān)系卻是可以動態(tài)調(diào)整的。

怪不得很多人說,神經(jīng)網(wǎng)絡(luò)的本質(zhì)就是一個數(shù)學(xué)問題,更嚴(yán)格的說法應(yīng)該是數(shù)學(xué)領(lǐng)域中的向量問題;而具體表現(xiàn)為矩陣運(yùn)算。

訓(xùn)練數(shù)據(jù)被轉(zhuǎn)換為向量之后,神經(jīng)網(wǎng)絡(luò)模型就對這個向量進(jìn)行七顛八倒的變換。

神經(jīng)網(wǎng)絡(luò)是怎么學(xué)習(xí)的?-AI.x社區(qū)

總的來說,神經(jīng)網(wǎng)絡(luò)的載體是向量,方法是矩陣運(yùn)算,核心是數(shù)學(xué)關(guān)系——也就是進(jìn)行怎樣的數(shù)學(xué)計算,其數(shù)學(xué)原理是什么?也就是說y=f(x)的這個f到底是什么?

看來是時候需要研究一下Transformer的論文——《Attention is All You Need》了。


本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/EjKb72CJOQ8lwPWVfAoVwg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦