2.2.1FP8訓(xùn)練實(shí)驗(yàn)的實(shí)驗(yàn)是錯(cuò)的,《ToFP8andBackAgain》的作者沒(méi)有讓最后一層線性層保持高精度。低比特訓(xùn)練需要讓最后一層線性層保持高精度,其他線性層用低精度。MSAMP訓(xùn)練的FP8GPT2124M能夠和BF16模型對(duì)齊:??https:github.comAzureMSAMPissues178??基于nanoGPT整合MSAMP的代碼已開(kāi)源:??https:github.comwkcnnanoGPT??
2024-10-25 10:19:46 0點(diǎn)贊 0回復(fù)