谷歌推出TransformerFAM架構(gòu),以更低的消耗處理長序列文本
Transformer對大模型界的影響力不言而喻,ChatGPT、Sora、Stable Difusion等知名模型皆使用了該架構(gòu)。
但有一個很明顯的缺點(diǎn),其注意力復(fù)雜度的二次方增長在處理書籍、PDF等超長文檔時會顯著增加算力負(fù)擔(dān)。
雖然會通過滑動窗口注意力和稀疏注意力等技術(shù)來解決這一問題,在處理極長序列時仍存在局限性。
因此,谷歌的研究人員提出了全新架構(gòu)TransformerFAM,可以無縫與預(yù)訓(xùn)練模型集成,并通過LoRA進(jìn)行少量精調(diào)從而大幅度提升模型性能。
研究人員在1B、8B和24B三種參數(shù)的Flan-PaLM大語言模型上評估了Transformer FAM的性能。實(shí)驗(yàn)結(jié)果顯示,與Transformer架構(gòu)相比,TransformerFAM在長序列任務(wù)上取得了好的能力并且資源消耗更低。
論文地址:https://arxiv.org/abs/2404.09173
TransformerFAM的技術(shù)靈感來自人腦中工作記憶的機(jī)制。研究人員發(fā)現(xiàn),大腦中的工作記憶能力是由前額葉皮層和視床之間的反饋循環(huán)維持的,即持續(xù)的神經(jīng)元脈沖活動形成了一個反饋回路,從而實(shí)現(xiàn)了對短期記憶的維持和更新。
受此啟發(fā),研究人員設(shè)計了一個集成在Transformer中的反饋循環(huán),使得注意力機(jī)制不僅可以關(guān)注輸入序列,還能自我關(guān)注自身的潛在表示,使大模型能夠存儲超長和更新全局上下文信息。
簡單來說,可以把TransformerFAM看成是一個"便簽本",可以幫助大模型記住很多短暫、細(xì)小的事情,又不會對內(nèi)存、算力造成過多的負(fù)擔(dān)。
反饋?zhàn)⒁饬τ洃?/strong>
?
反饋?zhàn)⒁饬τ洃洠‵eedback Attention Memory,F(xiàn)AM)是TransformerFAM架構(gòu)的核心模塊,主要通過反饋循環(huán)使神經(jīng)網(wǎng)絡(luò)能夠注意到自身的潛在表示,從而允許大模型處理超長的輸入序列。
研究人員在每個Transformer層中都加入了FAM模塊,在自注意力過程中被激活,使得輸入查詢不僅關(guān)注當(dāng)前塊和滑動窗口覆蓋的過去記憶段,還能關(guān)注前一步的FAM狀態(tài),將全局上下文知識融入當(dāng)前表示。
同時一個專門的FAM查詢則負(fù)責(zé)根據(jù)當(dāng)前塊和上一步的FAM,更新后續(xù)的FAM狀態(tài)以實(shí)現(xiàn)全局上下文信息的傳遞。
這種巧妙設(shè)計使得每個Transformer層都能夠維持一個與其抽象層次相對應(yīng)的分布式工作記憶狀態(tài)。
塊內(nèi)壓縮
?
塊內(nèi)壓縮是Transformer架構(gòu)中處理長序列數(shù)據(jù)的關(guān)鍵技術(shù)。主要是將長序列分成若干個小塊,然后對每個塊中的信息進(jìn)行壓縮,以便模型能夠更高效地處理和記憶這些信息。
在每個Transformer層中,塊內(nèi)壓縮通過自注意力機(jī)制將當(dāng)前塊的信息壓縮成一個固定長度的表示用于反饋記憶的激活。然后再與之前的FAM狀態(tài)結(jié)合,通過一個前饋網(wǎng)絡(luò)進(jìn)行更新生成全新的FAM狀態(tài)。
更新后的FAM狀態(tài)會被傳遞到下一個塊,作為那里的額外上下文信息,從而實(shí)現(xiàn)跨塊的數(shù)據(jù)信息傳遞。
隨著模型逐塊處理整個序列,新的記憶狀態(tài)會包含越來越多跨塊的信息,從而形成一個全局的上下文理解,但對內(nèi)存、算力的需求幾乎沒有額外增加,同時又獲得了“記憶存儲”的泛化能力。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
