厲害了！大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)

發(fā)布于 2025-5-9 06:02

瀏覽

0收藏

今日分享一篇羅格斯大學(xué)團(tuán)隊(duì)發(fā)現(xiàn)了大語(yǔ)言模型注意力機(jī)制的查詢(Q)和鍵(K)表示中存在非常集中的大值，并探討了這些極大值的應(yīng)用以及來(lái)源,該研究已經(jīng)被機(jī)器學(xué)習(xí)三大頂會(huì)之一ICML收錄.。

厲害了！大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)-AI.x社區(qū)

這項(xiàng)研究揭示了大型語(yǔ)言模型中一個(gè)重要現(xiàn)象：在注意力機(jī)制的查詢(Q)和鍵(K)表示中存在集中的大值，而在值(V)表示中卻沒(méi)有這種模式。這一現(xiàn)象在使用旋轉(zhuǎn)位置編碼(RoPE)的現(xiàn)代Transformer模型中普遍存在。??

厲害了！大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)-AI.x社區(qū)

四大核心發(fā)現(xiàn)

1. 極大值在Q和K中的特定區(qū)域高度集中：研究發(fā)現(xiàn)這些大值在每個(gè)注意力頭的相似位置上聚集，LLM內(nèi)部每個(gè)head運(yùn)算是獨(dú)立的，但是現(xiàn)在卻很集中，非常反常識(shí)。這一現(xiàn)象在沒(méi)有使用RoPE的模型(如GPT-2和OPT)中不存在。

2. Q和K中的大值對(duì)理解上下文知識(shí)至關(guān)重要：這些大值主要影響模型處理當(dāng)前上下文窗口中的信息的能力，而非從參數(shù)中提取的知識(shí)。破壞這些大值會(huì)顯著降低模型在需要上下文理解的任務(wù)上（比如大海撈針）的表現(xiàn)。但是對(duì)于只需要記憶的任務(wù)（中國(guó)首都是哪里），破壞極大值缺不會(huì)有什么影響

3. 破壞極大值缺不會(huì)有什么影響針對(duì)大值的量化技術(shù)能更好地保存上下文知識(shí)：實(shí)驗(yàn)表明，如AWQ和SmoothQuant等專門處理大值的量化方法能有效維持模型的上下文理解能力，而未特別處理大值的方法則會(huì)導(dǎo)致性能明顯下降。

4. 極大值集中現(xiàn)象由RoPE引起，并在早期層就已出現(xiàn)：分析表明，這一現(xiàn)象源于RoPE機(jī)制，它使Q和K中的低頻區(qū)域受位置信息影響較小，大值集中現(xiàn)象從最初的層就開(kāi)始顯現(xiàn)。因?yàn)镽ope只作用于QK，所以也只有QK有集中地極大值??

研究意義這項(xiàng)研究深入剖析了LLM內(nèi)部機(jī)制，特別是注意力模塊中Q和K組件的獨(dú)特結(jié)構(gòu)特性。通過(guò)揭示大值在處理上下文知識(shí)中的關(guān)鍵作用，為模型設(shè)計(jì)和優(yōu)化提供了實(shí)用見(jiàn)解，尤其是在量化策略方面。

該研究代碼已在GitHub上開(kāi)源:https://github.com/MingyuJ666/Rope_with_LLM

Arxiv Link: https://arxiv.org/pdf/2502.01563

實(shí)驗(yàn)：

研究結(jié)果顯示，大值對(duì)不同類型的知識(shí)任務(wù)有截然不同的影響：

1.參數(shù)知識(shí)檢索任務(wù)的韌性

當(dāng)大值被破壞時(shí)，城市類任務(wù)仍然保持76%-88%的準(zhǔn)確率，僅下降15-20%
體育、藝術(shù)和技術(shù)類別任務(wù)保持在65%-75%的表現(xiàn)
名人類別表現(xiàn)尤其穩(wěn)定，各模型均保持70%以上的準(zhǔn)確率

2.上下文知識(shí)理解任務(wù)的崩潰

數(shù)學(xué)推理任務(wù)出現(xiàn)災(zāi)難性下降：

GSM8K: 從81.30%降至15.10%

Llama3-8B: 從76.90%降至4.00%

Qwen2.5-7B: 從86.60%降至16.10%

密鑰檢索任務(wù)(Passkey Retrieval)準(zhǔn)確率從100%直接崩潰至接近0%
IMDB情感分析從94%以上下降至個(gè)位數(shù)

3. 非大值破壞的對(duì)照實(shí)驗(yàn)

當(dāng)僅破壞非大值部分時(shí)，所有任務(wù)的表現(xiàn)保持穩(wěn)定，變化通常小于±1%
這一對(duì)比凸顯了大值在上下文知識(shí)理解中的關(guān)鍵作用

三種量化方法的比較分析

研究者評(píng)估了三種廣泛使用的量化方法：

AWQ (Lin et al., 2024)

通過(guò)在量化過(guò)程中選擇性地保護(hù)"重要"權(quán)重來(lái)維持大值

在所有任務(wù)上保持較強(qiáng)的性能表現(xiàn)

SmoothQuant (Xiao et al., 2023)
使用平滑因子(S)通過(guò)數(shù)學(xué)等價(jià)變換重新分配激活中的大值
同樣在各類任務(wù)中表現(xiàn)良好
GPTQ (Frantar et al., 2022)

不特別保護(hù)大值的量化方法

在上下文知識(shí)理解任務(wù)上表現(xiàn)顯著下降

厲害了！大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果揭示的關(guān)鍵模式

圖清晰展示了這三種方法在不同基準(zhǔn)測(cè)試上的表現(xiàn)差異：

參數(shù)知識(shí)檢索任務(wù)（城市、體育、名人）：

所有量化方法都能保持良好表現(xiàn)

GPTQ雖然不保護(hù)大值，但在這些任務(wù)上表現(xiàn)幾乎與其他方法相當(dāng)

上下文知識(shí)理解任務(wù)（GSM8K和AQUA）：

AWQ和SmoothQuant保持接近原始性能的高準(zhǔn)確率

GPTQ表現(xiàn)顯著下降，準(zhǔn)確率降至約75%（歸一化后）

這一差異特別有啟發(fā)性，它明確表明：保護(hù)大值是維持上下文理解能力的關(guān)鍵

研究意義與應(yīng)用價(jià)值

這些結(jié)果為研究者提出的假設(shè)提供了額外的實(shí)證支持：大值在大型語(yǔ)言模型的上下文知識(shí)理解能力中扮演著至關(guān)重要的角色。對(duì)于實(shí)際應(yīng)用，這些發(fā)現(xiàn)具有以下意義：

量化策略優(yōu)化指導(dǎo)：

設(shè)計(jì)新的量化方法時(shí)應(yīng)重點(diǎn)考慮保護(hù)Q和K中的大值

對(duì)于優(yōu)先保持上下文理解能力的應(yīng)用場(chǎng)景，AWQ和SmoothQuant等方法更為合適

模型能力與壓縮的權(quán)衡：

明確了在模型壓縮過(guò)程中應(yīng)當(dāng)保留的關(guān)鍵結(jié)構(gòu)

為開(kāi)發(fā)更高效的模型壓縮技術(shù)提供了理論基礎(chǔ)

這部分研究不僅驗(yàn)證了大值在模型行為中的重要性，也為優(yōu)化大型語(yǔ)言模型的量化策略提供了具體指導(dǎo)，具有顯著的實(shí)用價(jià)值。通過(guò)保護(hù)這些關(guān)鍵的大值，可以在顯著降低模型大小和計(jì)算需求的同時(shí)，保持模型處理上下文信息的核心能力。

厲害了！大模型自注意力模塊關(guān)鍵發(fā)現(xiàn)-AI.x社區(qū) 圖片