英偉達(dá)新研究:上下文長(zhǎng)度虛標(biāo)嚴(yán)重,32K性能合格的都不多
無(wú)情戳穿“長(zhǎng)上下文”大模型的虛標(biāo)現(xiàn)象——
英偉達(dá)新研究發(fā)現(xiàn),包括GPT-4在內(nèi)的10個(gè)大模型,生成達(dá)到128k甚至1M上下文長(zhǎng)度的都有。
但一番考驗(yàn)下來(lái),在新指標(biāo)“有效上下文”上縮水嚴(yán)重,能達(dá)到32K的都不多。
新基準(zhǔn)名為RULER,包含檢索、多跳追蹤、聚合、問(wèn)答四大類共13項(xiàng)任務(wù)。RULER定義了“有效上下文長(zhǎng)度”,即模型能保持與Llama-7B基線在4K長(zhǎng)度下同等性能的最大長(zhǎng)度。
這項(xiàng)研究被學(xué)者評(píng)價(jià)為“非常有洞察力”。
不少網(wǎng)友看到這項(xiàng)新研究后,也非常想看到上下文長(zhǎng)度王者玩家Claude和Gemini的挑戰(zhàn)結(jié)果。(論文中并未覆蓋)
一起來(lái)看英偉達(dá)是如何定義“有效上下文”指標(biāo)的。
測(cè)試任務(wù)更多、更難
要評(píng)測(cè)大模型的長(zhǎng)文本理解能力,得先選個(gè)好標(biāo)準(zhǔn),現(xiàn)圈內(nèi)流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么僅評(píng)估了模型檢索能力,要么受限于先驗(yàn)知識(shí)的干擾。
所以英偉達(dá)剔除的RULER方法,一句話概括就是“確保評(píng)估側(cè)重于模型處理和理解長(zhǎng)上下文的能力,而不是從訓(xùn)練數(shù)據(jù)中回憶信息的能力”。
RULER的評(píng)測(cè)數(shù)據(jù)減少了對(duì)“參數(shù)化知識(shí)”的依賴,也就是大模型在訓(xùn)練過(guò)程中已經(jīng)編碼到自身參數(shù)里的知識(shí)。
具體來(lái)說(shuō),RULER基準(zhǔn)擴(kuò)展了流行的“大海撈針”測(cè)試,新增四大類任務(wù)。
檢索方面,從大海撈針標(biāo)準(zhǔn)的單針檢索任務(wù)出發(fā),又加入了如下新類型:
- 多針檢索(Multi-keys NIAH, MK-NIAH):上下文中插入多個(gè)干擾針,模型需檢索指定的那一個(gè)
- 多值檢索(Multi-values NIAH, MV-NIAH):一個(gè)鍵(key)對(duì)應(yīng)多個(gè)值(values),模型需要檢索出與特定鍵關(guān)聯(lián)的所有值。
- 多查詢檢索(Multi-queries NIAH, MQ-NIAH):模型需根據(jù)多個(gè)查詢?cè)谖谋局袡z索出相應(yīng)的多個(gè)針。
除了升級(jí)版檢索,RULER還增加了多跳追蹤(Multi-hop Tracing)挑戰(zhàn)。
具體來(lái)說(shuō),研究人員提出了變量追蹤(VT),模擬了指代消解(coreference resolution)的最小任務(wù),要求模型追蹤文本中變量的賦值鏈,即使這些賦值在文本中是非連續(xù)的。
挑戰(zhàn)第三關(guān)是聚合(Aggregation),包括:
- 常見(jiàn)詞匯提取(Common Words Extraction, CWE):模型需要從文本中提取出現(xiàn)次數(shù)最多的常見(jiàn)詞匯。
- 頻繁詞匯提取(Frequent Words Extraction, FWE):與CWE類似,但是詞匯的出現(xiàn)頻率是根據(jù)其在詞匯表中的排名和Zeta分布參數(shù)α來(lái)確定的。
挑戰(zhàn)第四關(guān)是問(wèn)答任務(wù)(QA),在現(xiàn)有閱讀理解數(shù)據(jù)集(如SQuAD)的基礎(chǔ)上,插入大量干擾段落,考查長(zhǎng)序列QA能力。
各模型上下文實(shí)際有多長(zhǎng)?
實(shí)驗(yàn)階段,如開(kāi)頭所述,研究人員評(píng)測(cè)了10個(gè)聲稱支持長(zhǎng)上下文的語(yǔ)言模型,包括GPT-4,以及9個(gè)開(kāi)源模型開(kāi)源模型Command-R、Yi-34B、Mixtral(8x7B)、Mixtral(7B)、ChatGLM、LWM、Together、LongChat、LongAlpaca。
這些模型參數(shù)規(guī)模范圍從6B到采用MoE架構(gòu)的8x7B不等,最大上下文長(zhǎng)度從32K到1M不等。
在RULER基準(zhǔn)測(cè)試中,對(duì)每個(gè)模型評(píng)測(cè)了13個(gè)不同的任務(wù),覆蓋4個(gè)任務(wù)類別,難度簡(jiǎn)單到復(fù)雜的都有。對(duì)每項(xiàng)任務(wù),生成500個(gè)測(cè)試樣例,輸入長(zhǎng)度從4K-128K共6個(gè)等級(jí)(4K、8K、16K、32K、64K、128K)。
為了防止模型拒絕回答問(wèn)題,輸入被附加了answer prefix,并基于recall-based準(zhǔn)確性來(lái)檢查目標(biāo)輸出的存在。
研究人員還定義了“有效上下文長(zhǎng)度”指標(biāo),即模型在該長(zhǎng)度下能保持與基線Llama-7B在4K長(zhǎng)度時(shí)的同等性能水平。
為了更細(xì)致的模型比較,使用了加權(quán)平均分?jǐn)?shù)(Weighted Average, wAvg)作為綜合指標(biāo),對(duì)不同長(zhǎng)度下的性能進(jìn)行加權(quán)平均。采用了兩種加權(quán)方案:
- wAvg(inc):權(quán)重隨長(zhǎng)度線性增加,模擬以長(zhǎng)序列為主的應(yīng)用場(chǎng)景
- wAvg(dec):權(quán)重隨長(zhǎng)度線性減小,模擬以短序列為主的場(chǎng)景
來(lái)看結(jié)果。
普通大海撈針和密碼檢索測(cè)試看不出差距,幾乎所有模型在其聲稱的上下文長(zhǎng)度范圍內(nèi)均取得滿分。
而使用RULER,盡管很多模型聲稱能夠處理32K token或更長(zhǎng)的上下文,但除了Mixtral外,沒(méi)有模型在其聲稱的長(zhǎng)度上保持超過(guò)Llama2-7B基線的性能。
其他結(jié)果如下,總的來(lái)說(shuō),GPT-4在4K長(zhǎng)度下表現(xiàn)最佳,并且在上下文擴(kuò)展到128K時(shí)顯示出最小的性能下降(15.4%)。
開(kāi)源模型中排名前三的是Command-R、Yi-34B和Mixtral,它們都使用了較大的基頻RoPE,并且比其它模型具有更多的參數(shù)。
此外,研究人員還對(duì)Yi-34B-200K模型在增加輸入長(zhǎng)度(高達(dá)256K)和更復(fù)雜任務(wù)上的表現(xiàn)進(jìn)行了深入分析,以理解任務(wù)配置和失敗模式對(duì)RULER的影響。
他們還分析了訓(xùn)練上下文長(zhǎng)度、模型大小和架構(gòu)對(duì)模型性能的影響,發(fā)現(xiàn)更大的上下文訓(xùn)練通常會(huì)帶來(lái)更好的性能,但對(duì)長(zhǎng)序列的排名可能不一致;模型大小的增加對(duì)長(zhǎng)上下文建模有顯著好處;非Transformer架構(gòu)(如RWKV和Mamba)在RULER上的表現(xiàn)顯著落后于基于Transformer的Llama2-7B。
更多細(xì)節(jié),感興趣的家銀們可以查看原論文。
論文鏈接:https://arxiv.org/abs/2404.06654