自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈

發(fā)布于 2024-8-9 16:42
瀏覽
0收藏

將語言模型不斷地?cái)U(kuò)大規(guī)模是可以提高它們的能力。而日常運(yùn)用的時(shí)候,通常將推理限制在一次。要是對(duì)于同一個(gè)問題進(jìn)行多次反復(fù)的采樣生成,那么是否能夠覆蓋正確的答案?是否能夠被準(zhǔn)確的撈出?


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

最近一項(xiàng)研究進(jìn)行如下的探索。整個(gè)過程如上圖所示,它分為兩個(gè)步驟,準(zhǔn)備一個(gè)問題,然后遵循重復(fù)采樣程序,通過具有正溫度(代表著回答多樣性)的LLM中采樣來為給定問題生成很多的K個(gè)候選解決方案。第二個(gè)步驟使用特定領(lǐng)域的驗(yàn)證器從生成的樣本中選擇最終答案。

<簡(jiǎn)單總結(jié)一下:可以多次生成,但是成本要低且要包含正確答案。在解決了第一個(gè)問題之后,還要解決從K個(gè)答案,例如10000個(gè)中挑出那個(gè)正確的。>

1.覆蓋率能上去

覆蓋率的定義為被解決問題的比例,被解決的問題至少要在K個(gè)答案中被解開一次。這項(xiàng)研究對(duì)SWE-bench Lite這個(gè)基準(zhǔn)進(jìn)行重復(fù)采樣回答,使用DeepSeek-V2-Coder-Instruct來解決問題具有15.9%的正確率,若僅僅生成一次的回答(樣本)。若讓其生成250次的回答,則覆蓋率飆升至56%。這個(gè)成績(jī)也遠(yuǎn)遠(yuǎn)強(qiáng)于前沿模型的單次回答43%正確率。

細(xì)心的讀者會(huì)提出抗議,會(huì)不會(huì)比較費(fèi)錢。其實(shí)按照當(dāng)前的API定價(jià),即便用調(diào)用5次的DeepSeek模型,也比GPT-4o或Claude 3.5 Sonnet的單次回答性價(jià)比更高且能夠解決更多的問題。<下面就是價(jià)格的對(duì)比圖!>


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


研究中發(fā)現(xiàn),覆蓋率和樣本數(shù)量之間的關(guān)系通常是對(duì)數(shù)線性的,可以用指數(shù)冪律來建模,這表明存在推理時(shí)間縮放定律。

在解決 GSM8K和MATH的數(shù)學(xué)單詞問題時(shí),Llama-3模型在10000次的樣本中對(duì)于正確答案的覆蓋率增長(zhǎng)到95%以上。 從樣本集合中選擇正確解決方案的常用方法(例如多數(shù)投票或獎(jiǎng)勵(lì)模型)在超過數(shù)百個(gè)樣本時(shí)會(huì)趨于穩(wěn)定。


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


在五項(xiàng)任務(wù)中,值得注意的是,使用重復(fù)采樣,能夠?qū)WE-bench Lite上的解決率從15.9%提高到56%。

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

本次的研究將評(píng)估限制在MATH和CodeContests數(shù)據(jù)集上,以最大限度地降低推理成本,測(cè)試中幾乎每個(gè)模型的覆蓋率都有所增加,當(dāng)應(yīng)用重復(fù)采樣時(shí),較小的模型顯示出最明顯的覆蓋率增加。

在CodeContests上,Gemma-2B的覆蓋率增加了300多倍,從pass@1<1代表1次抽樣>的0.02%增加到pass@10k<10k代表10000次抽樣>的7.1%。使用Pythia-160M解決MATH問題時(shí),覆蓋率從pass@1 的0.27%增加到pass@10k的57%。

這種跨模型覆蓋率增加模式的例外是在 CodeContests 上評(píng)估的 Pythia 系列則為例外,所有Pythia模型在這個(gè)數(shù)據(jù)集上的覆蓋率都為零,即便10,000個(gè)樣本也是如此。推測(cè)可能是因?yàn)镻ythia接受的特定的編碼數(shù)據(jù)比 Llama和Gemma少。


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


重復(fù)采樣可以放大較弱模型的功能,并超越來自較強(qiáng)模型的單個(gè)樣本。在這里還是需要證明這種放大比使用大規(guī)模的參數(shù)模型更具成本效益。上圖將之前抽樣次數(shù)的成本采用FLOP(視為成本指標(biāo))重新繪制了統(tǒng)計(jì)圖。

在MiniF2F、GSM8K和MATH的評(píng)估指標(biāo)上,當(dāng)FLOP預(yù)算固定時(shí),Llama-3-8B-Instruct總是比更大(且更昂貴)的70B模型獲得更高的覆蓋率。然而對(duì)于 CodeContests,70B模型幾乎總是更具成本效益!!

每次查詢折算的FLOP公式如下:

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


LLM的Loss與其訓(xùn)練計(jì)算算力之間的關(guān)系已通過??縮放定律<鏈接溫習(xí)!>??講解得很是清晰。這些定律在經(jīng)驗(yàn)上已經(jīng)被驗(yàn)證,并激發(fā)了模型開發(fā)人員的信心,相信只要投資大量的算力則能夠得到很棒的模型。

受到訓(xùn)練縮放定律的啟發(fā),旨在更好地描述覆蓋率和樣本預(yù)算(即多次推理的計(jì)算量)之間的關(guān)系,這里觀測(cè)到兩個(gè)很有意思的想象:

  • 覆蓋率和樣本數(shù)量之間的關(guān)系通??梢杂弥笖?shù)冪律建模。

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

  • 對(duì)于給定的任務(wù),來自同一家族的不同模型的覆蓋率曲線類似于具有相似斜率但不同水平偏移的 S 曲線

    三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

2.如何選擇對(duì)的

覆蓋率上去了,那么如何萬里挑一呢?研究發(fā)現(xiàn)在沒有自動(dòng)驗(yàn)證器的領(lǐng)域中,從許多代中識(shí)別出正確的樣本仍然是未來研究的重要方向。

既然已經(jīng)存在N個(gè)回答,如何挑選一個(gè)最為最后的答案,就像人生如何選擇一樣至關(guān)重要。第2階段關(guān)注的重點(diǎn)在于多次采樣中如何選擇出最佳答案,以便提高正確率。目前存在主流的三種方法:多數(shù)投票(Majority Voting),獎(jiǎng)勵(lì)模型選擇(Reward Model Selection),獎(jiǎng)勵(lì)模型多數(shù)投票(Reward Model Majority Voting)。

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

研究表明,隨著樣本數(shù)量的增加,前面三種組合式的選擇會(huì)隨著樣本數(shù)量的增加而增加,但在100個(gè)樣本左右達(dá)到飽和。而覆蓋率(圖4)會(huì)隨著樣本數(shù)量的增加而繼續(xù)增加,并超過95%。

<?。∽⒁?,覆蓋率意味著這么多的備選答案存在正確的,但是并不代表算法可以檢索出正確作為最后的答案?。?gt;

在多數(shù)投票的情況下,這種成功率飽和很容易解釋。隨著樣本數(shù)量的增加,分配給每個(gè)答案的投票比例會(huì)穩(wěn)定下來,因此成功率也會(huì)穩(wěn)定下來。對(duì)于某些GSM8K和MATH問題,正確解決方案的采樣概率為1%或更低,因此它們只是少數(shù)樣本。隨著樣本數(shù)量的增加,更多問題會(huì)出現(xiàn)罕見的正確解決方案,從而增加覆蓋率,但不會(huì)提高多數(shù)投票的成功率。

為了充分利用重復(fù)采樣的優(yōu)勢(shì),識(shí)別出正確解答一定要能夠解決這些“大海撈針”的場(chǎng)景,識(shí)別出稀有的正確樣本。在數(shù)學(xué)應(yīng)用題中,現(xiàn)有工具無法自動(dòng)驗(yàn)證答案,研究者發(fā)現(xiàn)覆蓋率與確定最終答案的方法選擇存在很大差距。

<即便抽樣了N次,還是要選擇一個(gè)不是?!>。

當(dāng)使用Llama-3-8B-Instruct解決數(shù)學(xué)問題時(shí),覆蓋率從100個(gè)樣本的79.8%增加到10,000個(gè)樣本的95.3%。然而,多數(shù)投票和使用獎(jiǎng)勵(lì)模型來選擇最終解答的方法在樣本預(yù)算較低的情況下趨于飽和,在同一范圍內(nèi)僅從38.7%擴(kuò)展到39.8%。

<即便有了正確答案,還是選不中???>。

這些結(jié)果表明構(gòu)建強(qiáng)大的驗(yàn)證器仍然是一個(gè)懸而未決的問題。

本文轉(zhuǎn)載自??魯班模錘??,作者: 龐德公 ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦