自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)

發(fā)布于 2024-4-8 09:46
瀏覽
0收藏

OpenAI的秘密武器、ChatGPT背后功臣RLHF,被開(kāi)源了。


來(lái)自Hugging Face、加拿大蒙特利爾Mila研究所、網(wǎng)易伏羲AI Lab的研究人員從零開(kāi)始復(fù)現(xiàn)了OpenAI的RLHF pipeline,羅列了25個(gè)關(guān)鍵實(shí)施細(xì)節(jié)


最終成功展示了隨著模型大小的增加,響應(yīng)質(zhì)量顯著提升的scaling行為,其中2.8B、6.9B的Pythia模型在性能上超過(guò)了OpenAI發(fā)布的1.3B checkpoint。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

沒(méi)有寫(xiě)在論文中,但被作者在推文中po出來(lái)的,還有一個(gè)初步的Pythia 1.4B實(shí)驗(yàn),根據(jù)GPT-4的數(shù)據(jù)顯示,這個(gè)1.4B模型非常接近OpenAI的1.3B性能(由于GPT4成本過(guò)高,只進(jìn)行了一次評(píng)估)。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

研究人員表示,他們的這一“配方”的獨(dú)特之處在于對(duì)SFT、RM和PPO使用了單一的學(xué)習(xí)率,所以再重現(xiàn)他們的工作會(huì)變得更加簡(jiǎn)單。


作者已公開(kāi)發(fā)布了訓(xùn)練好的模型checkpoint和代碼。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

順便一提,Huggingface最近上了一把新聞,抱抱臉現(xiàn)在是正式譯名了

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

寫(xiě)在前頭

大語(yǔ)言模型的功能實(shí)質(zhì)上就是在玩“詞語(yǔ)接龍”——以給定的前面的token,預(yù)測(cè)下一個(gè)token。


為了讓輸出的下一個(gè)token符合人類(lèi)意愿,人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)這一方法理念逐漸被引入pipeline,用于收集成對(duì)的人類(lèi)偏好,訓(xùn)練獎(jiǎng)勵(lì)模型(RM)來(lái)對(duì)這些偏好進(jìn)行建模,并使用強(qiáng)化學(xué)習(xí)(RL)創(chuàng)建一個(gè)模型來(lái)輸出人類(lèi)喜歡的內(nèi)容。


OpenAI對(duì)RLHF的探索一直走在前頭。


在2020年“Learning to summarize from human feedback”這項(xiàng)工作中,OpenAI研究員將RLHF應(yīng)用到了捕捉原始文本主要信息和意圖的摘要任務(wù)中。


這種人類(lèi)反饋訓(xùn)練的模型在英文摘要任務(wù)上顯著優(yōu)于人類(lèi)參考摘要和僅使用監(jiān)督學(xué)習(xí)的更大模型。且具有較強(qiáng)的泛化能力,在沒(méi)有特定領(lǐng)域微調(diào)的情況下,也能生成高質(zhì)量的文章摘要,接近人類(lèi)參考摘要的質(zhì)量。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

在2022年“Training language models to follow instructions with human feedback”這項(xiàng)工作中,RLHF再次被使用,為指令遵循任務(wù)而專(zhuān)門(mén)設(shè)計(jì)的InstructGPT誕生。


這也是GPT-3到ChatGPT的過(guò)渡論文。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

InstructGPT的結(jié)構(gòu)和訓(xùn)練技術(shù)與ChatGPT大差不差,所以也被稱(chēng)為是ChatGPT的兄弟模型。而此后OpenAI并未放出ChatGPT論文,所以有不少學(xué)者從InstructGPT出發(fā)探索ChatGPT的內(nèi)核。


其中秘密武器RLHF,開(kāi)源界圍繞著它做了不少工作,不過(guò)想要重現(xiàn)OpenAI的RLHF pipeline很是困難。


主要有這么幾個(gè)原因:

  • RL和RLHF有許多微妙的實(shí)現(xiàn)細(xì)節(jié),這些細(xì)節(jié)對(duì)訓(xùn)練穩(wěn)定性有很大影響;
  • 對(duì)于指令遵循任務(wù),如評(píng)估一個(gè)編碼任務(wù)中生成的800行代碼片段的質(zhì)量,評(píng)估模型的表現(xiàn)不太行;
  • 模型需要長(zhǎng)時(shí)間的訓(xùn)練和迭代。

考慮到以上原因,加之總結(jié)任務(wù)比一般的指令任務(wù)更容易評(píng)估,所以Hugging Face最新的這項(xiàng)工作選擇退后一步,從OpenAI早期的RLHF工作(也就是上面第一篇論文的摘要任務(wù))中,探尋OpenAI的RLHF的真面目。

25個(gè)細(xì)節(jié)深度復(fù)現(xiàn)

RLHF通常包括以下三個(gè)步驟。


步驟1:訓(xùn)練SFT(監(jiān)督微調(diào))策略?

?

使用下一個(gè)詞預(yù)測(cè)損失對(duì)預(yù)訓(xùn)練的LLM進(jìn)行微調(diào),這些微調(diào)數(shù)據(jù)基于人類(lèi)示范。


在這項(xiàng)復(fù)現(xiàn)工作中,人類(lèi)示范數(shù)據(jù)與OpenAI的工作保持一致,選自過(guò)濾后的Reddit TL;DR(Too Long; Didn’t Read)數(shù)據(jù)集(當(dāng)時(shí)OpenAI還Open了他們的人類(lèi)反饋數(shù)據(jù)集)。


步驟2:收集偏好對(duì)并訓(xùn)練RM(獎(jiǎng)勵(lì)模型)


使用SFT策略等采樣不同完成序列,讓人類(lèi)標(biāo)注員指出他們較偏好的序列。


基于這些偏好數(shù)據(jù),通過(guò)在SFT策略上添加一個(gè)隨機(jī)初始化的線性頭來(lái)初始化RM,并優(yōu)化交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,目標(biāo)是預(yù)測(cè)人類(lèi)標(biāo)注員更傾向于接受哪種完成序列。


步驟3:針對(duì)RM訓(xùn)練RL(強(qiáng)化學(xué)習(xí))策略

?

從SFT策略初始化,RL策略根據(jù)RM對(duì)采樣的完成序列給出獎(jiǎng)勵(lì)分?jǐn)?shù),同時(shí)加上一個(gè)KL懲罰項(xiàng)以防止過(guò)度偏離SFT策略。然后使用PPO算法最大化這個(gè)RLHF目標(biāo)函數(shù)。


研究人員針從數(shù)據(jù)集到SFT、RM、OPP,共介紹了25個(gè)復(fù)現(xiàn)細(xì)節(jié),深入分析了TL;DR數(shù)據(jù)集的規(guī)格、分詞過(guò)程和分詞長(zhǎng)度分布。同時(shí),詳細(xì)描述了SFT和RM組件的訓(xùn)練設(shè)置、實(shí)施細(xì)節(jié)和結(jié)果。


感興趣的家人們可以劃到最后查看論文,這里羅列了作者認(rèn)為有趣的細(xì)節(jié)。


數(shù)據(jù)預(yù)處理階段:

?

對(duì)于RLHF的提示查詢,OpenAI在最后一段進(jìn)行截?cái)?,而不是使用硬性的截?cái)嘞拗?;同時(shí)確?!癟L;DR:”之后沒(méi)有多余的空格。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

始終在reference completions前加上前導(dǎo)空格,在reference completions后添加`<|endoftext|>`,并使用單獨(dú)的[PAD] token填充。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

SFT和偏好數(shù)據(jù)集的tokenization length不同,因此在SFT和RM訓(xùn)練期間分別設(shè)置最大token長(zhǎng)度時(shí)需要注意。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

RM的驗(yàn)證集非常有趣,因?yàn)樗嗒?dú)特的策略對(duì)進(jìn)行比較,所以它有很多超出分布的數(shù)據(jù)。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

SFT階段:

?

SFT階段沒(méi)有太多的實(shí)現(xiàn)細(xì)節(jié),只需要標(biāo)準(zhǔn)的下一個(gè)token預(yù)測(cè)損失就可以了。除了使用了不同的學(xué)習(xí)率之外,研究人員的設(shè)置幾乎與原始設(shè)置相同。

損失下降,ROUGE分?jǐn)?shù)在4個(gè)隨機(jī)種子和3個(gè)模型checkpoint大小上都有所提高。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

RM訓(xùn)練:

?

RM訓(xùn)練更有趣。例如,研究人員發(fā)現(xiàn)RM只在EOS token處提取獎(jiǎng)勵(lì)。此外,在檢查獎(jiǎng)勵(lì)的logits時(shí),除了EOS token外,幾乎所有的logits都是負(fù)數(shù)。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

結(jié)果非常不錯(cuò),驗(yàn)證準(zhǔn)確率提高了,RM幾乎完美地轉(zhuǎn)移到了偏好數(shù)據(jù)集驗(yàn)證集中的CNN/DM子集上。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

他們計(jì)算了SFT demonstration的平均獎(jiǎng)勵(lì)——標(biāo)量值看起來(lái)有些隨意;還計(jì)算了OpenAI偏好數(shù)據(jù)集中每個(gè)批號(hào)和置信度的驗(yàn)證準(zhǔn)確率。


值得注意的是,不同的批次/置信度可能會(huì)有截然不同的準(zhǔn)確率。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

研究人員也測(cè)量了RM與GPT3.5和RM的一致性率(agreement rate),并發(fā)現(xiàn)一致性率有所提高,但在6.9B級(jí)別時(shí)有所減弱。


并繪制了AnthropicAI所做的RM校準(zhǔn),發(fā)現(xiàn)RM通常校準(zhǔn)不足。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

研究人員將驗(yàn)證準(zhǔn)確率與DPO的隱式RM進(jìn)行了比較,發(fā)現(xiàn)出于某種原因DPO的驗(yàn)證準(zhǔn)確率較低。


幾個(gè)不同點(diǎn):

  • RM訓(xùn)練只在EOS token處應(yīng)用損失,而DPO在每個(gè)完成token處應(yīng)用損失。
  • DPO還有一個(gè)可能影響訓(xùn)練的$beta參數(shù),RM則沒(méi)有。
  • 研究員Michael Noukhovitch提出了個(gè)有說(shuō)服力的觀點(diǎn):DPO的目標(biāo)可能更難優(yōu)化,因?yàn)槟阈枰鼓愕膌ogprobs與基本模型有足夠大的不同才能更改獎(jiǎng)勵(lì),而RM可以學(xué)習(xí)一個(gè)線性頭,可以更容易/更快地改變獎(jiǎng)勵(lì)的值。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

PPO訓(xùn)練:

?

有趣的是,學(xué)習(xí)值函數(shù)的行為與RM截然不同。例如,值函數(shù)logits通常更為正,因?yàn)樵诿總€(gè)時(shí)間步長(zhǎng),它都試圖對(duì)最終分?jǐn)?shù)進(jìn)行建模。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

PPO也使用了EOS技巧。在PPO訓(xùn)練中,研究人員通常采樣固定數(shù)量的token,比如48個(gè)。如果完成不以EOS token結(jié)束怎么辦?前面已經(jīng)提到了,非EOS token的logits幾乎總是負(fù)的(并且可能無(wú)效)。


EOS技巧基本上用恒定的-1獎(jiǎng)勵(lì)取代了不以EOS token結(jié)尾的完成的獎(jiǎng)勵(lì)。有幾個(gè)目的:

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

研究人員還嘗試了PPO的獎(jiǎng)勵(lì)白化處理,并發(fā)現(xiàn)這樣使得與參考摘要的勝率略有降低,以及完成token的長(zhǎng)度略微縮短。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

長(zhǎng)度在這里是一個(gè)混雜因素,所以研究人員引導(dǎo)了OpenAI進(jìn)行的長(zhǎng)度控制分析,通過(guò)將x軸設(shè)置為模型摘要長(zhǎng)度與參考摘要長(zhǎng)度之比的對(duì)數(shù)來(lái)執(zhí)行。


當(dāng)長(zhǎng)度得到控制時(shí),研究人員發(fā)現(xiàn)比較獎(jiǎng)勵(lì)白化的結(jié)果更具挑戰(zhàn)性,但盡管如此,在每個(gè)摘要長(zhǎng)度上,PPO模型幾乎總是優(yōu)于SFT模型。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

PPO 的訓(xùn)練曲線如下所示。值得注意的是,幾個(gè)1B型號(hào)的KL值爆炸了。從優(yōu)化的角度來(lái)看,這并沒(méi)有什么問(wèn)題,因?yàn)镽LHF獎(jiǎng)勵(lì)一直在上升,這些1B模型對(duì)應(yīng)于“獎(jiǎng)勵(lì)黑客”/過(guò)度優(yōu)化的模型。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

為了更好地理解模型的行為,研究人員還可視化突出顯示了經(jīng)過(guò)微調(diào)的模型在生成文本時(shí)總會(huì)以一個(gè)EOS token結(jié)束。為了進(jìn)一步探索這一點(diǎn),原論文附錄部分提供了更多類(lèi)似的可視化效果。

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)-AI.x社區(qū)

論文鏈接:??https://arxiv.org/abs/2403.17031??


GitHub鏈接:
[1]https://github.com/vwxyzjn/summarize_from_feedback_details
[2]https://github.com/vwxyzjn/summarize_from_feedback_details/blob/main/visualize_tokens.py
參考鏈接:https://x.com/vwxyzjn/status/1773011925666050313?s=20


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/g0DoFNH8JD70DW7CEiZ-GQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦