自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<del id="4mb0b"><b id="4mb0b"></b></del>

<nobr id="4mb0b"><listing id="4mb0b"></listing></nobr>

<style id="4mb0b"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

ICML 2024｜Transformer究竟如何推理？基于樣例還是基于規(guī)則

輕薄滴假象

發(fā)布于 2024-7-1 09:08

瀏覽

0收藏

文章第一作者為來自北京大學(xué)物理學(xué)院、即將加入人工智能研究院讀博的胡逸。胡逸的導(dǎo)師為北京大學(xué)人工智能研究院助理教授、北京通用人工智能研究院研究員張牧涵，主要研究方向?yàn)閳D機(jī)器學(xué)習(xí)和大模型的推理和微調(diào)。

ICML 2024｜Transformer究竟如何推理？基于樣例還是基于規(guī)則-AI.x社區(qū)

論文地址：https://arxiv.org/abs/2402.17709
項(xiàng)目主頁(yè)：https://github.com/GraphPKU/Case_or_Rule
論文標(biāo)題：Case-Based or Rule-Based: How Do Transformers Do the Math??

Case-based or rule-based?

盡管如 ChatGPT 這樣的大語(yǔ)言模型（Large Language Models, LLMs）已經(jīng)在各種復(fù)雜任務(wù)中展現(xiàn)出令人驚艷的性能，它們?cè)谔幚硪恍?duì)人類來說十分簡(jiǎn)單的數(shù)學(xué)推理問題時(shí)仍會(huì)面臨困難，例如長(zhǎng)整數(shù)加法。

人類可以輕松地學(xué)習(xí)加法的基本規(guī)則，例如豎式加法，并將其應(yīng)用于任意長(zhǎng)度的新的加法問題，但 LLMs 卻難以做到這一點(diǎn)。相反，它們可能會(huì)依賴于訓(xùn)練語(yǔ)料庫(kù)中見過的相似樣例來幫助解決問題。來自北京大學(xué)張牧涵團(tuán)隊(duì)的 ICML 2024 論文深刻研究了這一現(xiàn)象。研究者們將這兩種不同的推理機(jī)制定義為 “基于規(guī)則的推理”（rule-based reasoning）和 “基于樣例的推理”（case-based reasoning）。圖 1 展現(xiàn)了兩種推理機(jī)制在遇到同一個(gè)加法問題時(shí)，采用的不同模式。

ICML 2024｜Transformer究竟如何推理？基于樣例還是基于規(guī)則-AI.x社區(qū)

圖 1：case-based reasoning 與 rule-based reasoning 示意圖

由于 rule-based reasoning 對(duì)于獲得系統(tǒng)性的泛化能力 (systematic generalization) 至關(guān)重要，作者在文章中探討了 transformers 在數(shù)學(xué)問題（例如 ""）中到底是使用何種推理機(jī)制。為了測(cè)試模型是否依賴特定樣例來解決問題，作者使用了 Leave-Square-Out 方法。主要思想是首先需要定位模型可能依賴的訓(xùn)練集中的樣例，然后將它們從訓(xùn)練集中移除，以觀察它們是否影響模型的測(cè)試性能。對(duì)于數(shù)學(xué)推理，作者的假設(shè)是，在解決某個(gè)測(cè)試樣本時(shí)，transformers 傾向于依賴與測(cè)試樣本 “接近” 的訓(xùn)練樣本來進(jìn)行推理。因此，作者在樣本的二維空間中挖掉了一塊正方形作為測(cè)試集（test square）。根據(jù)假設(shè)，若模型在做 case-based reasoning，且模型依賴的是與 test sample 距離較近的 training sample 來做推理，那么模型將無法答對(duì)正方形中心附近的 test samples，因?yàn)槟Ｐ驮谟?xùn)練集中沒有見過接近的樣例。

ICML 2024｜Transformer究竟如何推理？基于樣例還是基于規(guī)則-AI.x社區(qū)

圖 2：GPT-2 在加法、模加法、九進(jìn)制加法、線性回歸上利用 Leave-Square-Out 方法進(jìn)行 fine-tune 后在全數(shù)據(jù)集上的正確率。其中，紅框中的方形區(qū)域?yàn)闇y(cè)試集，其他部分為訓(xùn)練集合。

通過在五個(gè)數(shù)學(xué)任務(wù)（包括加法、模加法、九進(jìn)制加法、線性回歸以及雞兔同籠問題）的干預(yù)實(shí)驗(yàn)，transformers 無一例外都表現(xiàn)出了 case-based reasoning 的行為。作者利用 Leave-Square-Out 方法對(duì) GPT-2 進(jìn)行了 fine-tune，具體的模型表現(xiàn)展示于圖 2?？梢姡瑴y(cè)試集內(nèi)，模型的性能由邊界到中心迅速下降，出現(xiàn)了 holes。這說明當(dāng)我們把 holes 周圍的 similar cases 移出訓(xùn)練集時(shí)，模型便無法做對(duì) holes 中的 test samples 做出準(zhǔn)確推理。也即展現(xiàn)出模型依賴 similar cases 進(jìn)行推理的行為。為了確保結(jié)論的公平性，作者同時(shí)利用 random split 方法對(duì)數(shù)據(jù)集進(jìn)行了訓(xùn)練集 / 測(cè)試集的劃分，并觀察到 random split 下模型可輕易在測(cè)試集上達(dá)到接近 100% 的準(zhǔn)確率，說明 Leave-Square-Out 實(shí)驗(yàn)中的訓(xùn)練樣例數(shù)是足夠模型完成推理的，且再次側(cè)面印證了 transformers 在做基于樣例的推理（因?yàn)?random split 下所有 test samples 都有接近的 training samples）。

Scratchpad 是否會(huì)改變模型推理行為？

ICML 2024｜Transformer究竟如何推理？基于樣例還是基于規(guī)則-AI.x社區(qū)

圖 3：利用 scratchpad 對(duì) GPT-2 在加法任務(wù)上進(jìn)行 fine-tune 后的模型在 test square 中的準(zhǔn)確率。

此外，作者探討了是否可以通過加入 scratchpad，即引導(dǎo)模型在輸出中一位一位地做加法來消除 case-based reasoning 的行為，使模型轉(zhuǎn)向 rule-based reasoning（scratchpad 的具體方法可見圖 4）。圖 3 展示了利用 scratchpad 對(duì) GPT-2 在加法任務(wù)上進(jìn)行 fine-tune 后的模型在 test square 中的準(zhǔn)確率。

一方面，可發(fā)現(xiàn) test square 中仍然有一部分模型無法做對(duì)的區(qū)域，表現(xiàn)出模型仍然在做 case-based reasoning；另一方面，與不加入 scratchpad 時(shí)模型在 test square 中出現(xiàn)整塊連續(xù)的 hole 的現(xiàn)象相比，模型在使用 scratchpad 時(shí)對(duì)于訓(xùn)練樣例的依賴情況顯然發(fā)生了變化。

具體而言，test square 中無法做對(duì)的區(qū)域呈現(xiàn)為三角形，其斜邊沿著個(gè)位和十位的 “進(jìn)位邊界”。例如，圖 3 中自左向右第 2 張圖（test square 邊長(zhǎng)）有兩個(gè)三角形區(qū)域，模型的準(zhǔn)確率幾乎為零。小三角形表示，模型無法解決如47+48的問題，因?yàn)橛?xùn)練集中沒有包含十位上進(jìn)位的步驟（所有四十幾 + 四十幾的樣例都在測(cè)試集中）。而對(duì)于不涉及十位進(jìn)位的測(cè)試樣本，如42+43 ，模型則能夠成功，因?yàn)樗梢詮拇罅科渌?xùn)練數(shù)據(jù)中學(xué)習(xí)到 4+4這個(gè)中間步驟（例如）。對(duì)于大三角形中的數(shù)據(jù)而言，模型無法解決例如57+58這樣的問題，因?yàn)橛?xùn)練集中沒有包含十位上需要進(jìn)位到百位的案例。

這些黑色區(qū)域的形狀和位置表明，只有當(dāng)測(cè)試案例的每一步在訓(xùn)練集中都出現(xiàn)過時(shí)，模型才能夠成功；否則就會(huì)失敗。更重要的是，這一現(xiàn)象表明，即使有 step-by-step 的推理過程的幫助，transformers 也難以學(xué)會(huì) rule-based reasoning —— 模型仍然在機(jī)械地記憶見過的單個(gè)步驟，而沒有學(xué)會(huì)背后的規(guī)則。

其他影響因素

Scratchpad 以外，作者也在文章中對(duì) test square 的位置、大小，模型的大小（包括 GPT-2-Medium，與更大的模型：Llama-2-7B 和 GPT-3.5-Turbo），數(shù)據(jù)集的大小等因素進(jìn)行了豐富的測(cè)試。模型在做 case-based reasoning 的結(jié)論是統(tǒng)一的。具體的實(shí)驗(yàn)細(xì)節(jié)可見文章。

Rule-Following Fine-Tuning (RFFT)

通過上述的干預(yù)實(shí)驗(yàn)，作者發(fā)現(xiàn) transformers 在數(shù)學(xué)推理中傾向于使用 case-based reasoning，然而，case-based reasoning 會(huì)極大地限制模型的泛化能力，因?yàn)檫@意味著模型如果要做對(duì)新的 test sample ，就需要在訓(xùn)練集中見過相似的樣本。而在訓(xùn)練集中覆蓋到所有未知推理問題的相似樣本是幾乎不可能的（尤其對(duì)于存在長(zhǎng)度泛化的問題）。

ICML 2024｜Transformer究竟如何推理？基于樣例還是基于規(guī)則-AI.x社區(qū)

圖 4：direct answer，scratchpad 與 rule-following 三種方法的 input-output sequence

為了緩解此類問題，作者提出了名為 Rule-Following Fine-Tuning（RFFT）的規(guī)則遵循微調(diào)技術(shù)，旨在教 transformers 進(jìn)行 rule-based reasoning。具體來說，如圖 4 所示，RFFT 在輸入中提供顯式的規(guī)則，然后指導(dǎo) transformers 逐行地回憶規(guī)則并執(zhí)行。

實(shí)驗(yàn)中，作者在 1-5 位數(shù)的加法上使用圖 4 所示的三種方法對(duì) Llama-2-7B 和 GPT-3.5-turbo 進(jìn)行了 fine-tune，并分別在 6-9 與 6-15 位數(shù)的 OOD 的加法任務(wù)上進(jìn)行了測(cè)試。

ICML 2024｜Transformer究竟如何推理？基于樣例還是基于規(guī)則-AI.x社區(qū)

圖 5：Llama-2-7b 和 GPT-3.5-turbo

由圖 5 可見，RFFT 在長(zhǎng)度泛化的性能上明顯超過了 direct answer 和 scratchpad 這兩種微調(diào)方法。使用 Llama-2-7B 進(jìn)行 RFFT 時(shí)，模型在 9 位數(shù)的加法中也能保持 91.1% 的準(zhǔn)確率。相比之下，使用 scratchpad 進(jìn)行 fine-tune 的模型在此任務(wù)中的準(zhǔn)確率不到 40%。對(duì)于擁有更強(qiáng)的基礎(chǔ)能力的 GPT-3.5-turbo，RFFT 使其能夠驚人地泛化到涉及多達(dá) 12 位數(shù)字的加法，盡管只在 1-5 位加法上訓(xùn)練了 100 個(gè)訓(xùn)練樣本，但其在 12 位數(shù)的加法上仍然保持了 95% 以上的準(zhǔn)確率。這也顯著超過了 scratchpad 和 direct answer 的結(jié)果。這些結(jié)果突出顯示了 RFFT 在引導(dǎo) transformers 進(jìn)行 rule-based reasoning 方面的有效性，并展現(xiàn)了其在增強(qiáng)模型長(zhǎng)度泛化能力方面的潛力。

值得注意的是，作者發(fā)現(xiàn) Llama-2-7B 需要 150,000 個(gè)訓(xùn)練樣本才能泛化到 9 位數(shù)字，而 GPT-3.5 僅用 100 個(gè)訓(xùn)練樣本就能掌握規(guī)則并泛化到 12 位數(shù)字。因此，規(guī)則遵循（rule-following）可能是一種 meta learning ability—— 它可能通過在多樣化的 rule-following 數(shù)據(jù)上進(jìn)行訓(xùn)練而得到加強(qiáng)，并可更容易地遷移到新的未在訓(xùn)練集中見過的領(lǐng)域中。相應(yīng)地，基礎(chǔ)模型越強(qiáng)大，理解并學(xué)習(xí)新的規(guī)則就越容易。這也與人類學(xué)習(xí)新規(guī)則的能力相符 —— 經(jīng)驗(yàn)豐富的學(xué)習(xí)者通常學(xué)習(xí)得更快。

總結(jié)

本文探究了 transformers 在做數(shù)學(xué)推理問題時(shí)究竟是采用 case-based reasoning 還是 rule-based reasoning，并提出了 Rule-Following Fine-Tuning 的規(guī)則遵循微調(diào)方法來顯式地教會(huì) transformers 進(jìn)行 rule-based reasoning。RFFT 展現(xiàn)了強(qiáng)大的長(zhǎng)度泛化能力，并有潛力全面提升 LLMs 的推理能力。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/aVRiGW3xU_LpvxZzjDpwzQ??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

基于知識(shí)圖譜的少樣本和零樣本學(xué)習(xí)綜述

mb5f8eba9bdb0af ? 3096瀏覽 ? 0回復(fù)
基于規(guī)則學(xué)習(xí)的關(guān)系模式知識(shí)圖譜嵌入研究

mb5f8eba9bdb0af ? 3673瀏覽 ? 0回復(fù)
生成式AI如何告別版權(quán)困擾？基于權(quán)重顯著性的機(jī)器遺忘算法有奇效

輕薄滴假象 ? 2321瀏覽 ? 0回復(fù)
ICML 2024 | 脫離LoRA架構(gòu)，訓(xùn)練參數(shù)大幅減少，新型傅立葉微調(diào)來了

輕薄滴假象 ? 3318瀏覽 ? 0回復(fù)
ICML 2024：從視覺語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)

AIGC最前線 ? 3750瀏覽 ? 0回復(fù)
基于Transformer的時(shí)間序列綜述

AI論文解讀 ? 3362瀏覽 ? 0回復(fù)
ICML 2024 Oral｜外部引導(dǎo)的深度聚類新范式

輕薄滴假象 ? 2790瀏覽 ? 0回復(fù)
ETH北航字節(jié)推出LoRA新范式 | ICML 2024

Crystalcxt ? 2356瀏覽 ? 0回復(fù)
谷歌開源TimesFM：1000億個(gè)時(shí)間點(diǎn)訓(xùn)練，入選ICML 2024

duhorse ? 2879瀏覽 ? 0回復(fù)
ICML 2024：AI對(duì)齊與可變和可影響?yīng)剟?lì)函數(shù)

AIGC最前線 ? 2557瀏覽 ? 0回復(fù)
ICML 2024 | 揭示非線形Transformer在上下文學(xué)習(xí)中學(xué)習(xí)和泛化的機(jī)制

輕薄滴假象 ? 2254瀏覽 ? 0回復(fù)
SEED-Bench：基于生成理解的多模態(tài)大語(yǔ)言模型基準(zhǔn)測(cè)試（CVPR2024）

AIRoobt ? 5597瀏覽 ? 0回復(fù)
ICML 2024高分論文 | 零階優(yōu)化器微調(diào)大模型，大幅降低內(nèi)存

輕薄滴假象 ? 2687瀏覽 ? 0回復(fù)
基于Celery、Redis和Florence 2實(shí)戰(zhàn)異步機(jī)器學(xué)習(xí)推理

51CTO內(nèi)容精選 ? 2692瀏覽 ? 0回復(fù)
如何改良基于Basis的時(shí)間序列預(yù)測(cè)模型？

海因斯DK ? 2687瀏覽 ? 0回復(fù)
如何使用基于AI的 Suno創(chuàng)作自己的音樂？

51CTO內(nèi)容精選 ? 2827瀏覽 ? 0回復(fù)
2024，中國(guó)大模型落地究竟如何，這些人和企業(yè)值得關(guān)注！

51CTO技術(shù)棧 ? 2055瀏覽 ? 0回復(fù)
Logic-RL：基于規(guī)則強(qiáng)化學(xué)習(xí)的推理釋放

頓數(shù)AI ? 1856瀏覽 ? 0回復(fù)
基于DeepSeek推理的文本聚類

51CTO內(nèi)容精選 ? 1045瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：看張手繪草圖就能合成圖形程序，加州伯克利讓擴(kuò)散模型掌握新技能

下一篇： 30倍于傳統(tǒng)方法，中國(guó)科學(xué)院團(tuán)隊(duì)Transformer深度學(xué)習(xí)模型預(yù)測(cè)糖-蛋白質(zhì)作用位點(diǎn)

社區(qū)精華內(nèi)容

目錄

<samp id="4xydv"><b id="4xydv"></b></samp>

<em id="4xydv"></em><center id="4xydv"></center>

<tt id="4xydv"><nobr id="4xydv"></nobr></tt>

<var id="4xydv"><strike id="4xydv"></strike></var>