自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

LLM 合并新思路：進化算法+零訓練->新任務

發(fā)布于 2024-9-12 11:34

瀏覽

0收藏

一、背景

我們之前介紹過一些 LLM 模型融合或堆疊的方案，然而這些方案通常需要人工設(shè)計或者繼續(xù)訓練、微調(diào)，這里我們介紹一篇新的工作試圖解決這些問題，其思路很有意思，為后續(xù)的模型生產(chǎn)提供了一條思路，也得到了意想不到的結(jié)果。

需要說明的是，雖然開源了代碼，單開源代碼中并沒有開放如何合并的代碼，導致合并的細節(jié)無法獲知。此外，相應的代價有多高也沒有具體介紹，比如評估成本。

對應的論文為：[2403.13187] Evolutionary Optimization of Model Merging Recipes

對應的代碼庫：?https://github.com/SakanaAI/evolutionary-model-merge??

對應的官網(wǎng)：?https://sakana.ai/evolutionary-model-merge/??

二、摘要

論文中，作者將進化算法應用到 LLM 模型融合場景，通過自動發(fā)現(xiàn)各種開源模型的有效組合，充分利用它們已有的知識，在不需要額外訓練的情況下獲得了不錯的效果。具體來說，作者通過參數(shù)空間融合（parameter space，PS）和數(shù)據(jù)流空間融合（data flow space，DFS）相結(jié)合的方式獲得新的融合模型。這種方式甚至可以實現(xiàn)跨領(lǐng)域合并，作者基于日語模型和英語數(shù)學模型生成了日語數(shù)學模型，在各種模型上獲得了 SOTA 性能。此外也在 VLM（Vision Large Model）和圖像生成模型上進行了驗證，獲得不錯的結(jié)果。

LLM 合并新思路：進化算法+零訓練->新任務-AI.x社區(qū)

三、方法

3.1 參數(shù)空間融合

參數(shù)空間融合在之前的方案中已經(jīng)有比較多介紹，其核心就是將具有相同模型結(jié)構(gòu)，但是針對不同任務或場景的模型在同一 Transformer 層按照加權(quán)平均的方式直接合并模型參數(shù)。（混合權(quán)重可以通過進化算法來學習，比如 CMA-ES）

LLM 合并新思路：進化算法+零訓練->新任務-AI.x社區(qū)

比如，在 [2311.07575] SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models 中，作者提出了將不同領(lǐng)域微調(diào)模型融合的策略，如下圖所示，作者驗證了直接混合 LLM 的效果（GitHub - Alpha-VLLM/WeMix-LLM）：

LLM 合并新思路：進化算法+零訓練->新任務-AI.x社區(qū)

3.2 數(shù)據(jù)流空間融合

數(shù)據(jù)流空間融合是指將多個模型的 Transformer 層直接堆疊到一起進行融合，但這種方式往往是人工確定融合方案，而且往往需要再次訓練或者微調(diào)，以彌補不同模型分布不一致導致的性能下降：

LLM 合并新思路：進化算法+零訓練->新任務-AI.x社區(qū)

這種方式有點類似 [2312.15166] SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling 中的堆疊方式，具體來說：

Step 1-1：將原始 LLM 復制一份，假設(shè)包含 n 層 Transformer Block（n=32）。
Step 1-2：刪除原始模型的后 m 層，和副本模型的前 m 層（m=8），并將兩個新的模型拼接在一起，新的模型包含 2*(n-m)=48 層 Transformer Block。
Step 2：在新的模型上繼續(xù)預訓練。?

LLM 合并新思路：進化算法+零訓練->新任務-AI.x社區(qū)

本文的主要工作是通過引入進化算法來避免龐大的人工組合代價。假設(shè)多個候選模型，總共有 M 個 Transformer 層，需要組合的模型包含 T 個 Transformer 層，則相應的組合空間為 (M+1)T，其中的 1 表示當前已組合的模型，M 表示每次都可以從 M 層中選一個，可以重復。假設(shè)有 2 個 32 層的模型組合為一個 48 層的模型，相應的變種為 (64+1)48，空間非常大，幾乎不現(xiàn)實。

所以核心問題就是如何降低上述的搜索空間。作者發(fā)現(xiàn)，部分層組合方式可能對模型產(chǎn)生不利的影響，比如重復/交換模型比較靠前的一些層（PS：這里介紹不多，比較困惑）?；谶@個發(fā)現(xiàn)，作者構(gòu)建了一個層索引數(shù)組 L，其大小為 T=Mxr，其中 r 表示重復的次數(shù)。這個數(shù)量 L 表明：將模型的層按照順序排列，一個模型的層順序不變，然后一個模型接一個模型，類似（模型1：第1層，第2層，。。。），（模型2：第1層，第2層，。。。），然后將上述序列重復 r 次。如果 Li > 0，則表示使用對應的層，否則不使用，這樣對應的搜索空間為 2T。（PS：這樣是不是意味著評估的代價也很高，比如 MGSM accuracy 和 VQA ROUGE 等指標都要在相應的模型里面評估一次，無法按照每層評估。）

PS：這兩個地方的 T 含義是否相同，比如是否表示最終要生成模型的層數(shù) T？

如果一樣，那 T 可能并不會特別大，比如 2 個 32 層的模型組合為一個 48 層的模型，則對應的 r 為 0.75，此時 L 無法與所有 M 層對應。
如果不一樣，T 通常大于 M，比如為 2，則如何保證生成特定層數(shù)的模型？

此外，作者觀察到，如果交換相鄰 Transformer 層的順序，會使性能下降，但是對輸入增加一定的 Scaling 可以緩解這一問題?；诖耍髡邩?gòu)建了一個權(quán)重矩陣 Wi,j，大小為 (M, M)，表示任意兩層相連的 Scaling 因子。

綜上，作者確定了兩個優(yōu)化參數(shù)，L 和 W，使用進化算法搜索完即可以合并模型。

3.3 參數(shù)空間+數(shù)據(jù)流空間融合

那么如何將上述兩種方案融合呢？作者的思路也很簡單：

首先使用參數(shù)空間融合策略獲得一個合并的模型。
將候選模型和合并的模型一起作為候選模型。
基于以上模型進行數(shù)據(jù)流空間融合。

四、評估

如下圖 Table 1 所示，Shisa Gamma 7B v1 為日語通用模型，WizardMath 7B v1.1 和 Abel 7B 002 都是英語數(shù)學模型，它們都是基于 Mistral 7B v0.1 微調(diào)而來。4 和 5 表明，PS 和 DFS 能有效幫助提升模型的日語數(shù)學能力，將 PS+DFS 結(jié)合可以在 MGSM-JA 指標上進一步改善，但 JP-LMEH 指標相比 PS 略有降低，證明了方案的有效性。

LLM 合并新思路：進化算法+零訓練->新任務-AI.x社區(qū)

如下圖 Table 2 所示，作者也進一步證明提出的策略不會導致已有能力的衰退：

LLM 合并新思路：進化算法+零訓練->新任務-AI.x社區(qū)

如下圖 Table 3 所示，作者也在 VLM 上進行了驗證，獲得了不錯的效果：

LLM 合并新思路：進化算法+零訓練->新任務-AI.x社區(qū)

五、參考鏈接

???https://arxiv.org/abs/2403.13187???
???https://github.com/SakanaAI/evolutionary-model-merge???
???https://sakana.ai/evolutionary-model-merge/????

本文轉(zhuǎn)載自 ??AI閑談??，作者： AI閑談

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

LiDAR仿真新思路 | LidarDM：助力4D世界生成，仿真殺器~

qbhua ? 2404瀏覽 ? 0回復
字節(jié)開源大模型量化新思路，2-bit量化模型精度齊平fp16

輕薄滴假象 ? 3243瀏覽 ? 0回復
Advanced RAG 07：在 RAG 系統(tǒng)中進行表格數(shù)據(jù)處理的新思路

Baihai_IDP ? 5110瀏覽 ? 0回復
【LLM】在線合并優(yōu)化器以提升獎勵并減輕對齊開銷

sbf_2000 ? 3529瀏覽 ? 0回復
一文匯總時序預測新思路——圖學習視角解決時間序列預測問題

海因斯DK ? 5231瀏覽 ? 0回復
RAG生成任務：Base LLM竟然比Instruct LLM高出20%

PaperAgent ? 2755瀏覽 ? 0回復
從零實現(xiàn)大模型-GPT2任務微調(diào)

魚蟲子 ? 3278瀏覽 ? 0回復
LLooM：大語言模型時代文本聚類新思路

大語言模型論文跟蹤 ? 4109瀏覽 ? 0回復
又來一個RAG：RankRAG，英偉達RAG新思路

大語言模型論文跟蹤 ? 2653瀏覽 ? 0回復
DSARE：當傳統(tǒng)NLP遇到LLM后的關(guān)系提取新思路

大語言模型論文跟蹤 ? 3019瀏覽 ? 0回復
混合模型：HybridLLM、RouterLLM 等優(yōu)化 LLM 推理成本的新思路

amei2000go ? 4825瀏覽 ? 0回復
IPAdapter+再進化，可同時學習多個任務！Unity開源新思路：圖像條件結(jié)合指令提示

angel ? 1981瀏覽 ? 0回復
大模型訓練核心算法之——反向傳播算法

AI探索時代 ? 3314瀏覽 ? 0回復
IPAdapter+再進化，可同時學習多個任務！Unity開源新思路：圖像條件結(jié)合指令提示

angel ? 2030瀏覽 ? 0回復
HybGRAG：Hit@1 的平均相對提升率達到 51%的新思路

大語言模型論文跟蹤 ? 2014瀏覽 ? 0回復
從經(jīng)典到創(chuàng)新，揭秘擴散模型的6大王牌與5大創(chuàng)新思路

智駐未來 ? 3705瀏覽 ? 0回復
smolagents：Hugging Face 開源的Agent框架，用代碼驅(qū)動 Agent 的新思路

Syrupup ? 3399瀏覽 ? 0回復
一文讀懂 PPO 與 GRPO：LLM 訓練的關(guān)鍵算法

鴻煊的學習筆記 ? 5867瀏覽 ? 0回復
融合時頻分析與深度學習的預測新思路

Tang_Lan ? 2748瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

NCCL 系列之深入解析 NCCL 拓撲建模 2h前發(fā)布
提升大模型訓練 MFU：字節(jié)“拖后腿”現(xiàn)象分析和歸因 2h前發(fā)布

熱門推薦

MCP（Model Context Protocol）的理解和快速實踐 0回復

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：大規(guī)模分布式 AI 模型訓練系列—專家并行

下一篇：幻方 AI DeepSeek 模型背后的萬卡集群建設(shè)

社區(qū)精華內(nèi)容

目錄