自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="703kq"></sub>

<sup id="703kq"><input id="703kq"></input></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

為什么最新的LLM使用混合專家(MoE)架構(gòu) 原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-8-6 08:13

瀏覽

0收藏

本文詳細介紹了混合專家 (MoE)架構(gòu)，該架構(gòu)通過混合或融合不同的“專家”模型共同解決特定的問題。

專業(yè)化的必要性

醫(yī)院有很多具有不同專長的專家和醫(yī)生，他們擅長解決各自領(lǐng)域內(nèi)的醫(yī)療難題。外科醫(yī)生、心臟病專家、兒科醫(yī)生等各類專家緊密合作，為患者提供了全面而個性化的醫(yī)療護理服務(wù)。同樣，人們也可以將這一合作模式應(yīng)用于人工智能領(lǐng)域。

人工智能中的混合專家(MoE)架構(gòu)被定義為不同“專家”模型的混合或融合，能夠共同處理或響應(yīng)復雜的數(shù)據(jù)輸入。當涉及到人工智能時，MoE模型中的每個專家都專門研究一個更宏大的問題——就像每位醫(yī)生都專門在其醫(yī)學領(lǐng)域內(nèi)深耕一樣。這樣的設(shè)計提高了效率，并增強了系統(tǒng)的有效性和準確性。

Mistral AI提供的開源基礎(chǔ)大型語言模型(LLM)可以與OpenAI相媲美。并且已經(jīng)在Mixtral 8x7B模型中使用MoE架構(gòu)，是一種尖端的大型語言模型(LLM)形式的革命性突破。以下將深入探討Mistral AI的Mixtral為什么在其他基礎(chǔ)LLM中脫穎而出，以及當前的LLM現(xiàn)在采用MoE架構(gòu)的原因，并突出其速度、大小和準確性。

升級LLM的常用方法

為了更好地理解MoE架構(gòu)如何增強LLM，本文將討論提高LLM效率的常用方法。人工智能從業(yè)者和開發(fā)人員通過增加參數(shù)、調(diào)整架構(gòu)或微調(diào)來增強模型。

·增加參數(shù)：通過提供更多信息并對其進行解釋，模型學習和表示復雜模式的能力得到了提高。這可能會導致過擬合和幻覺，需要從人類反饋中進行廣泛的強化學習(RLHF)。

調(diào)整架構(gòu)：引入新的層或模塊可以適應(yīng)不斷增加的參數(shù)數(shù)量，并提高特定任務(wù)的性能。然而，對底層架構(gòu)的更改很難實現(xiàn)。
微調(diào)：預先訓練的模型可以根據(jù)特定數(shù)據(jù)或通過遷移學習進行微調(diào)，允許現(xiàn)有的LLM處理新的任務(wù)或領(lǐng)域，而無需從頭開始。這是最簡單的方法，并且不需要對模型進行重大更改。

什么是MoE架構(gòu)?

混合專家(MoE)架構(gòu)是一種神經(jīng)網(wǎng)絡(luò)設(shè)計，通過為每個輸入動態(tài)激活稱為“專家”的專用網(wǎng)絡(luò)子集來提高效率和性能。門控網(wǎng)絡(luò)決定激活哪些專家，導致稀疏激活和減少計算成本。MoE架構(gòu)由兩個關(guān)鍵組件組成：門控網(wǎng)絡(luò)和專家網(wǎng)絡(luò)。以下進行分析：

從本質(zhì)上來說，MoE架構(gòu)的功能就像一個高效的交通系統(tǒng)，根據(jù)實時情況和期望的目的地，將每輛車(或在這種情況下是數(shù)據(jù))導向最佳路線。每個任務(wù)都被路由到最合適的專門處理該特定任務(wù)的專家或子模型。這種動態(tài)路由確保為每個任務(wù)使用最有能力的資源，從而提高模型的整體效率和有效性。MoE架構(gòu)利用了三種方法來提高模型的保真度。

(1)通過多個專家完成任務(wù)，MoE通過為每個專家添加更多參數(shù)來增加模型的參數(shù)大小。

(2)MoE改變了經(jīng)典的神經(jīng)網(wǎng)絡(luò)架構(gòu)，它包含了一個門控網(wǎng)絡(luò)，以確定哪些專家被用于指定的任務(wù)。

(3)每個人工智能模型都有一定程度的微調(diào)，因此MoE中的每個專家都經(jīng)過微調(diào)，以達到傳統(tǒng)模型無法利用的額外調(diào)整層的預期效果。

MoE門控網(wǎng)絡(luò)

門控網(wǎng)絡(luò)在MoE模型中充當決策者或控制器。它評估傳入的任務(wù)，并確定哪個專家適合處理這些任務(wù)。這一決策通常基于學習權(quán)值，隨著時間的推移，通過訓練進行調(diào)整，進一步提高其與專家匹配任務(wù)的能力。門控網(wǎng)絡(luò)可以采用各種策略，從概率方法(將軟任務(wù)分配給多個專家)到確定性方法(將每個任務(wù)路由到單個專家)。

MoE專家

MoE模型中的每個專家代表一個較小的神經(jīng)網(wǎng)絡(luò)、機器學習模型或針對問題域的特定子集優(yōu)化的LLM。例如，在Mistral中，不同的專家可能專注于理解某些語言、方言，甚至是查詢類型。專業(yè)化確保每個專家都精通自己的領(lǐng)域，當結(jié)合其他專家的貢獻時，將在廣泛的任務(wù)上實現(xiàn)卓越的性能。

MoE損失函數(shù)

雖然損失函數(shù)不被視為是MoE架構(gòu)的主要組成部分，但它在模型的未來性能中起著關(guān)鍵作用，因為它被設(shè)計用于優(yōu)化單個專家和門控網(wǎng)絡(luò)。

它通常結(jié)合每個專家計算的損失，這些損失由門控網(wǎng)絡(luò)分配給他們的概率或重要性進行加權(quán)。這有助于在調(diào)整門控網(wǎng)絡(luò)以提高路由準確性的同時，對專家的特定任務(wù)進行微調(diào)。

為什么最新的LLM使用混合專家(MoE)架構(gòu)-AI.x社區(qū)

從始至終的MoE流程

現(xiàn)在總結(jié)MoE整個流程，并添加更多細節(jié)。

以下是對路由過程從始至終如何工作的總結(jié)解釋：

輸入處理：輸入數(shù)據(jù)的初始處理;主要是在LLM案例中的提示。
特征提?。恨D(zhuǎn)換原始輸入進行分析。
門控網(wǎng)絡(luò)評估：通過概率或權(quán)重評估專家的適用性。
加權(quán)路由：根據(jù)計算的權(quán)重分配輸入;在這里，已經(jīng)完成最合適的LLM流程的選擇。在某些情況下，選擇多個LLM來回答單個輸入。
任務(wù)執(zhí)行：處理每個專家分配的輸入。
整合專家輸出：將各個專家的結(jié)果結(jié)合起來，形成最終輸出。
反饋和適應(yīng)：使用性能反饋來改進模型。
迭代優(yōu)化：不斷優(yōu)化路線和模型參數(shù)。

使用MoE架構(gòu)的流行模型

OpenAI的GPT-4和GPT-40

GPT-4和GPT-40支持ChatGPT的高級版本。這些多模態(tài)模型利用MoE來攝取不同的源媒體，例如圖像、文本和語音。有傳言稱，GPT-4有8個專家，每個專家擁有2200億個參數(shù)，整個模型的參數(shù)總數(shù)超過1.7萬億個。

Mistral AI的Mixtral 8x7b

Mistral AI 提供了非常強大的開源 AI 模型，并表示他們的 Mixtral 模型是一個 sMoE 模型或稀疏多專家混合模型，以較小的封裝形式提供。Mixtral 8x7b總共有467億個參數(shù)，但每個令牌只使用129億個參數(shù)，因此以這個成本處理輸入和輸出。他們的MoE模型一直優(yōu)于Llama2 (70B)和GPT-3.5 (175B)，同時運行成本更低。

MoE的好處以及是首選架構(gòu)的原因

最終，MoE架構(gòu)的主要目標是呈現(xiàn)復雜機器學習任務(wù)處理方式的范式轉(zhuǎn)變。它提供了獨特的優(yōu)勢，并在幾個方面展示了其優(yōu)于傳統(tǒng)模式的優(yōu)勢。

增強的模型可擴展性

每個專家負責任務(wù)的一部分，因此通過增加專家來擴展不會導致計算需求的成比例增加。
這種模塊化方法可以處理更大、更多樣化的數(shù)據(jù)集，并促進并行處理，加快操作速度。例如，將圖像識別模型添加到基于文本的模型中可以集成額外的LLM專家來解釋圖像，同時仍然能夠輸出文本。
多功能性允許模型在不同類型的數(shù)據(jù)輸入中擴展其功能。

提高效率和靈活性

MoE模型非常高效，與傳統(tǒng)架構(gòu)使用所有參數(shù)不同，MoE模型只有選擇地只讓必要的專家參與特定的輸入。
該架構(gòu)減少了每次推理的計算負荷，允許模型適應(yīng)不同的數(shù)據(jù)類型和專門的任務(wù)。

專業(yè)化和準確性

MoE系統(tǒng)中的每個專家都可以針對整體問題的特定方面進行微調(diào)，從而在這些領(lǐng)域獲得更高的專業(yè)知識和準確性
像這樣的專業(yè)化在醫(yī)學成像或財務(wù)預測等領(lǐng)域很有幫助，在這些領(lǐng)域，精確度是關(guān)鍵。
MoE可以在范圍狹窄的領(lǐng)域產(chǎn)生更好的結(jié)果，因為它有細致入微的理解，詳細的知識，以及在專門任務(wù)上優(yōu)于通才模型的能力。

為什么最新的LLM使用混合專家(MoE)架構(gòu)-AI.x社區(qū)

MoE架構(gòu)的缺點

雖然MoE架構(gòu)提供了顯著的優(yōu)勢，但它也帶來了可能影響其采用和有效性的挑戰(zhàn)。

模型復雜性：管理多個神經(jīng)網(wǎng)絡(luò)專家和用于引導流量的門控網(wǎng)絡(luò)使MoE的開發(fā)和運營成本具有挑戰(zhàn)性。
訓練穩(wěn)定性：門控網(wǎng)絡(luò)和專家之間的相互作用引入了不可預測的動態(tài)，阻礙了實現(xiàn)統(tǒng)一的學習率，需要廣泛的超參數(shù)調(diào)整。
不平衡：讓專家閑置是對MoE模型的糟糕優(yōu)化，將資源花費在不使用的專家身上或過于依賴某些專家。平衡工作負載分布和調(diào)優(yōu)有效門對于高性能MoE AI至關(guān)重要。

應(yīng)該注意的是，隨著MoE架構(gòu)的改進，上述缺點通常會隨著時間的推移而減少。

專業(yè)化塑造的未來

反思MoE方法及其與人類的相似之處，可以看到，正如專業(yè)團隊比一般勞動力取得更多成就一樣，專業(yè)模型在人工智能模型中的表現(xiàn)也優(yōu)于單一模型。優(yōu)先考慮多樣性和專業(yè)知識可以將大規(guī)模問題的復雜性轉(zhuǎn)化為專家可以有效解決的可管理部分。

當展望未來時，需要考慮專業(yè)系統(tǒng)在推進其他技術(shù)方面的更廣泛影響。MoE的原則可以影響醫(yī)療保健、金融和自治系統(tǒng)等行業(yè)的發(fā)展，促進更高效、更準確的解決方案。

MoE的旅程才剛剛開始，其持續(xù)發(fā)展有望推動人工智能及其他領(lǐng)域的進一步創(chuàng)新。隨著高性能硬件的不斷發(fā)展，這種專家AI的混合體可以在人們的智能手機中運行，將提供更智能的體驗，但首先需要有人去訓練它們。

原文標題：Why the Newest LLMs Use a MoE (Mixture of Experts) Architecture

作者：Kevin Vu

文章鏈接：https：//dzone.com/articles/why-the-newest-llms-use-a-moe-mixture-of-experts。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

大型語言模型

已于2024-8-6 09:45:57修改

贊

收藏

回復

舉報

回復

相關(guān)推薦

Mixtral：數(shù)據(jù)流中的生成式稀疏專家混合模型

51CTO內(nèi)容精選 ? 2963瀏覽 ? 0回復
【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型

sbf_2000 ? 3559瀏覽 ? 0回復
為什么我們勸你棄用LangChain？

51CTO技術(shù)棧 ? 6393瀏覽 ? 0回復
相同的 LLM 在「不同 GPU 上」會產(chǎn)生不同輸出？為什么？

Baihai_IDP ? 3609瀏覽 ? 2回復
大模型面經(jīng)——MoE混合專家模型總結(jié)

shizhi02 ? 2571瀏覽 ? 0回復
線性回歸中，為什么使用均方誤差損失函數(shù)？

魚蟲子 ? 2036瀏覽 ? 0回復
「混合專家模型」可視化指南：A Visual Guide to MoE

Baihai_IDP ? 3187瀏覽 ? 0回復
為什么預訓練大模型要使用無監(jiān)督學習的方式？

AI探索時代 ? 2502瀏覽 ? 0回復
LN和BN的愛恨糾葛！為什么Transformer要用LayerNorm？

智駐未來 ? 5723瀏覽 ? 0回復
為什么多模態(tài)AI是下一個風口？深度解讀新一代LLM

芝士AI吃魚 ? 4516瀏覽 ? 0回復
什么是序列到序列(Seq2Seq)模型？以及為什么圖像理解領(lǐng)域主要使用的是CNN網(wǎng)絡(luò)而不是Transformer網(wǎng)絡(luò)？

AI探索時代 ? 1828瀏覽 ? 0回復
當ChatGPT爆火后，大語言模型LLM的完整修煉之路 | 為什么說AI Agent還不夠？

sbf_2000 ? 2030瀏覽 ? 0回復
漫畫混合專家（MoE）

sulu637 ? 1577瀏覽 ? 0回復
掰細了講混合專家模型MoE的內(nèi)部結(jié)構(gòu)

智駐未來 ? 2753瀏覽 ? 0回復
深度學習的‘黃金法則’：為什么選擇ReLU？

人工智能訓練營 ? 2585瀏覽 ? 0回復
DeepSeek核心架構(gòu)-DeepSeekMoE：細粒度專家劃分與共享專家隔離技術(shù)的深度解析！

南夏的算法驛站 ? 2284瀏覽 ? 0回復
你為什么要用GraphGAG？

熵減AI ? 1684瀏覽 ? 0回復
為什么說JSON不一定是LLM結(jié)構(gòu)化輸出的最佳選擇？

Baihai_IDP ? 1756瀏覽 ? 0回復
一文讀懂 DeepSeek使用的 MoE 架構(gòu)到底是什么

九歌AI大模型 ? 2302瀏覽 ? 0回復

51CTO內(nèi)容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

FastAPI-MCP 架構(gòu)實踐：使用FastAPI一鍵轉(zhuǎn)化MCP服務(wù)器 20h前發(fā)布
體驗Fellou AI，告別谷歌和ChatGPT 3天前發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復

上一篇：如何檢測并盡量減少AI模型中的幻覺？

下一篇：基于Llama 3的AI代理開發(fā)實戰(zhàn)演練

社區(qū)精華內(nèi)容

目錄

<thead id="oisgz"><rt id="oisgz"></rt></thead>

<cite id="oisgz"></cite>

<sub id="oisgz"><p id="oisgz"></p></sub>