自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="f78ey"><li id="f78ey"></li></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

最小化的遞歸神經(jīng)網(wǎng)絡RNN為Transformer提供了快速高效的替代方案原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-11-11 08:08

瀏覽

0收藏

本文介紹了長短期記憶網(wǎng)絡（LSTM）和門控循環(huán)單元（GRU）這兩種流行的RNN變體的最小化版本——minLSTM和minGRU，這兩個模型在訓練期間可以完全并行，并且使用的參數(shù)顯著減少，使它們成為Tansformer的快速和有效的替代方案。

Transformer如今已經(jīng)成為大型語言模型（LLM）和其他序列處理應用程序的主要架構。然而，它們固有的二次方計算復雜性成為了將Transformer擴展至超長序列時的巨大障礙，顯著增加了成本。這引發(fā)了人們對具有線性復雜性和恒定內(nèi)存需求的架構的興趣。

Mila公司和Borealis AI的研究人員重新審視了遞歸神經(jīng)網(wǎng)絡（RNN）作為Transformer架構的潛在替代方案。他們在發(fā)布的一篇論文中，介紹了長短期記憶網(wǎng)絡（LSTM）和門控循環(huán)單元（GRU）這兩種流行的RNN變體的最小化版本——minLSTM和minGRU，這兩個模型在訓練期間可以完全并行，并且使用的參數(shù)顯著減少，使它們成為Transformer的快速和有效的替代方案。

Transformer的局限性和RNN的復興

每當Transformer模型接收的輸入序列長度翻倍時，就需要四倍的內(nèi)存和計算量。這種二次方計算復雜性使得Transformer在處理長序列來說成本高昂，在資源受限的環(huán)境中尤為棘手。

另一方面，RNN按順序處理輸入數(shù)據(jù)，并且相對于序列長度具有線性計算復雜度。它們在推理過程中還需要恒定的內(nèi)存，這使得它們適合于非常長的序列。然而，傳統(tǒng)的RNN存在梯度消失和梯度爆炸的問題。當用于更新神經(jīng)網(wǎng)絡權值的梯度過小或過大，阻礙有效學習時，就會出現(xiàn)梯度消失和梯度爆炸。從而嚴重影響學習效果。這一局限性制約了RNN學習長期依賴關系的能力。為了解決這一問題，LSTM和GRU引入了創(chuàng)新的門控機制，以精確調(diào)控信息在網(wǎng)絡中的傳遞。

盡管傳統(tǒng)的LSTM和GRU具有優(yōu)勢，但它們有一個關鍵的限制：只能按順序計算。這意味著它們必須在訓練期間使用時間反向傳播（BPTT），這是一個緩慢的過程，極大地限制了它們擴展到長場景的能力。

Transformer的局限性重新引起了人們對循環(huán)模型的興趣。在過去的一年，引入了新的循環(huán)架構，例如S4和Mamba，這些架構有望在實現(xiàn)可比性能的同時解決Transformers的可擴展性問題。這些模型使用“并行前綴掃描”等算法，通過并行化輸入序列上的計算來加快訓練速度。

重新審視LSTM和GRU

受到最近提出的序列模型之間算法相似性的啟發(fā)，研究人員重新審視了LSTM和GRU。他們發(fā)現(xiàn)，通過從門控機制中消除對先前隱藏狀態(tài)的依賴，這些模型可以使用并行掃描算法進行高效訓練。

傳統(tǒng)的LSTM和GRU有多個門來控制網(wǎng)絡中的信息流。這些門依賴于之前的隱藏狀態(tài)來確定保留或丟棄多少當前輸入和之前的內(nèi)存。這創(chuàng)建了一個順序依賴關系，要求模型一次處理一個令牌。

最小化的遞歸神經(jīng)網(wǎng)絡RNN為Transformer提供了快速高效的替代方案-AI.x社區(qū)

圖1 minGRU通過刪除組件和計算簡化了GRU

研究人員發(fā)現(xiàn)，他們可以消除對先前隱藏狀態(tài)的依賴，同時保持計算中的時間一致性。這使得能夠通過并行掃描算法訓練模型。他們通過刪除一些不必要的計算進一步簡化了架構，生成了最小化的LSTM（minLSTM）和最小化的GRU（minGRU），這兩種模型不僅使用的參數(shù)大幅減少，而且訓練速度也得到了顯著提升。

minGRU和minLSTM通過實現(xiàn)并行計算解決了傳統(tǒng)RNN的訓練瓶頸。在T4 GPU上，與傳統(tǒng)的序列長度為512個令牌相比，這一變化使得minGRU的速度提高了175倍，minLSTM的速度提高了235倍。隨著序列的延長，這種改善變得更加顯著。對于長度為4096的序列，minGRU和minLSTM的速度比傳統(tǒng)版本快1300倍以上。

最小化的遞歸神經(jīng)網(wǎng)絡RNN為Transformer提供了快速高效的替代方案-AI.x社區(qū)

圖2 minLSTM通過刪除不必要的組件和計算來簡化LSTM

研究人員寫道：“因此，在minGRU需要一天的時間來完成固定次數(shù)的訓練的情況下，傳統(tǒng)的GRU可能需要3年以上的時間?！?/p>

與傳統(tǒng)GRU相比，minGRU將所需參數(shù)的數(shù)量減少了87%，與傳統(tǒng)LSTM相比，minLSTM將所需參數(shù)的數(shù)量減少了85%。

最小化RNN與SOTA循環(huán)模型

研究人員將minLSTM和minGRU的性能與最先進的循環(huán)序列模型Mamba進行了比較。他們測量了訓練時間、內(nèi)存使用情況和多項任務的表現(xiàn)，包括選擇性復制、強化學習（RL）和語言建模。

在運行時間方面，minLSTM和minGRU取得了與Mamba相似的結果。雖然它們比傳統(tǒng)的RNN使用更多的內(nèi)存，但它們的內(nèi)存效率仍然比Mamba高。

最小化的遞歸神經(jīng)網(wǎng)絡RNN為Transformer提供了快速高效的替代方案-AI.x社區(qū)

圖3 訓練最小化 RNN 模型（橙色和藍色實線）比傳統(tǒng) RNN（虛線）更快，并且比 Mamba使用更少的內(nèi)存

在選擇性復制（需要內(nèi)容感知推理和記憶的任務）方面，minLSTM和minGRU的表現(xiàn)與Mamba相當。

在D4RL基準的RL實驗中，minLSTM和minGRU的性能優(yōu)于除Decision Mamba之外的所有基線，其中差異很小。

在語言建模任務中，minLSTM和minGRU在訓練過程中達到峰值性能的速度略慢于Mamba，但最終收斂的損失更低。值得注意的是，它們比Transformer的效率高得多，Transformer需要2.5倍的時間才能達到最佳性能。

最小化的遞歸神經(jīng)網(wǎng)絡RNN為Transformer提供了快速高效的替代方案-AI.x社區(qū)

圖4 在語言建模任務中，最小化的RNN（橙色和藍色實線）的損失低于Mamba，收斂速度至少是Transformers的2.5倍

與其他研究Transformer替代方案的類似工作一樣，最小化RNN研究的局限性之一是實驗的規(guī)模。這些架構是否能夠在非常大的模型和場景窗口下提供類似的結果還有待觀察。

盡管如此，這項研究的結果意義重大，因為研究表明，隨著新信息的出現(xiàn)，重新審視原有的想法是值得的。

研究人員在文章中寫道：“鑒于這些簡化的RNN在實際應用中所展現(xiàn)出的卓越性能，并且它們與眾多最新提出的循環(huán)序列方法存在著本質(zhì)上的相似之處，我們不禁反思并提出疑問，‘我們是否僅僅依靠RNN就足以滿足需求？’。”

原文標題：??Minimized RNNs offer a fast and efficient alternative to Transformers??，作者：Ben Dickson

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

神經(jīng)網(wǎng)絡

大型語言模型

贊

收藏

回復

舉報

回復

相關推薦

ICLR 2024 Oral｜用巧妙的「傳送」技巧，讓神經(jīng)網(wǎng)絡的訓練更加高效

輕薄滴假象 ? 2286瀏覽 ? 0回復
神經(jīng)網(wǎng)絡的通用訓練流程

AI探索時代 ? 2565瀏覽 ? 0回復
你知道神經(jīng)網(wǎng)絡是怎么運作的嗎？神經(jīng)網(wǎng)絡內(nèi)部原理解析

AI探索時代 ? 2416瀏覽 ? 0回復
谷歌AI推出LAuReL：讓神經(jīng)網(wǎng)絡更高效的革命性架構

Halo咯咯 ? 2955瀏覽 ? 0回復
什么是神經(jīng)網(wǎng)絡—終于把梯度下降搞明白了！

人工智能訓練營 ? 2028瀏覽 ? 0回復
什么是神經(jīng)網(wǎng)絡-終于把神經(jīng)網(wǎng)絡參數(shù)更新搞明白了！

人工智能訓練營 ? 1762瀏覽 ? 0回復
Transformer編碼器與解碼器和神經(jīng)網(wǎng)絡之間的關系

AI探索時代 ? 2111瀏覽 ? 0回復
什么是神經(jīng)網(wǎng)絡？神經(jīng)網(wǎng)絡開發(fā)框架——PyTorch和架構Transformer的區(qū)別和聯(lián)系

AI探索時代 ? 2622瀏覽 ? 0回復
神經(jīng)網(wǎng)絡是怎么學習的？

AI探索時代 ? 1762瀏覽 ? 0回復
關于神經(jīng)網(wǎng)絡的輸入格式——數(shù)據(jù)集的處理，關于神經(jīng)網(wǎng)絡模型的結構說明

AI探索時代 ? 1989瀏覽 ? 0回復
神經(jīng)網(wǎng)絡技術棧介紹——PyTorch，Transformer，NLP，CV，Embedding

AI探索時代 ? 1755瀏覽 ? 0回復
關于神經(jīng)網(wǎng)絡的一些思考與感受

AI探索時代 ? 1644瀏覽 ? 0回復
什么是神經(jīng)網(wǎng)絡-終于把神經(jīng)網(wǎng)絡參數(shù)更新搞明白了反向傳播詳解

人工智能訓練營 ? 2014瀏覽 ? 0回復
從一個簡單的神經(jīng)網(wǎng)絡模型開始

AI探索時代 ? 1641瀏覽 ? 0回復
怎么實現(xiàn)一個神經(jīng)網(wǎng)絡？神經(jīng)網(wǎng)絡的組成結構

AI探索時代 ? 1696瀏覽 ? 0回復
不同神經(jīng)網(wǎng)絡之間的區(qū)別，僅僅只是網(wǎng)絡結構的不同，明白了這個你才能知道應該怎么學習神經(jīng)網(wǎng)絡

AI探索時代 ? 1727瀏覽 ? 0回復
神經(jīng)網(wǎng)絡的每一層都是干嘛的？這才是神經(jīng)網(wǎng)絡結構的核心

AI探索時代 ? 1618瀏覽 ? 0回復
什么是神經(jīng)網(wǎng)絡-循環(huán)神經(jīng)網(wǎng)絡RNN各層詳解及實例展示

人工智能訓練營 ? 1872瀏覽 ? 0回復
高效學習神經(jīng)網(wǎng)絡技術——以具體的任務類型為切入點

AI探索時代 ? 1317瀏覽 ? 0回復

51CTO內(nèi)容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

FastAPI-MCP 架構實踐：使用FastAPI一鍵轉(zhuǎn)化MCP服務器 20h前發(fā)布
體驗Fellou AI，告別谷歌和ChatGPT 3天前發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復

2025年最值得關注的十大多模態(tài)大語言模型！ 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

從零到一構建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復

上一篇：三款出色的無代碼LLM應用程序構建神器

下一篇：克服機器學習轉(zhuǎn)換器的局限性——從位置嵌入到RoPE和ALiBi方法

社區(qū)精華內(nèi)容

目錄