自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="ptx0j"><rp id="ptx0j"></rp></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

谷歌推出TransformerFAM架構(gòu)，以更低的消耗處理長序列文本

發(fā)布于 2024-5-24 09:21

瀏覽

0收藏

Transformer對大模型界的影響力不言而喻，ChatGPT、Sora、Stable Difusion等知名模型皆使用了該架構(gòu)。

但有一個很明顯的缺點(diǎn)，其注意力復(fù)雜度的二次方增長在處理書籍、PDF等超長文檔時會顯著增加算力負(fù)擔(dān)。

雖然會通過滑動窗口注意力和稀疏注意力等技術(shù)來解決這一問題,在處理極長序列時仍存在局限性。

因此，谷歌的研究人員提出了全新架構(gòu)TransformerFAM，可以無縫與預(yù)訓(xùn)練模型集成,并通過LoRA進(jìn)行少量精調(diào)從而大幅度提升模型性能。

研究人員在1B、8B和24B三種參數(shù)的Flan-PaLM大語言模型上評估了Transformer FAM的性能。實(shí)驗(yàn)結(jié)果顯示,與Transformer架構(gòu)相比,TransformerFAM在長序列任務(wù)上取得了好的能力并且資源消耗更低。

論文地址：https://arxiv.org/abs/2404.09173

谷歌推出TransformerFAM架構(gòu)，以更低的消耗處理長序列文本-AI.x社區(qū)

TransformerFAM的技術(shù)靈感來自人腦中工作記憶的機(jī)制。研究人員發(fā)現(xiàn),大腦中的工作記憶能力是由前額葉皮層和視床之間的反饋循環(huán)維持的,即持續(xù)的神經(jīng)元脈沖活動形成了一個反饋回路,從而實(shí)現(xiàn)了對短期記憶的維持和更新。

受此啟發(fā),研究人員設(shè)計了一個集成在Transformer中的反饋循環(huán),使得注意力機(jī)制不僅可以關(guān)注輸入序列,還能自我關(guān)注自身的潛在表示，使大模型能夠存儲超長和更新全局上下文信息。

簡單來說，可以把TransformerFAM看成是一個"便簽本"，可以幫助大模型記住很多短暫、細(xì)小的事情，又不會對內(nèi)存、算力造成過多的負(fù)擔(dān)。

反饋?zhàn)⒁饬τ洃?/strong>

?

反饋?zhàn)⒁饬τ洃洠‵eedback Attention Memory，F(xiàn)AM）是TransformerFAM架構(gòu)的核心模塊，主要通過反饋循環(huán)使神經(jīng)網(wǎng)絡(luò)能夠注意到自身的潛在表示，從而允許大模型處理超長的輸入序列。

研究人員在每個Transformer層中都加入了FAM模塊，在自注意力過程中被激活，使得輸入查詢不僅關(guān)注當(dāng)前塊和滑動窗口覆蓋的過去記憶段,還能關(guān)注前一步的FAM狀態(tài),將全局上下文知識融入當(dāng)前表示。

同時一個專門的FAM查詢則負(fù)責(zé)根據(jù)當(dāng)前塊和上一步的FAM,更新后續(xù)的FAM狀態(tài)以實(shí)現(xiàn)全局上下文信息的傳遞。

這種巧妙設(shè)計使得每個Transformer層都能夠維持一個與其抽象層次相對應(yīng)的分布式工作記憶狀態(tài)。

塊內(nèi)壓縮

?

塊內(nèi)壓縮是Transformer架構(gòu)中處理長序列數(shù)據(jù)的關(guān)鍵技術(shù)。主要是將長序列分成若干個小塊，然后對每個塊中的信息進(jìn)行壓縮，以便模型能夠更高效地處理和記憶這些信息。

在每個Transformer層中，塊內(nèi)壓縮通過自注意力機(jī)制將當(dāng)前塊的信息壓縮成一個固定長度的表示用于反饋記憶的激活。然后再與之前的FAM狀態(tài)結(jié)合，通過一個前饋網(wǎng)絡(luò)進(jìn)行更新生成全新的FAM狀態(tài)。

更新后的FAM狀態(tài)會被傳遞到下一個塊，作為那里的額外上下文信息，從而實(shí)現(xiàn)跨塊的數(shù)據(jù)信息傳遞。

隨著模型逐塊處理整個序列，新的記憶狀態(tài)會包含越來越多跨塊的信息，從而形成一個全局的上下文理解，但對內(nèi)存、算力的需求幾乎沒有額外增加，同時又獲得了“記憶存儲”的泛化能力。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/nz63g_DfS1gy3bQiI2QfrA??

標(biāo)簽
谷歌
架構(gòu)

贊

收藏

回復(fù)

分享

微博

QQ

微信

舉報
舉報

微信掃碼分享

刪除帖子
刪除取消

回復(fù)

相關(guān)推薦

谷歌推出多模態(tài)視頻模型，自動生成豐富動作視頻

Aceryt ? 3187瀏覽 ? 0回復(fù)
ICLR'24 | 對比學(xué)習(xí)引入全周期時間序列信息提升長周期時序預(yù)測效果

海因斯DK ? 4374瀏覽 ? 0回復(fù)
極長序列、極快速度：面向新一代高效大語言模型的LASP序列并行

輕薄滴假象 ? 2384瀏覽 ? 0回復(fù)
騰訊AI新研究打破長文本生成模型限制，序列并行技術(shù)再突破

AI論文解讀 ? 5660瀏覽 ? 0回復(fù)
亞馬遜最新時序大模型：將時間序列完全轉(zhuǎn)換成文本

海因斯DK ? 6851瀏覽 ? 0回復(fù)
WWW'24 文本增強(qiáng)實(shí)現(xiàn)統(tǒng)一跨域時間序列預(yù)測

海因斯DK ? 3968瀏覽 ? 0回復(fù)
ChatGPT等模型瘋狂訓(xùn)練，最快2026年消耗盡公開文本數(shù)據(jù)

Aceryt ? 3947瀏覽 ? 0回復(fù)
谷歌推出V2A，可為視頻大模型自動匹配語音

Aceryt ? 3597瀏覽 ? 0回復(fù)
谷歌推出全新模型，將Transformer與NAR相結(jié)合

Aceryt ? 2374瀏覽 ? 0回復(fù)
遲分:RAG中長文本處理的突破性技術(shù)

芝士AI吃魚 ? 3101瀏覽 ? 0回復(fù)
Sample Packing：長序列 LLM 訓(xùn)練的 Attention 問題及優(yōu)化

amei2000go ? 2521瀏覽 ? 0回復(fù)
谷歌AI推出LAuReL：讓神經(jīng)網(wǎng)絡(luò)更高效的革命性架構(gòu)

Halo咯咯 ? 2959瀏覽 ? 0回復(fù)
基于谷歌Gemini多模態(tài)模型實(shí)現(xiàn)PDF文檔自動化處理

51CTO內(nèi)容精選 ? 2460瀏覽 ? 0回復(fù)
面向語音控制前端應(yīng)用程序的自然語言處理（NLP）：架構(gòu)、進(jìn)展與未來方向

51CTO內(nèi)容精選 ? 2166瀏覽 ? 0回復(fù)
深入探究編碼器 - 解碼器架構(gòu)：從RNN到Transformer的自然語言處理模型

AI論文解讀 ? 4310瀏覽 ? 0回復(fù)
【PaperDaily】谷歌推出AlphaGeometry2，超過金牌選手，稱霸IMO

AIPaperDaily ? 1875瀏覽 ? 0回復(fù)
文本生成無限長視頻，無需任何訓(xùn)練

Aceryt ? 2005瀏覽 ? 0回復(fù)
構(gòu)建以數(shù)據(jù)為中心的 Agent 智能體全局架構(gòu)設(shè)計

玄姐聊AGI ? 1666瀏覽 ? 0回復(fù)
谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1249瀏覽 ? 0回復(fù)

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)
Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)
2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)
Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)
從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：視頻版PS！0樣本視頻編輯模型，普通人秒變鋼鐵俠

下一篇：德勤：中國、印度等對ChatGPT等生成式AI應(yīng)用，處領(lǐng)先地位

社區(qū)精華內(nèi)容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷

^{<blockquote id="9sqk3"></blockquote>}