自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

谷歌推出全新模型，將Transformer與NAR相結合

發(fā)布于 2024-7-8 09:35

瀏覽

0收藏

Transformer架構的出現(xiàn)極大推動了大模型的技術創(chuàng)新，誕生出了ChatGPT、Coplit、訊飛星火、文心一言等一系列生成式AI產品。

雖然Transformer在自然語言理解任務上表現(xiàn)很好,但在算法推理方面有嚴重的缺陷。例如，當面臨超出訓練數(shù)據(jù)分布的輸入時,其泛化能力會急劇下降。這主要是因為它們的自回歸性質和掩蔽注意力機制,不符合算法輸出的邏輯順序。

而神經算法推理(NAR) 在結構化輸入上表現(xiàn)好，能夠處理各種算法任務，并且在面對訓練集之外的更大輸入時仍能保持完美的泛化能力。因此，谷歌DeepMind的研究人員將Transformer與NAR相結合推出了——TransNAR。

谷歌推出全新模型，將Transformer與NAR相結合-AI.x社區(qū)

NAR是一種專門處理圖結構數(shù)據(jù)的神經網絡，其算法的計算步驟被表示為圖的節(jié)點和邊，而節(jié)點之間的信息通過邊進行傳遞和更新。這種巧妙設計使得NAR能夠自然地表達算法的邏輯流程，包括條件判斷、循環(huán)迭代等編程結構。

在TransNAR架構中，研究人員并沒有簡單地將Transformer和NAR串聯(lián)或并聯(lián)，而是通過一種稱為跨注意力的機制進行深度融合。

在這種機制下，Transformer的每一層都能夠接收來自NAR的節(jié)點和邊的嵌入信息，這些信息通過查詢、鍵和值的形式進行交互，從而實現(xiàn)信息的流動和整合。

谷歌推出全新模型，將Transformer與NAR相結合-AI.x社區(qū)

TransNAR的輸入主要包括文本形式的算法問題描述，以及相應的圖表示兩大塊：首先文本輸入被送入Transformer層，通過標準的Transformer操作，如自注意力和前饋網絡，來生成文本的表示。

同時，圖表示被送入NAR層，通過圖神經網絡的操作，如最大池化或消息傳遞，來生成圖的節(jié)點和邊的表示。

當Transformer和NAR各自準備好了自己的表示后，跨注意力機制開始發(fā)揮作用。

Transformer的查詢與NAR的鍵進行匹配，通過softmax函數(shù)進行歸一化，然后與NAR的值進行加權求和，最終生成Transformer的輸出。這一過程在模型的每一層都會重復迭代，直到最終生成模型的輸出。

多層級訓練策略也是TransNAR成功的關鍵之一。在預訓練階段，NAR被獨立訓練，以執(zhí)行CLRS-30中的算法。CLRS-30是一個包含多種算法任務的基準，這些算法任務被轉換為圖表示形式，以便NAR能夠處理。

谷歌推出全新模型，將Transformer與NAR相結合-AI.x社區(qū)

通過這種方式，幫助NAR能夠學習到各種算法的內在邏輯和計算步驟，在面對不同算法任務時，能夠展現(xiàn)出強大的魯棒性和泛化能力。

在微調階段，TransNAR開始接受包含文本描述和圖表示的雙重輸入。此時，Transformer部分開始發(fā)揮作用，利用預訓練的NAR提供的節(jié)點嵌入信息，通過跨注意力機制來調節(jié)自身的標記嵌入。

此外，在微調的時候Transformer的參數(shù)是可訓練的，而NAR的參數(shù)保持凍結。這將幫助Transformer在保持NAR魯棒性的同時，學習如何將自然語言描述轉換為算法步驟，以確保模型能夠穩(wěn)定地學習和收斂。

谷歌推出全新模型，將Transformer與NAR相結合-AI.x社區(qū)

研究人員通過CLRS-Text基準測試，對TransNAR綜合測試。結果顯示， TransNAR模型在多種算法任務上顯著優(yōu)于基線Transformer。

尤其是在分布外的泛化能力上，TransNAR展現(xiàn)出了超過20%的優(yōu)化改進。這表明TransNAR能夠有效地處理訓練數(shù)據(jù)之外的更大或更復雜的問題實例。

本文轉自 AIGC開放社區(qū) ，作者： AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/7Bu4On7yorBUf3QFvTeJDw??

標簽

數(shù)據(jù)

贊

收藏

回復

舉報

回復

相關推薦

谷歌推出多模態(tài)視頻模型，自動生成豐富動作視頻

Aceryt ? 3187瀏覽 ? 0回復
谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升

Crystalcxt ? 3045瀏覽 ? 0回復
Transformer解碼真實場景！Meta推出70M參數(shù)SceneScript模型

duhorse ? 2289瀏覽 ? 0回復
傳SearchGPT將迎擊谷歌核心業(yè)務！OpenAI與金融時報新協(xié)議已定，將進行鏈接和引用

51CTO技術棧 ? 2851瀏覽 ? 0回復
谷歌推出TransformerFAM架構，以更低的消耗處理長序列文本

Aceryt ? 2383瀏覽 ? 0回復
谷歌推出V2A，可為視頻大模型自動匹配語音

Aceryt ? 3597瀏覽 ? 0回復
港大推出全新「會說話」的推薦系統(tǒng)大模型XRec，從黑盒預測到可解釋

duhorse ? 2469瀏覽 ? 0回復
谷歌：Transformer在音樂推薦中的實踐

Syrupup ? 2211瀏覽 ? 0回復
知識圖譜與大模型的深度結合策略剖析

玄姐聊AGI ? 3999瀏覽 ? 0回復
一種將RAG、KG、VS、TF結合增強領域LLM性能的框架

PaperAgent ? 2783瀏覽 ? 0回復
LLM合集：谷歌推出逆向思維RevThink框架，大模型零樣本性能提升13.53%

AIPaperDaily ? 2637瀏覽 ? 0回復
騰訊發(fā)布全新混元大模型Hunyuan-Large：全球最大開源Transformer模型，助力AI發(fā)展新高度

Halo咯咯 ? 2474瀏覽 ? 0回復
中山大學、美團聯(lián)合團隊推出行為正則化與順序策略優(yōu)化結合的離線多智能體學習算法

xuxiangda ? 2399瀏覽 ? 0回復
云計算與大模型訓練的結合

AI探索時代 ? 1835瀏覽 ? 0回復
Voyage AI 推出 voyage-code-3：專為代碼檢索而優(yōu)化的全新下一代嵌入模型

Halo咯咯 ? 3463瀏覽 ? 0回復
2025年大模型與Transformer架構：技術前沿與未來趨勢報告

歐米伽未來研究所 ? 6798瀏覽 ? 0回復
【PaperDaily】谷歌推出AlphaGeometry2，超過金牌選手，稱霸IMO

AIPaperDaily ? 1875瀏覽 ? 0回復
DeepSeek全新注意力機制NSA發(fā)布，超快速長文訓練與推理

PaperAgent ? 2196瀏覽 ? 0回復
谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1243瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調用實戰(zhàn)教程 0回復

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復

2025年最值得關注的十大多模態(tài)大語言模型！ 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

從零到一構建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復

上一篇：中國AI大模型論文數(shù)量全球第一，清華力壓麻省理工、斯坦福

下一篇：好萊塢級視頻模型：4種混合模型，顛覆傳統(tǒng)生成方法

社區(qū)精華內容

目錄