自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌推出全新模型,將Transformer與NAR相結合

發(fā)布于 2024-7-8 09:35
瀏覽
0收藏

Transformer架構的出現(xiàn)極大推動了大模型的技術創(chuàng)新,誕生出了ChatGPT、Coplit、訊飛星火、文心一言等一系列生成式AI產品。


雖然Transformer在自然語言理解任務上表現(xiàn)很好,但在算法推理方面有嚴重的缺陷。例如,當面臨超出訓練數(shù)據(jù)分布的輸入時,其泛化能力會急劇下降。這主要是因為它們的自回歸性質和掩蔽注意力機制,不符合算法輸出的邏輯順序。


而神經算法推理(NAR) 在結構化輸入上表現(xiàn)好,能夠處理各種算法任務,并且在面對訓練集之外的更大輸入時仍能保持完美的泛化能力。因此,谷歌DeepMind的研究人員將Transformer與NAR相結合推出了——TransNAR。

谷歌推出全新模型,將Transformer與NAR相結合-AI.x社區(qū)

NAR是一種專門處理圖結構數(shù)據(jù)的神經網絡,其算法的計算步驟被表示為圖的節(jié)點和邊,而節(jié)點之間的信息通過邊進行傳遞和更新。這種巧妙設計使得NAR能夠自然地表達算法的邏輯流程,包括條件判斷、循環(huán)迭代等編程結構。


在TransNAR架構中,研究人員并沒有簡單地將Transformer和NAR串聯(lián)或并聯(lián),而是通過一種稱為跨注意力的機制進行深度融合。


在這種機制下,Transformer的每一層都能夠接收來自NAR的節(jié)點和邊的嵌入信息,這些信息通過查詢、鍵和值的形式進行交互,從而實現(xiàn)信息的流動和整合。

谷歌推出全新模型,將Transformer與NAR相結合-AI.x社區(qū)

TransNAR的輸入主要包括文本形式的算法問題描述,以及相應的圖表示兩大塊:首先文本輸入被送入Transformer層,通過標準的Transformer操作,如自注意力和前饋網絡,來生成文本的表示。


同時,圖表示被送入NAR層,通過圖神經網絡的操作,如最大池化或消息傳遞,來生成圖的節(jié)點和邊的表示。


當Transformer和NAR各自準備好了自己的表示后,跨注意力機制開始發(fā)揮作用。

Transformer的查詢與NAR的鍵進行匹配,通過softmax函數(shù)進行歸一化,然后與NAR的值進行加權求和,最終生成Transformer的輸出。這一過程在模型的每一層都會重復迭代,直到最終生成模型的輸出。


多層級訓練策略也是TransNAR成功的關鍵之一。在預訓練階段,NAR被獨立訓練,以執(zhí)行CLRS-30中的算法。CLRS-30是一個包含多種算法任務的基準,這些算法任務被轉換為圖表示形式,以便NAR能夠處理。

谷歌推出全新模型,將Transformer與NAR相結合-AI.x社區(qū)

通過這種方式,幫助NAR能夠學習到各種算法的內在邏輯和計算步驟,在面對不同算法任務時,能夠展現(xiàn)出強大的魯棒性和泛化能力。


在微調階段,TransNAR開始接受包含文本描述和圖表示的雙重輸入。此時,Transformer部分開始發(fā)揮作用,利用預訓練的NAR提供的節(jié)點嵌入信息,通過跨注意力機制來調節(jié)自身的標記嵌入。


此外,在微調的時候Transformer的參數(shù)是可訓練的,而NAR的參數(shù)保持凍結。這將幫助Transformer在保持NAR魯棒性的同時,學習如何將自然語言描述轉換為算法步驟,以確保模型能夠穩(wěn)定地學習和收斂。

谷歌推出全新模型,將Transformer與NAR相結合-AI.x社區(qū)

研究人員通過CLRS-Text基準測試,對TransNAR綜合測試。結果顯示, TransNAR模型在多種算法任務上顯著優(yōu)于基線Transformer。


尤其是在分布外的泛化能力上,TransNAR展現(xiàn)出了超過20%的優(yōu)化改進。這表明TransNAR能夠有效地處理訓練數(shù)據(jù)之外的更大或更復雜的問題實例。


本文轉自  AIGC開放社區(qū) ,作者: AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/7Bu4On7yorBUf3QFvTeJDw??

收藏
回復
舉報
回復
相關推薦