谷歌推出全新模型,將Transformer與NAR相結合
Transformer架構的出現(xiàn)極大推動了大模型的技術創(chuàng)新,誕生出了ChatGPT、Coplit、訊飛星火、文心一言等一系列生成式AI產品。
雖然Transformer在自然語言理解任務上表現(xiàn)很好,但在算法推理方面有嚴重的缺陷。例如,當面臨超出訓練數(shù)據(jù)分布的輸入時,其泛化能力會急劇下降。這主要是因為它們的自回歸性質和掩蔽注意力機制,不符合算法輸出的邏輯順序。
而神經算法推理(NAR) 在結構化輸入上表現(xiàn)好,能夠處理各種算法任務,并且在面對訓練集之外的更大輸入時仍能保持完美的泛化能力。因此,谷歌DeepMind的研究人員將Transformer與NAR相結合推出了——TransNAR。
NAR是一種專門處理圖結構數(shù)據(jù)的神經網絡,其算法的計算步驟被表示為圖的節(jié)點和邊,而節(jié)點之間的信息通過邊進行傳遞和更新。這種巧妙設計使得NAR能夠自然地表達算法的邏輯流程,包括條件判斷、循環(huán)迭代等編程結構。
在TransNAR架構中,研究人員并沒有簡單地將Transformer和NAR串聯(lián)或并聯(lián),而是通過一種稱為跨注意力的機制進行深度融合。
在這種機制下,Transformer的每一層都能夠接收來自NAR的節(jié)點和邊的嵌入信息,這些信息通過查詢、鍵和值的形式進行交互,從而實現(xiàn)信息的流動和整合。
TransNAR的輸入主要包括文本形式的算法問題描述,以及相應的圖表示兩大塊:首先文本輸入被送入Transformer層,通過標準的Transformer操作,如自注意力和前饋網絡,來生成文本的表示。
同時,圖表示被送入NAR層,通過圖神經網絡的操作,如最大池化或消息傳遞,來生成圖的節(jié)點和邊的表示。
當Transformer和NAR各自準備好了自己的表示后,跨注意力機制開始發(fā)揮作用。
Transformer的查詢與NAR的鍵進行匹配,通過softmax函數(shù)進行歸一化,然后與NAR的值進行加權求和,最終生成Transformer的輸出。這一過程在模型的每一層都會重復迭代,直到最終生成模型的輸出。
多層級訓練策略也是TransNAR成功的關鍵之一。在預訓練階段,NAR被獨立訓練,以執(zhí)行CLRS-30中的算法。CLRS-30是一個包含多種算法任務的基準,這些算法任務被轉換為圖表示形式,以便NAR能夠處理。
通過這種方式,幫助NAR能夠學習到各種算法的內在邏輯和計算步驟,在面對不同算法任務時,能夠展現(xiàn)出強大的魯棒性和泛化能力。
在微調階段,TransNAR開始接受包含文本描述和圖表示的雙重輸入。此時,Transformer部分開始發(fā)揮作用,利用預訓練的NAR提供的節(jié)點嵌入信息,通過跨注意力機制來調節(jié)自身的標記嵌入。
此外,在微調的時候Transformer的參數(shù)是可訓練的,而NAR的參數(shù)保持凍結。這將幫助Transformer在保持NAR魯棒性的同時,學習如何將自然語言描述轉換為算法步驟,以確保模型能夠穩(wěn)定地學習和收斂。
研究人員通過CLRS-Text基準測試,對TransNAR綜合測試。結果顯示, TransNAR模型在多種算法任務上顯著優(yōu)于基線Transformer。
尤其是在分布外的泛化能力上,TransNAR展現(xiàn)出了超過20%的優(yōu)化改進。這表明TransNAR能夠有效地處理訓練數(shù)據(jù)之外的更大或更復雜的問題實例。
本文轉自 AIGC開放社區(qū) ,作者: AIGC開放社區(qū)
