從“Nature局部核重整化學(xué)習(xí)機(jī)制”說開去
局部核重整化學(xué)習(xí)機(jī)制
自然通訊2025年1月10日刊發(fā)一篇題為“局部核重整化作為超參數(shù)化卷積神經(jīng)網(wǎng)絡(luò)中特征學(xué)習(xí)的機(jī)制” 的文章【文獻(xiàn)1】,學(xué)者們稱“確定了一種完全不同的內(nèi)核重整化形式:全連接架構(gòu)的內(nèi)核只是由單個(gè)標(biāo)量參數(shù)全局重整化,而卷積核則經(jīng)歷局部重整化,這意味著網(wǎng)絡(luò)可以選擇局部分量,這些分量將以數(shù)據(jù)依賴的方式為最終預(yù)測(cè)做出貢獻(xiàn)”。
這一發(fā)現(xiàn)強(qiáng)調(diào)了一種簡(jiǎn)單的特征學(xué)習(xí)機(jī)制,CNN的重整化內(nèi)核表達(dá)式中展示的核重整化的精確形式就是學(xué)者們定義的局部核重整化。該矩陣??ˉ為所考慮的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型中的特征學(xué)習(xí)提供了一個(gè)緊湊的描述:
在訓(xùn)練過程中優(yōu)化的特征矩陣元素??ˉij實(shí)際上與局部協(xié)方差矩陣的 ?N0/S? 個(gè)補(bǔ)丁對(duì)的組合一一對(duì)應(yīng),而這些補(bǔ)丁又是由訓(xùn)練集元素 xμ 的補(bǔ)丁定義的??梢詫⒕仃??ˉ解釋為一個(gè)特征、數(shù)據(jù)相關(guān)的矩陣,表示局部核的給定分量對(duì)重整化核的貢獻(xiàn)程度。
特征矩陣元素 ??ij也具有自然的物理解釋,作為對(duì)應(yīng)于補(bǔ)丁(i,j)的讀出向量相關(guān)性的熱平均值。
論文觀察結(jié)果并不排除全連接深度神經(jīng)網(wǎng)絡(luò)架構(gòu)中所有其他可能的特征學(xué)習(xí)形式:如無限寬內(nèi)核的重整化并不是特征學(xué)習(xí)的唯一可能來源。與無限寬度限制無關(guān)的高階核可能在特征學(xué)習(xí)中發(fā)揮作用,尤其是在考慮數(shù)據(jù)集大小 P 大致與全連接深度神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量 ~ L × N2(N? = N ? ?)成比例的情況下。
關(guān)于重整化作為深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機(jī)制,筆者過去探討過很多。
神經(jīng)網(wǎng)絡(luò)中的尺度重整化
在漂亮國的核潛艇與深度學(xué)習(xí)的內(nèi)卷一文中,筆者總結(jié)過:玻爾茲曼機(jī)踐行了重整化群的思想,事實(shí)上,在神經(jīng)網(wǎng)絡(luò)中引入隱含節(jié)點(diǎn)就是尺度重整化。每一次尺度變換后,自由能保持不變。F =-lnZ, 這里Z是配分函數(shù),是一個(gè)能量(不同能級(jí)上粒子數(shù))的概率分布,Z不變,即能量的概率分布不變。重整化群給出了損失函數(shù),也就是不同層的F自由能的差異,或者說兩個(gè)能量概率分布的“距離”, 訓(xùn)練就是來最小化這個(gè)距離。
筆者在相變與涌現(xiàn)中特別介紹了重整化群:重整化群(RG : Renormalization Group) 是研究不同尺度下對(duì)稱性破缺與重建過程的核心數(shù)學(xué)手段。借助重整化群這一研究復(fù)雜物理系統(tǒng)行為的框架,人們可以在不同尺度上分析系統(tǒng),并理解隨著觀察尺度的變化,系統(tǒng)的特性如何變化。通過這種方式,RG提供了一種研究微觀細(xì)節(jié)如何產(chǎn)生較大尺度新涌現(xiàn)特性的方法。
然后又在?重整化群與生成式AI文中詳述了重整化群流在預(yù)訓(xùn)練與生成方面的機(jī)理:對(duì)一張圖像,重整化從細(xì)顆粒度到粗顆粒度,逐層提取潛變量Zn, 提取圖像中蘊(yùn)含的各層次的結(jié)構(gòu);而生成圖像的過程就是從粗粒度,對(duì)潛變量的高斯概率分布進(jìn)行采樣,重建下一個(gè)層次的結(jié)構(gòu)(類似你跟別人描述這個(gè)人濃眉大眼)。重整化的群變換Gn 在生成過程中用到 Gn的逆。GPT 和其他大語言模型的使用的Transformer其實(shí)就可以類比這些重整化的群變換G。
重整化與大模型數(shù)理機(jī)制
物理諾獎(jiǎng)、統(tǒng)計(jì)力學(xué)與大模型,筆者斷言:Transformer 等價(jià)于重整化,基于過去對(duì)這一領(lǐng)域的關(guān)鍵分析: 重整化(RG)包括一個(gè)由大量自由度描述的系統(tǒng),RG逐級(jí)尺度執(zhí)行粗粒度化操作,自由度子集被組合在一起平均,以形成新的集體變量/隱變量。重整化自然成為統(tǒng)計(jì)力學(xué)的最佳工具。
重整化群與生成式AI 中,RG的數(shù)學(xué)形式表達(dá)為:G(Z) = G1G2G3G…Gn( Z )。這里的G1到Gn對(duì)應(yīng)不同層次上Operation 或者說Transformation,也就是在各個(gè)層次的潛變量構(gòu)成的新坐標(biāo)系里面的變換,Gx(Z)是系統(tǒng)在潛變量函數(shù)基張成的空間中的樣子。
重整化群流作為最優(yōu)輸運(yùn) 不僅確定了精確重整化群流的方程等效于場(chǎng)的相對(duì)熵的最優(yōu)輸運(yùn)梯度流,還巧妙的使用最優(yōu)輸運(yùn)的思想將重整化群轉(zhuǎn)化為變分問題。
尺度變換的每一步,RG 流都將會(huì)沿著最優(yōu)輸運(yùn)的方向進(jìn)行,也就是物理量的 RG 流尺度變換前的概率分布與尺度變換后的概率分布的距離最近的方向,而最優(yōu)輸運(yùn)某種意義上是自然演化的必然方向和準(zhǔn)則。
圖片
筆者在降低大模型幻覺的必由之路文中針對(duì)重整化、范疇與transformer之間的關(guān)系做了詳細(xì)的闡述:
重整化本質(zhì)是尺度從小到大粗粒度化概率分布的過程,而深度神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)學(xué)習(xí)小尺度結(jié)構(gòu)逐級(jí)到認(rèn)知全局特征,而大模型的Transformer 則可以逆重整化流,逐尺度重建微觀概率分布,從而完成生成。
這里的范疇是Transformer視角下的高維概率向量編織起來的事物之間的各種復(fù)雜的關(guān)系。從海量的預(yù)訓(xùn)練數(shù)據(jù)集中提純出來,對(duì)大量的分段線性核函數(shù)參數(shù)化后的表達(dá)。這些關(guān)系,關(guān)系的關(guān)系,關(guān)系的關(guān)系的關(guān)系,本質(zhì)上,在范疇論概念下,就是對(duì)事物的米田嵌入。
重整化視角的大模型數(shù)理認(rèn)知框架
MIT對(duì)大模型數(shù)理原理的強(qiáng)有力證明,筆者做了重整化視角的大模型數(shù)理認(rèn)知框架原理回顧:
海量的文本或者多模態(tài)語料組成了大模型需要認(rèn)知的外部世界的基本信息;嵌入構(gòu)建高維概率化的語言空間,用來建模語言文字圖像以及音視頻,并對(duì)連續(xù)變量做離散化;
預(yù)訓(xùn)練以重整化群流的方式進(jìn)行,在不同尺度上提煉語料數(shù)據(jù)中的信息概率分布;重整化群流的每一步流動(dòng)(自回歸預(yù)測(cè)逼近訓(xùn)練語料概率分布),都沿著最優(yōu)輸運(yùn)的成本最低方向進(jìn)行;
重整化群在不動(dòng)點(diǎn)附近因新語料帶來微擾而發(fā)生對(duì)稱性破缺,滑入不同的相空間;不同的相空間,對(duì)應(yīng)某種意義上的范疇,可形象化為信息的結(jié)晶;這是大模型從語料中學(xué)到的內(nèi)部世界模型;
在外部感官輸入下(被提示置于某種上下文),大模型內(nèi)部將限定在相應(yīng)的高維語言概率空間的子空間內(nèi)推理;推理是在子空間中采樣,類比時(shí)跨范疇采樣;
采樣不斷進(jìn)行,基于內(nèi)部概率化了的世界模型(預(yù)訓(xùn)練獲得的先驗(yàn)),針對(duì)感官輸入(提示),做變分推斷,最小化自由能,獲取最佳采樣分布q*,作為對(duì)導(dǎo)致感官輸入的外部后驗(yàn)的預(yù)測(cè)。
圖片
可總結(jié)為:1、重整化從海量語料中提取出范疇,2、持續(xù)重整化驅(qū)動(dòng)范疇解構(gòu)重組結(jié)晶,3、生成過程于范疇中采樣做變分推理。
推演大模型局限與發(fā)展脈絡(luò),筆者基于這個(gè)數(shù)理認(rèn)知框架推斷:采樣做變分推理的部分尤其薄弱,即使學(xué)到某些領(lǐng)域的豐富的知識(shí),提煉成相當(dāng)豐富的范疇,其采樣與變分推理還處在早期人工智能“煉丹”階段,提示工程、CoT、o1的強(qiáng)化學(xué)習(xí)推理,僅是“煉丹”方式不同。
通往ASI的大模型推理
重新思考 MoE中筆者看到大模型不斷提升推理能力的路徑:“目前 MoE 可以理解為一種分布式采樣策略,可以GShard硬編碼,或進(jìn)一步DeepSeekMoE細(xì)分,也可以如MoDE基于噪聲更靈活調(diào)節(jié)策略,亦或引入某種優(yōu)化器(類似SQL優(yōu)化器),并最終依賴推理的scaling law涌現(xiàn)出策略”。
測(cè)試時(shí)計(jì)算(Test-time Computing)也被寄予厚望。【文獻(xiàn)2】蘇州大學(xué)、新加坡國立大學(xué)和螞蟻集團(tuán)的研究人員探索了測(cè)試時(shí)計(jì)算,追蹤了其從 System-1 到 System-2 模型的演變。
測(cè)試時(shí)計(jì)算最初應(yīng)用于 System-1 模型,通過參數(shù)更新、輸入修改和輸出校準(zhǔn)來解決分布偏移并增強(qiáng)穩(wěn)健性,現(xiàn)在使用重復(fù)采樣、自我校正和樹搜索等策略加強(qiáng)了 System-2 模型中的推理。
測(cè)試時(shí)適應(yīng)(TTA)在推理過程中使用測(cè)試樣本信息微調(diào)模型。關(guān)鍵考慮因素包括學(xué)習(xí)信號(hào)、參數(shù)更新和確保效率。測(cè)試時(shí)訓(xùn)練 (TTT) 學(xué)習(xí)信號(hào)使用輔助任務(wù),而完全測(cè)試時(shí)適應(yīng) (FTTA) 利用內(nèi)部反饋(如熵最小化)。
筆者認(rèn)為,測(cè)試時(shí)計(jì)算模型更新,等于利用測(cè)試樣本信息在推理階段進(jìn)一步微調(diào)了模型參數(shù),使模型能夠適應(yīng)測(cè)試分布。這樣不僅學(xué)了更多的內(nèi)容(測(cè)試語料),還反復(fù)推敲學(xué)習(xí)如何采樣變分用于推理,本質(zhì)是積累了推理的范疇。
測(cè)試時(shí)計(jì)算的訓(xùn)練方式,如果推廣到更大范圍的語料(甚至重復(fù)利用預(yù)訓(xùn)練時(shí)期的語料),可以積累更多推理范疇,從而提升推理能力。預(yù)訓(xùn)練的語料中,也有大量類似的推理場(chǎng)景,針對(duì)此類場(chǎng)景,采用測(cè)試時(shí)適應(yīng),或類似的測(cè)試時(shí)計(jì)算的策略,在預(yù)訓(xùn)練時(shí)就可以同時(shí)積累推理的范疇,即推理內(nèi)化成內(nèi)部世界模型中的一部分。
文獻(xiàn)1,https://www.nature.com/articles/s41467-024-55229-3 Local kernel renormalization as a mechanism for feature learning in overparametrized convolutional neural networks
文獻(xiàn) 2, https://arxiv.org/abs/2501.02497 Test-time Computing: from System-1 Thinking to System-2 Thinking
