苦研10年無果,千萬經(jīng)費打水漂!AI黑箱依然無解,谷歌撕破臉
OpenAI只是微微升級了一下ChatGPT-4o,卻一夜讓AI性格大變,化身「賽博舔狗」。
然而,沒有人知道這到底是因為什么。
這恰恰暴露了當前AI的致命短板:缺乏可解釋性。
而關(guān)于AI可解釋性的研究價值,專家間的討論近期變得更加激烈。
具體而言,是AI巨頭谷歌和Anthropic之間關(guān)于「機制可解釋性」(mechanistic interpretability)的爭論:
3月,谷歌DeepMind宣布將不再把「機制可解釋性」作為研究重點。
4月,Anthropic的首席執(zhí)行官Dario Amodei主張應(yīng)該更加重視「機制可解釋性」的研究,并表達了對未來5到10年內(nèi)實現(xiàn)「AI的核磁共振成像」(即深入了解AI內(nèi)部機制)的樂觀態(tài)度。
所謂的機制可解釋性,目標是對AI系統(tǒng)進行「逆向工程」。
但十多年的研究成果表明,這種方法可能難以真正落地,而這一切都被不完善的基礎(chǔ)假設(shè)誤導。
人類無知之危,GenAI懸頂之劍
很多與GenAI相關(guān)的風險和擔憂,本質(zhì)上都是因為這些算法內(nèi)部機制的「黑箱」特性所引發(fā)的。
如果模型是可解釋的,這些問題會更容易被解決。
但可解釋性AI非常難以研究。
2018年,在一次采訪中Geoffrey Hinton認為可解釋性AI堪比「雞生蛋 VS 蛋生雞」。當時,他是這樣說的:
人類在大多數(shù)時候其實都無法解釋自己是如何做出決策的。 ……
神經(jīng)網(wǎng)絡(luò)也有類似的問題。你給它輸入一張圖片,它會輸出合理的判斷,比如判斷這是不是行人。
但如果你問它「為什么這么判斷?」,那問題在于:如果判斷一張圖片是否包含行人真的有一套簡單規(guī)則,這個問題早就解決了。
紐約大學教授Bob Rehder曾寫道:「解釋會促使學習者尋找通用模式,但這也可能讓他們忽視例外情況。結(jié)果就是,在那些例外頻繁出現(xiàn)的領(lǐng)域中,解釋反而可能帶來負面效果。」
Anthropic聯(lián)合創(chuàng)始人Chris Olah常說,GenAI更像是「被培養(yǎng)出來的」,而不是「被構(gòu)建出來的」
——它們的內(nèi)部機制是「涌現(xiàn)」的,而不是人為精心設(shè)計的。
這有點像種菜或養(yǎng)花:人類可以設(shè)定整體的生長條件,但不可預測且難以解釋最終形成的具體結(jié)構(gòu)。
當我們試圖去了解這些系統(tǒng)內(nèi)部時,看到的只是由數(shù)十億個數(shù)組成的龐大矩陣。這些數(shù)字能夠完成重要的認知任務(wù),但它們是如何做到這一點的,目前無人知曉。
AI系統(tǒng)的不可解釋性,也意味著在許多重要領(lǐng)域無法使用AI,因為我們無法明確設(shè)定它們行為的邊界,而一旦出現(xiàn)錯誤,后果可能極其嚴重。
事實上,在某些場景下,模型不可解釋甚至在法律上直接阻止了它們的使用。
同樣地,AI在科學領(lǐng)域取得了重大進展。
比如對DNA和蛋白質(zhì)序列的預測能力大幅提高,但這些由AI發(fā)現(xiàn)的模式和結(jié)構(gòu)人類往往難以理解,也無法帶來生物學上的真正洞見。
機制可解釋性,主要是試圖找出模型中哪些具體的「神經(jīng)元」和「回路」在執(zhí)行某項任務(wù)時發(fā)揮了作用。
研究者希望借此能夠追蹤模型的思考過程,從而以「硬件原理」的方式解釋它的行為。
許多人認為這種詳細的理解對于AI安全來說是無價的;它可以使研究人員精確地設(shè)計模型,在所有條件下按預期行為運作,可靠地避免所有風險。
谷歌:感覺被坑了
對機制可解釋性的研究,源于研究人員對真理的信仰:知識就是力量;命名即了解,了解即控制。
早在谷歌工作期間,Chris Olah嘗試以系統(tǒng)化方式研究如何打開這個LLM「黑箱」、理解模型內(nèi)部運作。
機制可解釋性的早期階段(2014–2020)主要集中在圖像模型上,研究者成功識別出了一些與人類可理解概念對應(yīng)的神經(jīng)元。
這與早期神經(jīng)科學的假設(shè)類似,例如大腦中存在識別特定人物或概念的神經(jīng)元,被稱為「Jennifer Aniston神經(jīng)元」。
CLIP模型的最終層部分神經(jīng)元
Anthropic:矢志不渝AI解釋性
Anthropic創(chuàng)辦時,聯(lián)合創(chuàng)始人Chris Olah和Dario Amodei,決定將可解釋性方法應(yīng)用到語言模型。
Dario Amodei
很快,他們就在模型中發(fā)現(xiàn)了一些基礎(chǔ)機制,這些機制對語言理解至關(guān)重要,比如復制、序列匹配等。
同時,也找到了類似于圖像模型中的、可以表示特定詞語或概念的可解釋神經(jīng)元。
但問題的復雜性曾一度阻礙了解釋性的研究進展,直到后來他們發(fā)現(xiàn),信號處理領(lǐng)域已有的一種技術(shù)——
稀疏自編碼器(sparse autoencoders,SAE)可以識別出神經(jīng)元組合,這些組合能更清晰地表達接近人類理解的概念。
相較于單個神經(jīng)元,這些組合能表達更微妙的概念,比如「字面或隱喻上的猶豫與回避」,或是「表達不滿情緒的音樂流派」。
這些組合被稱為「特征」(features),并用稀疏自編碼器方法映射了各種規(guī)模的模型,包括最先進的商用模型。
最近,他們的研究已經(jīng)從「追蹤和操作單個特征」拓展到了「追蹤和操作一組特征」,稱之為「回路」(circuits)。
借助這些回路,大家可以「追蹤」模型的思維路徑。
例如,當你問模型「達拉斯所在州的首府是哪座城市?」時,模型內(nèi)部會啟用一個「包含關(guān)系」(located within)的回路,使得「達拉斯」這個特征激活「德克薩斯」,接著再通過另一個回路,讓「德克薩斯」和「首府」這兩個概念共同激活「奧斯汀」。
使用回路追蹤方法,Anthropic研究了Claude 3.5 Haiku所使用的內(nèi)部機制。
谷歌DeepMind:暫緩SAE研究
事實證明,要讓SAE穩(wěn)定有效地工作非常困難。
這正是DeepMind最近決定降低SAE優(yōu)先級的原因之一。
DeepMind研究團隊發(fā)表了技術(shù)博客,詳細解釋了為什么他們不看好稀疏自編碼器的原因。
他們最初的核心動機在于,可解釋性研究領(lǐng)域中的許多人,在稀疏自編碼器(SAE)上投入了大量精力。
但SAE缺乏「真實」特征的客觀參照標準,無法與語言模型中的真實結(jié)構(gòu)進行比對,這很難判斷它究竟工作得有多好。
雖然定性分析表明SAE確實捕捉到了某些結(jié)構(gòu)(遠非隨機噪聲所能解釋),但局限性同樣明顯——
當在Neuronpedia中輸入任意句子并觀察激活的潛在變量時,這些變量往往無法對應(yīng)清晰的語義解釋。
Neuronpedia最初是專為稀疏自編碼器(SAE)研究設(shè)計的平臺,但現(xiàn)已升級為支持廣義機制可解釋性研究的開放基礎(chǔ)設(shè)施
在決定是否繼續(xù)優(yōu)先發(fā)展SAE時,有必要更宏觀地思考可解釋性研究的評價標準。
傳統(tǒng)思路假設(shè)模型內(nèi)部存在某種精確的、人類可理解的「客觀真相」,并試圖通過逆向工程揭示它。
對SAE而言,這種理想化愿景體現(xiàn)為「希望SAE潛在變量能捕捉模型內(nèi)部的規(guī)范概念集合」。
但現(xiàn)在谷歌清楚地認識到SAE存在眾多問題:
現(xiàn)狀評估:現(xiàn)有SAE技術(shù)距離這一目標相去甚遠
哲學質(zhì)疑:模型內(nèi)部是否真的存在這種「真實概念」尚屬未知
技術(shù)瓶頸:即使存在真實概念,SAE也存在多重固有缺陷:概念覆蓋不全(missing concepts)、噪聲表征問題(如微小激活量缺乏可解釋性)、特征扭曲現(xiàn)象(如特征吸收等異常變形)、高假陰性率(看似可解釋的潛在變量存在大量漏檢)
研究團隊精心設(shè)計并完成了探測實驗,從中得到的關(guān)鍵新發(fā)現(xiàn)是:
當前的稀疏自編碼器(SAE)并不能識別出在某些關(guān)鍵任務(wù)中所需的「概念」;而線性探測器(linear probe)卻能找到一個有用的方向。
這可能有多種解釋,但無論是哪種情況,這都表明,SAE可能并不是在實際任務(wù)中所需要的合適工具。
雖然任何一個單獨的負面結(jié)果都不構(gòu)成強有力的結(jié)論,但如果SAE真的是可解釋性研究的一大突破,那應(yīng)該不至于難以找到能夠明顯優(yōu)于基線方法的應(yīng)用場景。
DeepMind相關(guān)研究團隊認為:在短期內(nèi),SAE以及基于SAE的技術(shù)不太可能帶來革命性突破,甚至有可能永遠無法成為真正的轉(zhuǎn)折點。
十年研究,一地雞毛
機制可解釋性這個目標可能過于理想化。
在過去十多年里,各大公司和研究機構(gòu)投入了大量人才和數(shù)百萬美元,推進多個可解釋性研究項目。
雖然這些研究常常帶來短暫的興奮和關(guān)注,但至今沒有哪項成果真正經(jīng)受住了時間的考驗。
特征可視化
在2015年,Mordvintsev等人年提出特征可視化,發(fā)現(xiàn)哪些特征激活單個神經(jīng)元來理解圖像分類器的工作原理。
然而,對該技術(shù)的可靠性和實用性仍存疑慮。
神經(jīng)元常常對多個不相關(guān)的特征產(chǎn)生反應(yīng),難以對其角色給出簡潔的解釋。
顯著性圖
顯著性圖生成了令人信服的圖像,從人類視角看似乎突出了圖像中最重要的部分。
但2020年的研究表明顯著性圖并未捕捉到訓練模型所學內(nèi)容或其關(guān)注的重點。
論文鏈接:https://arxiv.org/abs/1810.03292
引導反向傳播是一種顯著性圖技術(shù),對隨機模型和實際訓練模型提供相似的解釋,表明它并未真正解釋任何內(nèi)容。
BERT可解釋性錯覺
語言模型的解釋技術(shù)也存在類似的缺陷。
在2021年,研究人員描述了尋找能最大程度激活BERT模型中單個目標神經(jīng)元的句子,最初發(fā)現(xiàn)了一個令人信服的模式。但當使用不同的數(shù)據(jù)集時,該模式消失,同一神經(jīng)元對完全不同類型的句子反應(yīng)最強烈。
論文鏈接:https://arxiv.org/abs/2104.07143
Chinchilla回路分析
在2023年,DeepMind的一篇論文中將可解釋性方法應(yīng)用于700億參數(shù)的Chinchilla模型,結(jié)果喜憂參半。
論文鏈接:https://arxiv.org/abs/2307.09458
盡管作者發(fā)現(xiàn)了一組似乎與特定任務(wù)相關(guān)的神經(jīng)元,但這一過程耗時數(shù)月,令人質(zhì)疑以這種方式理解大型模型的實用性。
此外,當任務(wù)格式稍有變化時,識別節(jié)點的性能下降,表明它們僅提供了部分解釋,模型的其他部分也必須參與其中。
迷途知返
這種「自下而上」「從局部到整體」的機制解釋性研究,或許從根本上就錯了?
畢竟,核磁共振(MRI)可以探測大腦中的血流,揭示哪些區(qū)域與某些想法或任務(wù)有關(guān),但它無法逐個神經(jīng)元地追蹤人的思想。
非營利機構(gòu)AI Frontiers的Dan Hendrycks(下圖男士)和Laura Hiscott(下圖女士),認為AI可解釋性研究應(yīng)當從更高層次的特征入手。
研究人員應(yīng)該借鑒其他復雜系統(tǒng)的方法——就像氣象學家、生物學家和心理學家往往先研究其對象的高層特征一樣——
應(yīng)該采取「自上而下」的方式來推動AI的可解釋性研究,而不是從底層機制出發(fā)的「自下而上」方法。
2001年,Leo Breiman發(fā)表了一篇開創(chuàng)性但當時極具爭議的論文,主張復雜而不透明的機器學習系統(tǒng)遠比整潔的統(tǒng)計公式更強大。
從這個角度看,機制可解釋性可能更像是一種吸引「理性審美」的研究方向,而不是一個具有廣闊前景的實用領(lǐng)域。
而執(zhí)著于機制可解釋性,或許在希望深度學習系統(tǒng)變成本質(zhì)上「面目全非」的樣子。