自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

苦研10年無果,千萬經(jīng)費打水漂!AI黑箱依然無解,谷歌撕破臉

人工智能 新聞
ChatGPT「舔狗化」事件背后,暴漏目前AI仍是「黑箱」。 ?一場關(guān)于「機制可解釋性」的路線分歧,正撕裂AI研究最核心的價值共識。谷歌認慫,Anthropic死磕——AI還能被「看懂」嗎?

OpenAI只是微微升級了一下ChatGPT-4o,卻一夜讓AI性格大變,化身「賽博舔狗」。

然而,沒有人知道這到底是因為什么。

這恰恰暴露了當前AI的致命短板:缺乏可解釋性。

而關(guān)于AI可解釋性的研究價值,專家間的討論近期變得更加激烈。

具體而言,是AI巨頭谷歌和Anthropic之間關(guān)于「機制可解釋性」(mechanistic interpretability)的爭論:

3月,谷歌DeepMind宣布將不再把「機制可解釋性」作為研究重點。

4月,Anthropic的首席執(zhí)行官Dario Amodei主張應(yīng)該更加重視「機制可解釋性」的研究,并表達了對未來5到10年內(nèi)實現(xiàn)「AI的核磁共振成像」(即深入了解AI內(nèi)部機制)的樂觀態(tài)度。

所謂的機制可解釋性,目標是對AI系統(tǒng)進行「逆向工程」。

但十多年的研究成果表明,這種方法可能難以真正落地,而這一切都被不完善的基礎(chǔ)假設(shè)誤導。

圖片

人類無知之危,GenAI懸頂之劍

很多與GenAI相關(guān)的風險和擔憂,本質(zhì)上都是因為這些算法內(nèi)部機制的「黑箱」特性所引發(fā)的。

如果模型是可解釋的,這些問題會更容易被解決。

但可解釋性AI非常難以研究。

2018年,在一次采訪中Geoffrey Hinton認為可解釋性AI堪比「雞生蛋 VS 蛋生雞」。當時,他是這樣說的:

人類在大多數(shù)時候其實都無法解釋自己是如何做出決策的。  ……  

神經(jīng)網(wǎng)絡(luò)也有類似的問題。你給它輸入一張圖片,它會輸出合理的判斷,比如判斷這是不是行人。  

但如果你問它「為什么這么判斷?」,那問題在于:如果判斷一張圖片是否包含行人真的有一套簡單規(guī)則,這個問題早就解決了。

紐約大學教授Bob Rehder曾寫道:「解釋會促使學習者尋找通用模式,但這也可能讓他們忽視例外情況。結(jié)果就是,在那些例外頻繁出現(xiàn)的領(lǐng)域中,解釋反而可能帶來負面效果。」

圖片

Anthropic聯(lián)合創(chuàng)始人Chris Olah常說,GenAI更像是「被培養(yǎng)出來的」,而不是「被構(gòu)建出來的」

——它們的內(nèi)部機制是「涌現(xiàn)」的,而不是人為精心設(shè)計的。

圖片

這有點像種菜或養(yǎng)花:人類可以設(shè)定整體的生長條件,但不可預測且難以解釋最終形成的具體結(jié)構(gòu)。

當我們試圖去了解這些系統(tǒng)內(nèi)部時,看到的只是由數(shù)十億個數(shù)組成的龐大矩陣。這些數(shù)字能夠完成重要的認知任務(wù),但它們是如何做到這一點的,目前無人知曉。

AI系統(tǒng)的不可解釋性,也意味著在許多重要領(lǐng)域無法使用AI,因為我們無法明確設(shè)定它們行為的邊界,而一旦出現(xiàn)錯誤,后果可能極其嚴重。

事實上,在某些場景下,模型不可解釋甚至在法律上直接阻止了它們的使用。

同樣地,AI在科學領(lǐng)域取得了重大進展。

比如對DNA和蛋白質(zhì)序列的預測能力大幅提高,但這些由AI發(fā)現(xiàn)的模式和結(jié)構(gòu)人類往往難以理解,也無法帶來生物學上的真正洞見。

機制可解釋性,主要是試圖找出模型中哪些具體的「神經(jīng)元」和「回路」在執(zhí)行某項任務(wù)時發(fā)揮了作用。

研究者希望借此能夠追蹤模型的思考過程,從而以「硬件原理」的方式解釋它的行為。

許多人認為這種詳細的理解對于AI安全來說是無價的;它可以使研究人員精確地設(shè)計模型,在所有條件下按預期行為運作,可靠地避免所有風險。

谷歌:感覺被坑了

對機制可解釋性的研究,源于研究人員對真理的信仰:知識就是力量;命名即了解,了解即控制。

早在谷歌工作期間,Chris Olah嘗試以系統(tǒng)化方式研究如何打開這個LLM「黑箱」、理解模型內(nèi)部運作。

圖片

機制可解釋性的早期階段(2014–2020)主要集中在圖像模型上,研究者成功識別出了一些與人類可理解概念對應(yīng)的神經(jīng)元。

這與早期神經(jīng)科學的假設(shè)類似,例如大腦中存在識別特定人物或概念的神經(jīng)元,被稱為「Jennifer Aniston神經(jīng)元」。

圖片

CLIP模型的最終層部分神經(jīng)元

Anthropic:矢志不渝AI解釋性

Anthropic創(chuàng)辦時,聯(lián)合創(chuàng)始人Chris Olah和Dario Amodei,決定將可解釋性方法應(yīng)用到語言模型。

圖片

Dario Amodei

很快,他們就在模型中發(fā)現(xiàn)了一些基礎(chǔ)機制,這些機制對語言理解至關(guān)重要,比如復制、序列匹配等。

同時,也找到了類似于圖像模型中的、可以表示特定詞語或概念的可解釋神經(jīng)元。

圖片

但問題的復雜性曾一度阻礙了解釋性的研究進展,直到后來他們發(fā)現(xiàn),信號處理領(lǐng)域已有的一種技術(shù)——

稀疏自編碼器(sparse autoencoders,SAE)可以識別出神經(jīng)元組合,這些組合能更清晰地表達接近人類理解的概念。

相較于單個神經(jīng)元,這些組合能表達更微妙的概念,比如「字面或隱喻上的猶豫與回避」,或是「表達不滿情緒的音樂流派」。

這些組合被稱為「特征」(features),并用稀疏自編碼器方法映射了各種規(guī)模的模型,包括最先進的商用模型。

最近,他們的研究已經(jīng)從「追蹤和操作單個特征」拓展到了「追蹤和操作一組特征」,稱之為「回路」(circuits)。

借助這些回路,大家可以「追蹤」模型的思維路徑。

例如,當你問模型「達拉斯所在州的首府是哪座城市?」時,模型內(nèi)部會啟用一個「包含關(guān)系」(located within)的回路,使得「達拉斯」這個特征激活「德克薩斯」,接著再通過另一個回路,讓「德克薩斯」和「首府」這兩個概念共同激活「奧斯汀」。

圖片

使用回路追蹤方法,Anthropic研究了Claude 3.5 Haiku所使用的內(nèi)部機制。

谷歌DeepMind:暫緩SAE研究

事實證明,要讓SAE穩(wěn)定有效地工作非常困難。

這正是DeepMind最近決定降低SAE優(yōu)先級的原因之一。

DeepMind研究團隊發(fā)表了技術(shù)博客,詳細解釋了為什么他們不看好稀疏自編碼器的原因。

圖片

他們最初的核心動機在于,可解釋性研究領(lǐng)域中的許多人,在稀疏自編碼器(SAE)上投入了大量精力。

但SAE缺乏「真實」特征的客觀參照標準,無法與語言模型中的真實結(jié)構(gòu)進行比對,這很難判斷它究竟工作得有多好。

雖然定性分析表明SAE確實捕捉到了某些結(jié)構(gòu)(遠非隨機噪聲所能解釋),但局限性同樣明顯——

當在Neuronpedia中輸入任意句子并觀察激活的潛在變量時,這些變量往往無法對應(yīng)清晰的語義解釋。

圖片

Neuronpedia最初是專為稀疏自編碼器(SAE)研究設(shè)計的平臺,但現(xiàn)已升級為支持廣義機制可解釋性研究的開放基礎(chǔ)設(shè)施

在決定是否繼續(xù)優(yōu)先發(fā)展SAE時,有必要更宏觀地思考可解釋性研究的評價標準。

傳統(tǒng)思路假設(shè)模型內(nèi)部存在某種精確的、人類可理解的「客觀真相」,并試圖通過逆向工程揭示它。

對SAE而言,這種理想化愿景體現(xiàn)為「希望SAE潛在變量能捕捉模型內(nèi)部的規(guī)范概念集合」。

但現(xiàn)在谷歌清楚地認識到SAE存在眾多問題:

現(xiàn)狀評估:現(xiàn)有SAE技術(shù)距離這一目標相去甚遠

哲學質(zhì)疑:模型內(nèi)部是否真的存在這種「真實概念」尚屬未知  

技術(shù)瓶頸:即使存在真實概念,SAE也存在多重固有缺陷:概念覆蓋不全(missing concepts)、噪聲表征問題(如微小激活量缺乏可解釋性)、特征扭曲現(xiàn)象(如特征吸收等異常變形)、高假陰性率(看似可解釋的潛在變量存在大量漏檢)

研究團隊精心設(shè)計并完成了探測實驗,從中得到的關(guān)鍵新發(fā)現(xiàn)是:

當前的稀疏自編碼器(SAE)并不能識別出在某些關(guān)鍵任務(wù)中所需的「概念」;而線性探測器(linear probe)卻能找到一個有用的方向。

這可能有多種解釋,但無論是哪種情況,這都表明,SAE可能并不是在實際任務(wù)中所需要的合適工具。

雖然任何一個單獨的負面結(jié)果都不構(gòu)成強有力的結(jié)論,但如果SAE真的是可解釋性研究的一大突破,那應(yīng)該不至于難以找到能夠明顯優(yōu)于基線方法的應(yīng)用場景。

DeepMind相關(guān)研究團隊認為:在短期內(nèi),SAE以及基于SAE的技術(shù)不太可能帶來革命性突破,甚至有可能永遠無法成為真正的轉(zhuǎn)折點。

十年研究,一地雞毛

機制可解釋性這個目標可能過于理想化。

在過去十多年里,各大公司和研究機構(gòu)投入了大量人才和數(shù)百萬美元,推進多個可解釋性研究項目。

雖然這些研究常常帶來短暫的興奮和關(guān)注,但至今沒有哪項成果真正經(jīng)受住了時間的考驗。

特征可視化

在2015年,Mordvintsev等人年提出特征可視化,發(fā)現(xiàn)哪些特征激活單個神經(jīng)元來理解圖像分類器的工作原理。

然而,對該技術(shù)的可靠性和實用性仍存疑慮。

神經(jīng)元常常對多個不相關(guān)的特征產(chǎn)生反應(yīng),難以對其角色給出簡潔的解釋。

圖片

顯著性圖

顯著性圖生成了令人信服的圖像,從人類視角看似乎突出了圖像中最重要的部分。

但2020年的研究表明顯著性圖并未捕捉到訓練模型所學內(nèi)容或其關(guān)注的重點。

圖片

論文鏈接:https://arxiv.org/abs/1810.03292

圖片

引導反向傳播是一種顯著性圖技術(shù),對隨機模型和實際訓練模型提供相似的解釋,表明它并未真正解釋任何內(nèi)容。

BERT可解釋性錯覺

語言模型的解釋技術(shù)也存在類似的缺陷。

在2021年,研究人員描述了尋找能最大程度激活BERT模型中單個目標神經(jīng)元的句子,最初發(fā)現(xiàn)了一個令人信服的模式。但當使用不同的數(shù)據(jù)集時,該模式消失,同一神經(jīng)元對完全不同類型的句子反應(yīng)最強烈。

圖片

論文鏈接:https://arxiv.org/abs/2104.07143

Chinchilla回路分析

在2023年,DeepMind的一篇論文中將可解釋性方法應(yīng)用于700億參數(shù)的Chinchilla模型,結(jié)果喜憂參半。

圖片

論文鏈接:https://arxiv.org/abs/2307.09458

盡管作者發(fā)現(xiàn)了一組似乎與特定任務(wù)相關(guān)的神經(jīng)元,但這一過程耗時數(shù)月,令人質(zhì)疑以這種方式理解大型模型的實用性。

此外,當任務(wù)格式稍有變化時,識別節(jié)點的性能下降,表明它們僅提供了部分解釋,模型的其他部分也必須參與其中。

迷途知返

這種「自下而上」「從局部到整體」的機制解釋性研究,或許從根本上就錯了?

畢竟,核磁共振(MRI)可以探測大腦中的血流,揭示哪些區(qū)域與某些想法或任務(wù)有關(guān),但它無法逐個神經(jīng)元地追蹤人的思想。

非營利機構(gòu)AI Frontiers的Dan Hendrycks(下圖男士)和Laura Hiscott(下圖女士),認為AI可解釋性研究應(yīng)當從更高層次的特征入手。

圖片

研究人員應(yīng)該借鑒其他復雜系統(tǒng)的方法——就像氣象學家、生物學家和心理學家往往先研究其對象的高層特征一樣——

應(yīng)該采取「自上而下」的方式來推動AI的可解釋性研究,而不是從底層機制出發(fā)的「自下而上」方法。

2001年,Leo Breiman發(fā)表了一篇開創(chuàng)性但當時極具爭議的論文,主張復雜而不透明的機器學習系統(tǒng)遠比整潔的統(tǒng)計公式更強大。

圖片

從這個角度看,機制可解釋性可能更像是一種吸引「理性審美」的研究方向,而不是一個具有廣闊前景的實用領(lǐng)域。

而執(zhí)著于機制可解釋性,或許在希望深度學習系統(tǒng)變成本質(zhì)上「面目全非」的樣子。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-04-12 16:25:00

谷歌人工智能

2012-11-06 09:51:07

VMware云計算

2009-11-20 15:49:28

2019-05-30 06:37:38

網(wǎng)絡(luò)故障網(wǎng)絡(luò)協(xié)議網(wǎng)絡(luò)

2011-02-25 14:30:09

思科云郵件服務(wù)

2023-09-06 12:58:24

LLaMA離職AI

2017-01-10 07:51:49

比特幣投資亞閃

2025-02-13 10:25:36

2019-01-22 18:40:09

2019-07-08 11:37:44

網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全技術(shù)周刊

2019-01-23 15:23:21

程序員刪庫跑路游戲公司

2023-05-22 09:19:19

2022-03-30 14:34:28

火星探測器航天局

2019-01-24 09:22:39

程序員服務(wù)器游戲項目

2025-03-05 18:38:28

OpenAIxAIDeepSeek

2012-04-12 09:10:15

Android侵權(quán)案甲骨文谷歌

2019-01-31 15:27:24

架構(gòu)技術(shù)棧微信半月刊

2024-05-27 10:52:06

2016-09-27 11:08:53

數(shù)據(jù)分析開源奧運會

2018-05-06 23:30:11

Windows Mobile 系統(tǒng)
點贊
收藏

51CTO技術(shù)棧公眾號