自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

苦研10年無果，千萬經(jīng)費打水漂！AI黑箱依然無解，谷歌撕破臉

2025-05-19 08:32:00

人工智能新聞

ChatGPT「舔狗化」事件背后，暴漏目前AI仍是「黑箱」。 ?一場關(guān)于「機制可解釋性」的路線分歧，正撕裂AI研究最核心的價值共識。谷歌認慫，Anthropic死磕——AI還能被「看懂」嗎？

OpenAI只是微微升級了一下ChatGPT-4o，卻一夜讓AI性格大變，化身「賽博舔狗」。

然而，沒有人知道這到底是因為什么。

這恰恰暴露了當前AI的致命短板：缺乏可解釋性。

而關(guān)于AI可解釋性的研究價值，專家間的討論近期變得更加激烈。

具體而言，是AI巨頭谷歌和Anthropic之間關(guān)于「機制可解釋性」（mechanistic interpretability）的爭論：

3月，谷歌DeepMind宣布將不再把「機制可解釋性」作為研究重點。

4月，Anthropic的首席執(zhí)行官Dario Amodei主張應(yīng)該更加重視「機制可解釋性」的研究，并表達了對未來5到10年內(nèi)實現(xiàn)「AI的核磁共振成像」（即深入了解AI內(nèi)部機制）的樂觀態(tài)度。

所謂的機制可解釋性，目標是對AI系統(tǒng)進行「逆向工程」。

但十多年的研究成果表明，這種方法可能難以真正落地，而這一切都被不完善的基礎(chǔ)假設(shè)誤導。

人類無知之危，GenAI懸頂之劍

很多與GenAI相關(guān)的風險和擔憂，本質(zhì)上都是因為這些算法內(nèi)部機制的「黑箱」特性所引發(fā)的。

如果模型是可解釋的，這些問題會更容易被解決。

但可解釋性AI非常難以研究。

2018年，在一次采訪中Geoffrey Hinton認為可解釋性AI堪比「雞生蛋 VS 蛋生雞」。當時，他是這樣說的：

人類在大多數(shù)時候其實都無法解釋自己是如何做出決策的。 ……

神經(jīng)網(wǎng)絡(luò)也有類似的問題。你給它輸入一張圖片，它會輸出合理的判斷，比如判斷這是不是行人。

但如果你問它「為什么這么判斷？」，那問題在于：如果判斷一張圖片是否包含行人真的有一套簡單規(guī)則，這個問題早就解決了。

紐約大學教授Bob Rehder曾寫道：「解釋會促使學習者尋找通用模式，但這也可能讓他們忽視例外情況。結(jié)果就是，在那些例外頻繁出現(xiàn)的領(lǐng)域中，解釋反而可能帶來負面效果。」

Anthropic聯(lián)合創(chuàng)始人Chris Olah常說，GenAI更像是「被培養(yǎng)出來的」，而不是「被構(gòu)建出來的」

——它們的內(nèi)部機制是「涌現(xiàn)」的，而不是人為精心設(shè)計的。

這有點像種菜或養(yǎng)花：人類可以設(shè)定整體的生長條件，但不可預測且難以解釋最終形成的具體結(jié)構(gòu)。

當我們試圖去了解這些系統(tǒng)內(nèi)部時，看到的只是由數(shù)十億個數(shù)組成的龐大矩陣。這些數(shù)字能夠完成重要的認知任務(wù)，但它們是如何做到這一點的，目前無人知曉。

AI系統(tǒng)的不可解釋性，也意味著在許多重要領(lǐng)域無法使用AI，因為我們無法明確設(shè)定它們行為的邊界，而一旦出現(xiàn)錯誤，后果可能極其嚴重。

事實上，在某些場景下，模型不可解釋甚至在法律上直接阻止了它們的使用。

同樣地，AI在科學領(lǐng)域取得了重大進展。

比如對DNA和蛋白質(zhì)序列的預測能力大幅提高，但這些由AI發(fā)現(xiàn)的模式和結(jié)構(gòu)人類往往難以理解，也無法帶來生物學上的真正洞見。

機制可解釋性，主要是試圖找出模型中哪些具體的「神經(jīng)元」和「回路」在執(zhí)行某項任務(wù)時發(fā)揮了作用。

研究者希望借此能夠追蹤模型的思考過程，從而以「硬件原理」的方式解釋它的行為。

許多人認為這種詳細的理解對于AI安全來說是無價的；它可以使研究人員精確地設(shè)計模型，在所有條件下按預期行為運作，可靠地避免所有風險。

谷歌：感覺被坑了

對機制可解釋性的研究，源于研究人員對真理的信仰：知識就是力量；命名即了解，了解即控制。

早在谷歌工作期間，Chris Olah嘗試以系統(tǒng)化方式研究如何打開這個LLM「黑箱」、理解模型內(nèi)部運作。

機制可解釋性的早期階段（2014–2020）主要集中在圖像模型上，研究者成功識別出了一些與人類可理解概念對應(yīng)的神經(jīng)元。

這與早期神經(jīng)科學的假設(shè)類似，例如大腦中存在識別特定人物或概念的神經(jīng)元，被稱為「Jennifer Aniston神經(jīng)元」。

CLIP模型的最終層部分神經(jīng)元

Anthropic：矢志不渝AI解釋性

Anthropic創(chuàng)辦時，聯(lián)合創(chuàng)始人Chris Olah和Dario Amodei，決定將可解釋性方法應(yīng)用到語言模型。

Dario Amodei

很快，他們就在模型中發(fā)現(xiàn)了一些基礎(chǔ)機制，這些機制對語言理解至關(guān)重要，比如復制、序列匹配等。

同時，也找到了類似于圖像模型中的、可以表示特定詞語或概念的可解釋神經(jīng)元。

但問題的復雜性曾一度阻礙了解釋性的研究進展，直到后來他們發(fā)現(xiàn)，信號處理領(lǐng)域已有的一種技術(shù)——

稀疏自編碼器（sparse autoencoders，SAE）可以識別出神經(jīng)元組合，這些組合能更清晰地表達接近人類理解的概念。

相較于單個神經(jīng)元，這些組合能表達更微妙的概念，比如「字面或隱喻上的猶豫與回避」，或是「表達不滿情緒的音樂流派」。

這些組合被稱為「特征」（features），并用稀疏自編碼器方法映射了各種規(guī)模的模型，包括最先進的商用模型。

最近，他們的研究已經(jīng)從「追蹤和操作單個特征」拓展到了「追蹤和操作一組特征」，稱之為「回路」（circuits）。

借助這些回路，大家可以「追蹤」模型的思維路徑。

例如，當你問模型「達拉斯所在州的首府是哪座城市？」時，模型內(nèi)部會啟用一個「包含關(guān)系」（located within）的回路，使得「達拉斯」這個特征激活「德克薩斯」，接著再通過另一個回路，讓「德克薩斯」和「首府」這兩個概念共同激活「奧斯汀」。

使用回路追蹤方法，Anthropic研究了Claude 3.5 Haiku所使用的內(nèi)部機制。

谷歌DeepMind：暫緩SAE研究

事實證明，要讓SAE穩(wěn)定有效地工作非常困難。

這正是DeepMind最近決定降低SAE優(yōu)先級的原因之一。

DeepMind研究團隊發(fā)表了技術(shù)博客，詳細解釋了為什么他們不看好稀疏自編碼器的原因。

他們最初的核心動機在于，可解釋性研究領(lǐng)域中的許多人，在稀疏自編碼器（SAE）上投入了大量精力。

但SAE缺乏「真實」特征的客觀參照標準，無法與語言模型中的真實結(jié)構(gòu)進行比對，這很難判斷它究竟工作得有多好。

雖然定性分析表明SAE確實捕捉到了某些結(jié)構(gòu)（遠非隨機噪聲所能解釋），但局限性同樣明顯——

當在Neuronpedia中輸入任意句子并觀察激活的潛在變量時，這些變量往往無法對應(yīng)清晰的語義解釋。

Neuronpedia最初是專為稀疏自編碼器（SAE）研究設(shè)計的平臺，但現(xiàn)已升級為支持廣義機制可解釋性研究的開放基礎(chǔ)設(shè)施

在決定是否繼續(xù)優(yōu)先發(fā)展SAE時，有必要更宏觀地思考可解釋性研究的評價標準。

傳統(tǒng)思路假設(shè)模型內(nèi)部存在某種精確的、人類可理解的「客觀真相」，并試圖通過逆向工程揭示它。

對SAE而言，這種理想化愿景體現(xiàn)為「希望SAE潛在變量能捕捉模型內(nèi)部的規(guī)范概念集合」。

但現(xiàn)在谷歌清楚地認識到SAE存在眾多問題：

現(xiàn)狀評估：現(xiàn)有SAE技術(shù)距離這一目標相去甚遠

哲學質(zhì)疑：模型內(nèi)部是否真的存在這種「真實概念」尚屬未知

技術(shù)瓶頸：即使存在真實概念，SAE也存在多重固有缺陷：概念覆蓋不全（missing concepts）、噪聲表征問題（如微小激活量缺乏可解釋性）、特征扭曲現(xiàn)象（如特征吸收等異常變形）、高假陰性率（看似可解釋的潛在變量存在大量漏檢）

研究團隊精心設(shè)計并完成了探測實驗，從中得到的關(guān)鍵新發(fā)現(xiàn)是：

當前的稀疏自編碼器（SAE）并不能識別出在某些關(guān)鍵任務(wù)中所需的「概念」；而線性探測器（linear probe）卻能找到一個有用的方向。

這可能有多種解釋，但無論是哪種情況，這都表明，SAE可能并不是在實際任務(wù)中所需要的合適工具。

雖然任何一個單獨的負面結(jié)果都不構(gòu)成強有力的結(jié)論，但如果SAE真的是可解釋性研究的一大突破，那應(yīng)該不至于難以找到能夠明顯優(yōu)于基線方法的應(yīng)用場景。

DeepMind相關(guān)研究團隊認為：在短期內(nèi)，SAE以及基于SAE的技術(shù)不太可能帶來革命性突破，甚至有可能永遠無法成為真正的轉(zhuǎn)折點。

十年研究，一地雞毛

機制可解釋性這個目標可能過于理想化。

在過去十多年里，各大公司和研究機構(gòu)投入了大量人才和數(shù)百萬美元，推進多個可解釋性研究項目。

雖然這些研究常常帶來短暫的興奮和關(guān)注，但至今沒有哪項成果真正經(jīng)受住了時間的考驗。

特征可視化

在2015年，Mordvintsev等人年提出特征可視化，發(fā)現(xiàn)哪些特征激活單個神經(jīng)元來理解圖像分類器的工作原理。

然而，對該技術(shù)的可靠性和實用性仍存疑慮。

神經(jīng)元常常對多個不相關(guān)的特征產(chǎn)生反應(yīng)，難以對其角色給出簡潔的解釋。

顯著性圖

顯著性圖生成了令人信服的圖像，從人類視角看似乎突出了圖像中最重要的部分。

但2020年的研究表明顯著性圖并未捕捉到訓練模型所學內(nèi)容或其關(guān)注的重點。

論文鏈接：https://arxiv.org/abs/1810.03292

引導反向傳播是一種顯著性圖技術(shù)，對隨機模型和實際訓練模型提供相似的解釋，表明它并未真正解釋任何內(nèi)容。

BERT可解釋性錯覺

語言模型的解釋技術(shù)也存在類似的缺陷。

在2021年，研究人員描述了尋找能最大程度激活BERT模型中單個目標神經(jīng)元的句子，最初發(fā)現(xiàn)了一個令人信服的模式。但當使用不同的數(shù)據(jù)集時，該模式消失，同一神經(jīng)元對完全不同類型的句子反應(yīng)最強烈。

論文鏈接：https://arxiv.org/abs/2104.07143

Chinchilla回路分析

在2023年，DeepMind的一篇論文中將可解釋性方法應(yīng)用于700億參數(shù)的Chinchilla模型，結(jié)果喜憂參半。

論文鏈接：https://arxiv.org/abs/2307.09458

盡管作者發(fā)現(xiàn)了一組似乎與特定任務(wù)相關(guān)的神經(jīng)元，但這一過程耗時數(shù)月，令人質(zhì)疑以這種方式理解大型模型的實用性。

此外，當任務(wù)格式稍有變化時，識別節(jié)點的性能下降，表明它們僅提供了部分解釋，模型的其他部分也必須參與其中。

迷途知返

這種「自下而上」「從局部到整體」的機制解釋性研究，或許從根本上就錯了？

畢竟，核磁共振（MRI）可以探測大腦中的血流，揭示哪些區(qū)域與某些想法或任務(wù)有關(guān)，但它無法逐個神經(jīng)元地追蹤人的思想。

非營利機構(gòu)AI Frontiers的Dan Hendrycks(下圖男士)和Laura Hiscott（下圖女士），認為AI可解釋性研究應(yīng)當從更高層次的特征入手。

研究人員應(yīng)該借鑒其他復雜系統(tǒng)的方法——就像氣象學家、生物學家和心理學家往往先研究其對象的高層特征一樣——

應(yīng)該采取「自上而下」的方式來推動AI的可解釋性研究，而不是從底層機制出發(fā)的「自下而上」方法。

2001年，Leo Breiman發(fā)表了一篇開創(chuàng)性但當時極具爭議的論文，主張復雜而不透明的機器學習系統(tǒng)遠比整潔的統(tǒng)計公式更強大。

從這個角度看，機制可解釋性可能更像是一種吸引「理性審美」的研究方向，而不是一個具有廣闊前景的實用領(lǐng)域。

而執(zhí)著于機制可解釋性，或許在希望深度學習系統(tǒng)變成本質(zhì)上「面目全非」的樣子。

責任編輯：張燕妮來源：新智元

ChatGPT AI 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營