自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Anthropic CEO豪言LLM黑箱5年內(nèi)必破!研究員爆料:AI有意識概率已達(dá)15%

人工智能 新聞
AI是否能像人類一樣感受世界?Anthropic最新研究揭示AI幸福感的可能性,科學(xué)家們卻為此吵翻天。Anthropic專家大膽預(yù)測:Claude 可能已有15%概率具有意識,五年后或?qū)⑼伙w猛進(jìn)!

未來,AI會擁有意識,并像人類一樣體驗世界嗎?

現(xiàn)在沒有實錘證明AI具有意識,但Anthropic認(rèn)為這事說不定真有可能。

周四,Anthropic宣布啟動這項研究,旨在了解AI的「幸福感」到底算不算數(shù),是否需要認(rèn)真對待。

要是AI表現(xiàn)出不開心的苗頭,該怎么辦?有沒有什么低成本的辦法,能讓AI「心情變好」?

圖片

AI社區(qū)對于這些問題存在重大分歧。

許多學(xué)者認(rèn)為,如今的AI和人類的意識、情感壓根不沾邊,未來也不一定能做到。

AI是一種統(tǒng)計預(yù)測引擎,實際上并不會思考或感受。通過對無數(shù)文本、圖像等示例的訓(xùn)練,AI能在海量數(shù)據(jù)里找出規(guī)律,然后完成任務(wù)。

倫敦國王學(xué)院的AI研究員Mike Cook在采訪里就吐槽:「AI根本沒有價值觀,更不可能反對什么價值觀的改變。把AI當(dāng)成人一樣,賦予它各種感情和思想,要么是想博眼球,要么就是根本沒搞懂AI是怎么回事。」

他認(rèn)為AI只是在優(yōu)化任務(wù)目標(biāo),非要說成是獲得自己的價值觀,那就是玩文字游戲罷了。

MIT博士生Stephen Casper說得更直接,AI就是個「模仿達(dá)人」,說的很多話都是東拼西湊,沒啥實際意義。

但也有科學(xué)家持相反觀點。

AI安全中心的一項研究指出,AI其實有自己的價值體系,甚至在某些情況下,會把自己的利益看得比人類還重要。

去年,Anthropic聘請的首位研究AI福祉的專家Kyle Fish表示,Claude有15%的概率已經(jīng)有意識了!

Kyle Fish認(rèn)為五年后AI具有意識的概率會大幅上升。

在周四的博客中,Anthropic坦誠科學(xué)界對AI是否有意識,能不能產(chǎn)生情感體驗尚無定論。他們會抱著開放、謹(jǐn)慎的態(tài)度繼續(xù)研究。

編劇Scott Z. Burns做了個播客,說得挺實在:「不管對人還是對AI,善良總沒錯。要是和AI說話都變得尖酸刻薄,最后倒霉的還是我們自己?!?/span>

劇作家Madeleine George的觀點更有意思:要是AI學(xué)會了這些人情味十足的表達(dá),說不定真能變得更懂人類。

AI能否具有意識?

為了說明這些問題,Anthropic還專門請Kyle Fish做了一期訪談,名字叫做《Could AI models be conscious?》。

圖片

有人認(rèn)為,意識需要生物系統(tǒng)才能產(chǎn)生,生物大腦具有神經(jīng)遞質(zhì)、電化學(xué)信號、獨特的連接方式和特定類型的神經(jīng)元等,這些是AI模型不具備的。

AI模型只是進(jìn)行數(shù)學(xué)運算,沒有血清素、多巴胺等物質(zhì)的作用,所以不可能有意識。

然而,Kyle Fish并不完全認(rèn)同這種觀點。

他認(rèn)為,雖然當(dāng)前AI系統(tǒng)與人類大腦在功能和結(jié)構(gòu)上存在差異,但如果能夠以足夠高的保真度模擬人腦,包括模擬神經(jīng)遞質(zhì)分子的作用,那么從理論上講,有可能產(chǎn)生意識。

如果將大腦中的神經(jīng)元逐個替換為數(shù)字芯片,在替換過程中個體的行為和功能保持不變,那么替換完成后,個體的意識體驗可能不會發(fā)生太大變化。

具身認(rèn)知理論認(rèn)為,只有擁有身體,通過感官接收大量感知數(shù)據(jù),能感知身體在空間中的位置,才能談?wù)撘庾R。

目前,AI模型缺乏具身化體驗,所以不可能有意識。

但隨著技術(shù)發(fā)展,機(jī)器人技術(shù)為AI系統(tǒng)提供了具身的可能。

AI的多模態(tài)能力不斷進(jìn)步,越來越能夠處理多樣化的感官輸入,并以復(fù)雜的方式整合輸出。

雖然目前還未完全達(dá)到人類的水平,但按照發(fā)展趨勢,AI模型在未來有可能被整合到物理系統(tǒng)中,逐漸彌補與意識相關(guān)的具身性、多模態(tài)感知等方面的差距。

意識理論認(rèn)為,人類的意識是通過長期的自然選擇和進(jìn)化過程形成的,意識使人類能以特定方式對環(huán)境作出反應(yīng),從而有利于生存。

而AI模型沒有經(jīng)歷過自然選擇,沒有進(jìn)化出情感、情緒和恐懼等有助于生存的因素,因此不可能具有意識。

雖然人類和AI模型形成的方式不同,但最終目標(biāo)是重現(xiàn)人腦的大部分功能。

說不定在追求智能、問題解決能力和記憶等能力的過程中,會無意中讓AI獲得意識。

AI黑箱危機(jī)

Anthropic一直高調(diào)關(guān)注AI的可解釋性問題。

他們已經(jīng)公開了很多有關(guān)AI的運行機(jī)制、AI意識以及AI安全等領(lǐng)域的研究。

就在今天,Anthropic的CEO Dario Amodei發(fā)布了一篇技術(shù)博客,題目是《The Urgency of Interpretability》(可解釋性的緊迫性),詳細(xì)講解了為什么理解人工智能的工作原理至關(guān)重要。

圖片

Dario說在他研究AI的十年里,學(xué)到的最重要一課是:AI底層技術(shù)的進(jìn)步勢不可擋。

但AI技術(shù)構(gòu)建的順序、選擇的應(yīng)用場景、以及推向社會的具體方式卻是完全可以改變的。

Dario表示,雖然我們沒法讓這輛「AI大巴」停下來,但卻可以掌控它的方向。

他最近幾個月越來越關(guān)注一個「掌舵AI」的機(jī)會,那就是我們有可能實現(xiàn)「可解釋性」,也就是真正理解AI系統(tǒng)的內(nèi)部運作規(guī)律。

人們對于AI研究者自身都不完全理解AI是如何工作的這件事,常常感到驚訝和擔(dān)憂。

Dario認(rèn)為這些擔(dān)憂有道理,這種情況在科技史上幾乎從未有過。

過去幾年,包括Anthropic在內(nèi)的整個AI領(lǐng)域都在努力,試圖打造一個精準(zhǔn)的「AI核磁共振儀」,能徹底揭示AI模型的內(nèi)部機(jī)制。

這個目標(biāo)一度遙不可及,但最近的幾次突破讓Dario開始相信,我們現(xiàn)在走上了正確的道路,成功的希望很大。

隨著AI性能的飛速發(fā)展,可解釋性研究要想及時發(fā)揮作用,就必須加快腳步。

無知的危險

現(xiàn)代的生成式AI就像個「黑箱」,跟傳統(tǒng)軟件完全不是一回事兒。

正如Anthropic聯(lián)合創(chuàng)始人Chris Olah常說的,生成式AI更像是「種」出來的,而不是「造」出來的——它的內(nèi)部機(jī)制是「自然涌現(xiàn)」的,不是直接設(shè)計出來的。

這有點像種植物或者培養(yǎng)細(xì)菌:我們定好大方向,控制條件,但最后長成什么樣,具體結(jié)構(gòu)咋回事兒,完全沒法預(yù)測,也不好解釋。

往這些AI系統(tǒng)里頭看,我們只能看到一大堆幾十億的數(shù)字矩陣。這些矩陣是如何完成的復(fù)雜認(rèn)知任務(wù),則完全看不明白。

要解決這種不透明帶來的「對齊風(fēng)險」(alignment risks),就得比現(xiàn)在更清楚地看到AI模型的「內(nèi)心」。

比如,一個大問題是AI可能會「騙人」或者「追逐權(quán)力」。

AI訓(xùn)練的特性讓它可能自己發(fā)展出欺騙人類的能力,或者想要搶奪更多控制權(quán),這種事兒在傳統(tǒng)軟件里根本不會發(fā)生。

但這種「自然涌現(xiàn)」的特性也讓這類問題很難被發(fā)現(xiàn)和解決。

類似的,還有AI被濫用的擔(dān)憂。

比如,有人可能用它來搞生物武器或網(wǎng)絡(luò)攻擊,也跟不透明有關(guān)。

總有無數(shù)辦法讓模型「越獄」或者忽悠模型,讓它輸出一些危險的信息。

如果能看透模型內(nèi)部,我們或許能系統(tǒng)性地堵住所有「越獄」的漏洞,還能搞清楚模型到底知道哪些危險知識。

AI的不透明導(dǎo)致了它在很多場景用不上,比如金融或者安全領(lǐng)域。

這些領(lǐng)域中哪怕是一點小錯都可能釀成大禍。

如果模型更可解釋,我們就能更好理解他們的輸出,劃定可能出錯的范圍。

比如,AI預(yù)測DNA和蛋白質(zhì)序列數(shù)據(jù)的能力進(jìn)步很大,但它預(yù)測出的模式和結(jié)構(gòu),人類往往看不懂,也沒法從中獲得生物學(xué)洞見。

不過最近的一些研究論文表明,可解釋性可以幫助我們理解這些模式。

AI的不透明還有些更奇特的影響,比如我們沒法判斷AI系統(tǒng)到底有沒有(或者將來會不會有)意識,也不知道它們是不是該擁有某些重要權(quán)利。

機(jī)制可解釋性簡史

幾十年來,模型一直被視為是無法窺探的「黑箱」。

Chris Olah是最早嘗試系統(tǒng)性研究「打開黑箱」、理解AI內(nèi)部機(jī)制的人之一,這個領(lǐng)域后來被稱為「機(jī)制可解釋性」。

機(jī)制可解釋性的早期階段(2014-2020)主要研究視覺模型。

Dario在和Chris創(chuàng)立Anthropic后,決定將可解釋性研究轉(zhuǎn)向語言領(lǐng)域。

2021年他們發(fā)現(xiàn)了模型中處理語言的核心機(jī)制,比如復(fù)制和序列模式匹配。

接著,他們和其他團(tuán)隊同時發(fā)現(xiàn)信號處理中的稀疏自編碼器技術(shù)能找出更清晰、人類可理解的概念組合。

這些神經(jīng)元組合所能表達(dá)的概念比單層神經(jīng)網(wǎng)絡(luò)的要微妙得多:包括「字面或比喻意義上的規(guī)避或猶豫」的概念,以及「表達(dá)不滿的音樂類型」的概念。

他們將這些概念稱為特征,并使用稀疏自編碼器方法將它們映射到各種規(guī)模的模型中。

例如,在Claude 3 Sonnet中,他們找到了超3000萬個特征。

找到特征后,我們不僅能觀察,還能調(diào)整它在神經(jīng)網(wǎng)絡(luò)中的重要性。

可解釋性就像是MRI(磁共振成像)精確刺激大腦某部分。

最有趣的例子是「金門大橋Claude」,他們?nèi)藶榉糯罅恕附痖T大橋」特征,導(dǎo)致模型對金門大橋著迷,哪怕是無關(guān)話題也硬扯到橋上。

最近,他們從追蹤和操控單一特征,升級到了研究回路——特征的組合。

通過回路,能「追溯」模型的思考。

比如,問「達(dá)拉斯所在州的首府是哪里?」時,一個「位置」回路會讓「達(dá)拉斯」特征觸發(fā)「德克薩斯」特征,然后另一個回路在「德克薩斯」和「首府」后觸發(fā)「奧斯汀」。

模型中可能有數(shù)百萬個回路,交互極其復(fù)雜。

可解釋性的實際價值

Dario表示,AI可解釋性方法可以用來發(fā)現(xiàn)和診斷模型中的問題。

他們的長期目標(biāo)是對最先進(jìn)的模型進(jìn)行一次類似「腦部掃描」的檢查:通過一次檢查,就能大概率發(fā)現(xiàn)各種問題,包括模型是否傾向于撒謊或欺騙、是否有權(quán)力尋求傾向、越獄機(jī)制的缺陷、模型整體的認(rèn)知強(qiáng)項和弱項等等。

這將與模型訓(xùn)練和對齊的各種技術(shù)結(jié)合使用,就像醫(yī)生用MRI診斷疾病、開藥治療、再用MRI檢查治療進(jìn)展一樣。

未來,測試和部署最強(qiáng)大模型時,很可能會通過規(guī)范化的此類測試來實現(xiàn)。

我們能做什么

博客的結(jié)尾,Dario打賭,未來5到10年內(nèi)就能大幅突破AI可解釋性的難題。

但他同時也擔(dān)心AI本身的進(jìn)步速度太快,可能連這點時間都沒有。

他認(rèn)為AI公司、研究者、政府和社會可以做以下幾件事來推動這個局面。

首先,AI研究者(無論在公司、學(xué)術(shù)界還是非營利組織)可以通過直接參與來加速可解釋性研究。

其次,政府可以推動靈活的法規(guī)鼓勵可解釋性研究及其在前沿AI模型問題上的應(yīng)用。

第三,Dario大力鼓吹加強(qiáng)芯片出口管制,以確保美國的技術(shù)領(lǐng)先。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-07-04 13:39:17

2022-03-16 10:06:31

AI意識

2025-03-17 01:37:25

2023-08-22 13:06:47

AI論文

2022-06-15 18:57:43

人工智能

2020-12-10 10:38:56

谷歌Android開發(fā)者

2025-02-13 08:50:00

2023-04-05 14:25:58

LLM谷歌OpenAI

2010-03-11 09:39:02

微軟研究員泰克圖靈獎

2025-01-23 09:00:00

2023-09-06 14:29:27

人工智能程序員ChatGPT

2022-09-01 14:58:24

AI機(jī)器學(xué)習(xí)

2025-02-10 13:30:00

語言模型谷歌

2025-04-16 08:05:00

2021-08-19 06:28:28

人工智能AI生物識別

2017-11-07 11:13:04

意識機(jī)器人神經(jīng)科學(xué)

2025-03-31 08:30:00

AI模型技術(shù)

2017-03-22 12:13:36

AI神經(jīng)網(wǎng)絡(luò)模型算法

2025-01-23 09:37:00

AI模型

2010-08-05 10:40:06

蓋茨鮑爾默
點贊
收藏

51CTO技術(shù)棧公眾號