自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

語言游戲讓AI自我進化，谷歌DeepMind推出蘇格拉底式學習

作者：新智元 2024-12-17 12:53:45

近日，谷歌DeepMind的研究人員推出了蘇格拉底式學習，在沒有外部數(shù)據(jù)的情況下，讓AI通過語言游戲不斷變強。

沒有外部數(shù)據(jù)，AI自己也能進化？

聽起來有點嚇人，于是谷歌DeepMind的這項研究很快引起了廣泛關注。

圖片

論文地址：https://arxiv.org/pdf/2411.16905

新的方法被命名為「蘇格拉底式學習」（Socratic Learning），能夠使AI系統(tǒng)自主遞歸增強，超越初始訓練數(shù)據(jù)的限制。

圖片

研究人員表示，只要滿足三個條件，在封閉系統(tǒng)中訓練的智能體可以掌握任何所需的能力：

a）收到足夠信息量和一致的反饋；
b）經(jīng)驗/數(shù)據(jù)覆蓋范圍足夠廣泛；
c）有足夠的能力和資源。

本文考慮了假設 c）不是瓶頸的情況下，在封閉系統(tǒng)中 a）和 b）會產(chǎn)生哪些限制。

圖片

蘇格拉底式學習的核心是語言游戲（即結構化的交互），智能體在其中交流、解決問題并以分數(shù)的形式接收反饋。

整個過程中，AI在封閉的系統(tǒng)中自己玩游戲、生成數(shù)據(jù)、然后改進自身的能力，無需人工輸入。

如果游戲玩膩了，AI還可以自己創(chuàng)建新游戲，解鎖更多抽象技能。

Socratic Learning消除了固定架構的局限，使AI的表現(xiàn)能夠遠超其初始數(shù)據(jù)和知識，且僅受時間的限制。

邁向真正自主的AI

考慮一個隨時間演變的封閉系統(tǒng)（無輸入、無輸出），如下圖所示。

圖片

在系統(tǒng)中，有一個具有輸入和輸出的實體（智能體，agent），它也會隨著時間的推移而變化。系統(tǒng)外部有一個觀察者，負責評估智能體的性能。

由于系統(tǒng)是封閉的，觀察者的評估無法反饋到系統(tǒng)中。因此，智能體的學習反饋必須來自系統(tǒng)內部，例如損失、獎勵函數(shù)、偏好數(shù)據(jù)或批評者。

考慮藍色虛線的路徑，讓智能體輸出影響未來的智能體輸入，并且性能得到提高（自我改進過程），如果輸入和輸出空間兼容，則這種自我提升是遞歸的。

自我提升過程的一個典型例子是自我博弈，系統(tǒng)讓智能體作為游戲的雙方，從生成一個無限的體驗流，并帶有獲勝反饋，來指導學習的方向。

圖片

反饋是其中的關鍵一環(huán)，AI的真正意義是相對于外部觀察者的，但在封閉的系統(tǒng)中，反饋只能來自內部的智能體。

這對于系統(tǒng)來說是一個挑戰(zhàn)：讓反饋與觀察者保持一致，并在整個過程中保持一致。

RL的自我糾正能力在這里并不適用，可以自我糾正的是給定反饋的行為，而不是反饋本身。

蘇格拉底式學習

與輸出僅影響輸入分布的一般情況相比，遞歸的自我提升更具限制性，但中介作用更少，最常見的是將智能體輸出映射到輸入的環(huán)境實例化。

這種類型的遞歸是許多開放式流程的一個屬性，而開放式改進正是ASI的一個核心特征。

輸入和輸出空間兼容的一個例子是語言。人類的廣泛行為都是由語言介導的，特別是在認知領域。

語言的一個相關特征是它的可擴展性，即可以在現(xiàn)有語言中開發(fā)新的語言，比如在自然語言中開發(fā)的形式數(shù)學或編程語言。

圖片

綜上，本文選擇研究智能體在語言空間中遞歸自我提升的過程。蘇格拉底式學習，模仿了蘇格拉底通過提問、對話和重復的語言互動，來尋找或提煉知識的方法。

蘇格拉底并沒有去外界收集現(xiàn)實世界中的觀察結果，這也符合本文強調的封閉系統(tǒng)。

圖片

局限性

在自我提升的三個必要條件中，覆蓋率和反饋原則上適用于蘇格拉底式學習，并且是不可簡化的。

從長遠角度來看，如果計算和內存保持指數(shù)級增長，那么規(guī)模限制只是一個暫時的障礙。另一方面，即使是資源受限的場景，蘇格拉底式學習可能仍會產(chǎn)生有效的高級見解。

覆蓋率意味著蘇格拉底式學習系統(tǒng)必須不斷生成數(shù)據(jù)（語言），同時隨著時間的推移保持或擴大多樣性。

生成對于LLM來說是小菜一碟，難的是在遞歸過程中防止漂移、崩潰或者生成分布不夠廣泛。

反饋要求系統(tǒng)繼續(xù)產(chǎn)生關于智能體輸出的反饋，這在結構上需要一個能夠評估語言的批評者，且應與觀察者的評估指標保持充分一致。

然而，語言空間中定義明確的指標通常僅限于特定的任務，而AI反饋則需要更通用的機制，尤其是在允許輸入分布發(fā)生變化的情況下。

目前的LLM訓練范式都沒有足以用于蘇格拉底式學習的反饋機制。比如下一個標記預測損失，與下游使用情況不一致，并且無法推斷訓練數(shù)據(jù)之外的情況。

根據(jù)定義，人類的偏好是一致的，但無法在封閉系統(tǒng)的學習中使用。將人類偏好緩存到學習的獎勵模型中或許可行，但從長遠來看，可能會產(chǎn)生錯位，并且在分布外的數(shù)據(jù)上效果也很弱。

換句話說，純粹的蘇格拉底式學習是可能的，但需要通過強大且一致的批評者生成廣泛的數(shù)據(jù)。當這些條件成立時，這種方法的上限就只取決于能夠提供的計算資源。

LANGUAGE GAMES ARE ALL YOU NEED

語言、學習和基礎是經(jīng)過充分研究的話題。其中一個特別有用的概念是哲學家Wittgenstein提出的「語言游戲」。

圖片

對他來說，捕捉意義的不是文字，而需要語言的互動性質才能做到這一點。

具體來說，將語言游戲定義為交互協(xié)議（一組規(guī)則，可以用代碼表達），指定一個或多個智能體（玩家）的交互，這些智能體具有語言輸入和輸出，以及在游戲結束時每個玩家的標量評分函數(shù)。

這樣定義的語言游戲解決了蘇格拉底式學習的兩個主要需求：為無限的交互式數(shù)據(jù)生成提供了一種可擴展的機制，同時自動提供反饋信號（分數(shù)）。

從實用的角度來看，游戲也是一個很好的入門方式，因為人類在創(chuàng)造和磨練大量游戲和玩家技能方面有著相當多的記錄。

實際上，許多常見的LLM交互范式也能被很好地表示為語言游戲，例如辯論、角色扮演、心智理論、談判、越獄防御，或者是在封閉系統(tǒng)之外，來自人類反饋的強化學習。

Wittgenstein曾表示，他堅決反對語言具有單一的本質或功能。

相比于單一的通用語言游戲，使用許多狹義但定義明確的語言游戲的優(yōu)勢在于：對于每個狹義的游戲，都可以設計一個可靠的分數(shù)函數(shù)（或評論家），這對于通用游戲來說非常困難。

從這個角度來看，蘇格拉底式學習的整個過程就是一個元游戲，一個安排了智能體玩和學習的語言游戲（一個「無限」的游戲）。

圖片

蘇格拉底因「腐蝕青年」而被判處死刑并被處決。這也意味著，蘇格拉底過程并不能保證與外部觀察者的意圖保持一致。

語言游戲作為一種機制也沒有回避這一點，但它所需要的不是在單個輸入和輸出的細粒度上對齊的批評家，而是一個可以判斷應該玩哪些游戲的「元批評家」：根據(jù)是否對整體性能有貢獻來過濾游戲。

此外，游戲的有用性不需要先驗評估，可以在玩了一段時間后事后判斷，畢竟事后檢測異?？赡鼙仍O計時阻止要容易得多。

那么問題來了，如果從蘇格拉底和他的弟子開始，數(shù)千年來一直不受干擾地思考和改進，到現(xiàn)在會產(chǎn)生什么樣的文化產(chǎn)物、什么樣的知識、什么樣的智慧？

參考資料：https://x.com/kimmonismus/status/1862993274727793047

責任編輯：武曉燕來源：新智元

AI 自我進化谷歌

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="6pynp"></sub>