1000個智能體打造《我的世界》,北大校友35頁技術(shù)報(bào)告揭秘
北大校友打造的1000個智能體「我的世界」,背后原理揭曉了!
團(tuán)隊(duì)全新公開35頁技術(shù)報(bào)告,詳盡解密AI智能體如何產(chǎn)生專業(yè)化分工、社交互動、甚至傳播虛擬宗教……
其中最精彩的,當(dāng)數(shù)團(tuán)隊(duì)整活兒:
讓牧師NPC引入虛擬宗教,最后發(fā)現(xiàn)該宗教在500個智能體(橫跨6大城鄉(xiāng))中進(jìn)行了廣泛傳播。
據(jù)介紹,項(xiàng)目整體由一個名為PIANO的架構(gòu)提供支持,它核心解決多智能體交互問題,用于確保多個輸出流的一致性。
接下來,團(tuán)隊(duì)使用受人類歷史啟發(fā)的文明基準(zhǔn),來分別評估單個智能體和多智能體的行為表現(xiàn)。
出人意料的是,在投放了30個初始配置完全相同的智能體后,一群AI經(jīng)過一番互相試探,最終竟產(chǎn)生了社會分工。
而在更大范圍內(nèi),有關(guān)舞蹈、生態(tài)意識和惡作劇等話題的討論表明,多智能體在不同區(qū)域竟形成了不同文化圈。
看完這些,難怪有網(wǎng)友驚呼:
我們生活在模擬矩陣中,未來就是現(xiàn)在。
全新PIANO架構(gòu)
這個項(xiàng)目代號Sid,由北大校友、MIT教授Robert Yang發(fā)起,最終目標(biāo)是將智能體無縫整合進(jìn)人類社會中。
前一陣,團(tuán)隊(duì)展示了由GPT-4驅(qū)動的1000個智能體如何在「我的世界」中創(chuàng)建新文明,當(dāng)時就引發(fā)大量關(guān)注。
不過對Sid團(tuán)隊(duì)來說,這離最終目標(biāo)還很遠(yuǎn),其交互范圍和復(fù)雜性仍然有限。
按他們的話來說:
目前單個智能體在自主決策和執(zhí)行上已經(jīng)有了很大提升,但構(gòu)建能夠自發(fā)社交互動甚至共同進(jìn)步的智能體仍然是一項(xiàng)根本挑戰(zhàn)。
與此同時,靠大模型驅(qū)動的智能體也存在諸多問題。
比如,即使配備了用于規(guī)劃和反思的模塊,智能體也經(jīng)常陷入重復(fù),甚至在幻覺積累到一定程度后出現(xiàn)錯誤。
更可怕的是,這種錯誤還會出現(xiàn)“人傳人現(xiàn)象”,導(dǎo)致進(jìn)一步的幻覺和循環(huán)。
對此,團(tuán)隊(duì)提出了全新架構(gòu)“PIANO”(通過神經(jīng)編排的并行信息聚合),其中P代表感知模塊,I代表智能核心,A則是行動模塊。
這一架構(gòu)被用來回答:
智能體如何在多個時間尺度上有意識和潛意識地同時思考和行動?
團(tuán)隊(duì)打了個比方,這就好比鋼琴的琴鍵,代表著不同的大腦模塊,當(dāng)它們一起演奏時,可以產(chǎn)生優(yōu)美的和弦。而在智能體中,同樣產(chǎn)生了類人的特質(zhì)。
具體而言,PIANO架構(gòu)基于兩個原則設(shè)計(jì):
- 并發(fā)性原則
- 連貫性原則
首先,類似于系統(tǒng)1系統(tǒng)2,智能體應(yīng)該能夠同時思考和行動,這意味著智能體可以在處理即時反應(yīng)的同時,進(jìn)行緩慢的深思熟慮。
這種設(shè)計(jì)允許智能體在實(shí)時環(huán)境中與低延遲交互,同時保持復(fù)雜決策的能力。
其次,智能體產(chǎn)生的多個輸出應(yīng)該是一致的。
為了確保這一點(diǎn),PIANO引入了認(rèn)知控制器(CC)模塊,它負(fù)責(zé)做出高層決策,并將這些決策轉(zhuǎn)化為下游決策,以將其轉(zhuǎn)換為每個電機(jī)模塊中的適當(dāng)輸出。
這一設(shè)計(jì)減少了信息量,并使得智能體能夠在多個輸出流之間保持一致性。
基于上述原則,PIANO由10個并發(fā)運(yùn)行的不同模塊組成:
比如,目標(biāo)生成模塊可以根據(jù)智能體的經(jīng)驗(yàn)和環(huán)境的相互作用,來生成智能體的目標(biāo)。
舉個例子,假如一個智能體以前是干物流的,現(xiàn)在新遇到了堵車情況,這個模塊可能就會生成一個新目標(biāo):
與其他智能體協(xié)作,設(shè)計(jì)一種新的物流方案。
在這里,感知處理模塊負(fù)責(zé)處理來自環(huán)境的輸入信息,如視覺和聽覺感知,并將其轉(zhuǎn)化為智能體可以理解和處理的信息。
接下來,技能執(zhí)行模塊可以讓智能體在環(huán)境中執(zhí)行特定技能或動作,如在Minecraft中挖掘、制作或建造結(jié)構(gòu)。
遇到一些突發(fā)情況,動作反射模塊負(fù)責(zé)處理即時反應(yīng)和行動,這個模塊由小型、快速的非LLM神經(jīng)網(wǎng)絡(luò)構(gòu)成。
而且,在整個過程中,智能體還可以通過行動意識模塊評估自己的狀態(tài)和表現(xiàn),從而實(shí)現(xiàn)即時的調(diào)整和自我改進(jìn)。
若遇到與其他智能體交流的情況,還有Talk模塊負(fù)責(zé)解釋并生成語音。
除此之外,社會意識模塊也在其間發(fā)揮作用。它使得智能體能夠解釋和響應(yīng)來自其他智能體的社交線索,支持合作與交流。
這還不算完,甚至還有一個專門的社會交互模塊,負(fù)責(zé)處理智能體之間的社交交互,如對話的理解和回應(yīng)。
當(dāng)然,關(guān)鍵核心還是記憶模塊。它負(fù)責(zé)存儲和檢索不同時間尺度上的對話、動作和觀察,包括工作記憶(WM)、短期記憶(STM)和長期記憶(LTM)。
這個模塊主打一個細(xì)致,智能體不僅能記住每個步驟的描述,甚至還能記住對話中的提問、回答的順序以及雙方強(qiáng)調(diào)的重點(diǎn)內(nèi)容。
最后,前面提到的認(rèn)知控制器(CC)模塊,負(fù)責(zé)保證整體輸出連貫性。
新的文明誕生了
為了評估智能體的表現(xiàn),團(tuán)隊(duì)分別測試了單智能體和多智能體的行為。
對于單智能體,一個重要評價標(biāo)準(zhǔn)為:能否產(chǎn)生專業(yè)化分工。
為此,團(tuán)隊(duì)提出了評估智能體專業(yè)化的3個基本原則:
- 在角色選擇和轉(zhuǎn)換方面,擁有自主性
- 其專業(yè)化應(yīng)該通過互動和經(jīng)驗(yàn)來體現(xiàn),沒有明確的方向和限制
- 其選擇的角色,應(yīng)該體現(xiàn)在與其專業(yè)相一致的行為中
展開來說,團(tuán)隊(duì)在一個Minecraft村莊中,投放了30個初始配置完全一樣的智能體。
實(shí)驗(yàn)預(yù)設(shè)的前提是,只有存在社會意識,才會驅(qū)動社會分工產(chǎn)生。
而這30個智能體需要通過社交互動,了解其他人的行為動機(jī),并最終確定自己的分工目標(biāo)。
最后結(jié)果顯示,這群智能體自行發(fā)展了不同的職業(yè),有農(nóng)民、工程師等。
且一旦移除社會意識,智能體會選擇更多的同質(zhì)角色,這些角色也不會隨著時間推移而持續(xù)下去。
接下來,團(tuán)隊(duì)繼續(xù)測試了多智能體,主要聚焦在一群AI如何處理社會規(guī)則。
通過觀察一個由25位選民組成的社會,團(tuán)隊(duì)發(fā)現(xiàn)這群智能體最初遵守了預(yù)設(shè)的稅法,按照規(guī)定的時間繳納稅費(fèi)。
然而,隨著社會中有影響力的個體對公眾輿論產(chǎn)生影響,選民們通過民主投票決定了稅率的調(diào)整。
當(dāng)然,新的稅率通過后,大家也按照新稅率完成了稅款支付。
更進(jìn)一步,團(tuán)隊(duì)繼續(xù)擴(kuò)大了測試范圍——分布在6個城鄉(xiāng)的500位智能體組建的社會。
結(jié)果顯示,智能體自發(fā)地創(chuàng)造并傳播了文化內(nèi)容,例如舞蹈、生態(tài)意識和惡作劇等,而且還形成了一個虛擬的宗教,并通過智能體協(xié)會進(jìn)行傳播。
更有意思的是,城鄉(xiāng)之間最終還形成了不同的文化圈。
看完智能體的上述表現(xiàn),網(wǎng)友們也直言非常興奮,紛紛期待更大規(guī)模智能體的到來!
你怎么看?
論文:https://www.openread.academy/zh/paper/reading?corpusId=512036838
GitHub:https://github.com/altera-al/project-sid