自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Anthropic安全負責人:在超級AI「毀滅」人類之前,我們可以做這些準備

人工智能 新聞
Anthropic 認為,AI 模型一方面變得越來越強大,創(chuàng)造巨大的經(jīng)濟和社會價值,另一方面也帶來了嚴重的風險。

2023 年,Anthropic 發(fā)布了負責任擴展策略(Responsible Scaling Policy,RSP),這是一系列技術(shù)和組織協(xié)議,Anthropic 將采用這些協(xié)議來幫助他們管理開發(fā)功能日益強大的 AI 系統(tǒng)。

圖片

Anthropic 認為,AI 模型一方面變得越來越強大,創(chuàng)造巨大的經(jīng)濟和社會價值,另一方面也帶來了嚴重的風險。RSP 將專注于災難性風險 —— 即人工智能模型直接造成大規(guī)模破壞的風險。此類風險可能來自故意濫用模型(例如恐怖分子用它來制造生物武器),也可能來自模型以違背其設(shè)計者意圖的方式自主行動而造成破壞。

RSP 還定義了一個稱為 AI 安全等級 (ASL,AI Safety Levels) 的框架,ASL 等級越高,其安全性證明就越嚴格。

圖片


  • ASL-1 指的是不構(gòu)成重大災難風險的系統(tǒng),例如 2018 年的 LLM 或只會下棋的 AI 系統(tǒng)。
  • ASL-2 指的是顯示出危險能力早期跡象的系統(tǒng)(例如能夠給出如何制造生物武器的指令),但這些信息由于可靠性不足或無法超越搜索引擎能提供的信息而沒有太多用處。包括 Claude 在內(nèi)的當前 LLM 似乎是 ASL-2。
  • ASL-3 指的是與非 AI 基線(例如搜索引擎或教科書)相比,大大增加了災難性濫用風險的系統(tǒng)或顯示出低級自主能力的系統(tǒng)。
  • ASL-4 及更高版本(ASL-5+)尚未定義,因為它與現(xiàn)有系統(tǒng)相差太遠,但可能會涉及災難性濫用潛力和自主性的質(zhì)的升級。

一直以來,Anthropic 在為 AI 安全做著各種努力,「要做哪些技術(shù)工作才能使非常強大的人工智能的開發(fā)順利進行?」近日,Anthropic 安全研究部門的負責人 Sam Bowman 在一篇博客中分享了他的觀點。

圖片

對于這篇博客,機器之心做了不改變原義的翻譯與整理。

在開始討論超級人工智能的風險之前,我有一些前提需要聲明:

人工智能有望達到與人類相當?shù)乃?。這個階段,我稱之為變革性人工智能(TAI)。TAI 將有能力在所有適合遠程工作的職業(yè)中替代人類,包括 AI 研發(fā)。

TAI 并不是人工智能能力的上限,未來可能會出現(xiàn)遠超人類能力的系統(tǒng),它們將對世界產(chǎn)生深遠影響。在未來十年內(nèi),我們很有可能見證 TAI 的誕生,而那時的商業(yè)、政策和文化背景預計與當前相比不會有太大變化。

TAI 一旦實現(xiàn),它將極大地加速人工智能的研發(fā)進程,可能在 TAI 出現(xiàn)后的幾個月或幾年內(nèi),我們就能看到遠超人類能力的系統(tǒng)被開發(fā)出來。

如果部署不當,超級人工智能系統(tǒng)可能會極具破壞性。它可能帶來新風險,也可能使現(xiàn)有矛盾變得更加尖銳,比如武器濫用,以及破壞道路監(jiān)控或網(wǎng)絡(luò)安全等。

想要讓 TAI 以及更強大的 AI 系統(tǒng)在現(xiàn)實世界中「三觀正?!沟卣_行事,這對人工智能安全提出了更高要求。確保人工智能系統(tǒng)的行為與開發(fā)者的意圖一致,即所謂的「對齊」,需要我們投入巨大的努力。而且隨著 AI 系統(tǒng)的能力越來越強,這一任務也變得更加艱巨。

我將從三個階段展開。

第一階段:準備 

此時,AI 還未進階成 TAI,以 Anthropic 的 RSP 評級(風險敏感性評估)來看,他們處于安全等級 2(ASL-2)、ASL-3,或者可能是 ASL-4 的早期階段。我們大部分的干預和準備工作將在這一時期進行,為尚未完全出現(xiàn)的高風險問題做準備。

密切關(guān)注技術(shù)前沿

AI 有多安全,很大程度上取決于我們的工作能力,而這又與我們獲取前沿技術(shù)的能力緊密相關(guān)。如果我們無法獲得充足的計算資源,或者在關(guān)鍵的預訓練階段出現(xiàn)重大失誤,或者錯過了帶來變革的范式轉(zhuǎn)變(哪怕是方法中的一些小改進),我們就會喪失大量做貢獻的機會。而負責 AI 安全工作,需要遵守嚴格的規(guī)定和限制。因此,持續(xù)跟進新技術(shù),是在此階段的首要任務。

在初始階段基本解決 TAI 的對齊微調(diào)問題

當 AI 系統(tǒng)已經(jīng)智能到可以自主做研究,特別是 AI 安全研究時,我們需要尋找一種方法,讓 AI 系統(tǒng)在幫助我們完成大量工作的同時,避免出現(xiàn)偏差。同時,我們必須確保 AI 的能力至少與人類專家相當,甚至更優(yōu),以確保它們能有效地協(xié)助我們。

此時,AI 并不需要完全「對齊」—— 我們可以接受一定程度的風險。因為人類不會將最關(guān)鍵的決策權(quán)交給 AI。同時,我們也有信心能在 AI 的對齊問題演變成全球性災難之前,及時發(fā)現(xiàn)并糾正。

我們的目標是構(gòu)建高效且通用的 AI 系統(tǒng)。構(gòu)建能完全「對齊」的 AI 助理,僅供公司內(nèi)部使用,并進行嚴格的專家監(jiān)控,這種方法可行,但問題是,有過多限制或需要專家持續(xù)監(jiān)督的 AI 系統(tǒng)很難大規(guī)模推廣,這樣一來,Anthropic 的業(yè)務也難以持續(xù)發(fā)展。

在我看來,解決問題的關(guān)鍵在于可拓展的監(jiān)督,這要求我們訓練出能勝任完成復雜的開放式任務的負責任的 AI 智能體。為此,需要解決的主要挑戰(zhàn)包括:「Reward hacking」、應對人類注意力的有限性,以及識別和抵御各種欺詐行為。

確保初始形態(tài)的 TAI 安全無害

如果「對齊」問題能完美解決,我們只需下達命令,模型就能不做壞事。但這似乎不可能做到。因此,我們必須構(gòu)建額外的防御措施,比如對模型輸出自動進行監(jiān)控、抽查、紅隊測試,壓力測試等。

蘋果給 Apple Intelligence 下達的系統(tǒng)提示詞:「不要產(chǎn)生幻覺!」

我們還特意構(gòu)建了「邪惡」的未對齊版本,試圖來攻擊我們的安全系統(tǒng),這和傳統(tǒng)的「對齊」工作一樣重要。

在長遠來看,由于現(xiàn)有方法依賴于精確、召回率極高的內(nèi)容分類器,這階段的主要挑戰(zhàn)是圍繞對抗性魯棒性的一系列機器學習問題。

對于有多款變體的模型家族,我們也可以綜合考慮,而不是逐個擊破。這種方法不僅有助于識別在初步安全規(guī)劃階段可能未被察覺的風險,還能有效防御那些在單一數(shù)據(jù)樣本中不明顯,卻可能在多樣本模式分析中暴露的系統(tǒng)性風險,例如潛在的濫用或錯位問題。

制定合適的 RSP(負責任擴展策略)

什么是一個合格的 RSP?可以參考 LeCun 提出的測試:即使是完全不重視 AI 安全問題的敵方公司,也能放心使用。一份好的 RSP 能研究人員操作安全,一旦出現(xiàn)意外也能顯而易見且可追責。

這個標準與其他領(lǐng)域的標準和類似。例如,如果一個組織希望避免受到網(wǎng)絡(luò)上的攻擊。盡管他們心存疑慮,但只要遵循 SOC 2 等通用網(wǎng)絡(luò)安全標準,他們可以獲得真正意義上的保護。

關(guān)鍵挑戰(zhàn)是預測哪些風險足夠重要,值得納入其中。到目前為止,我們在威脅建模中反復出現(xiàn)的一個具體未解決的問題是,ASL-3 和 ASL-4 的風險在多大程度上是通過直接濫用、錯位或通過雙重用途研發(fā)等渠道而流動的。

ASL-4 的評估和部署案例

ASL-4 涵蓋了近乎人類水平的自主性和可能災難性的直接濫用風險,我們沒有提前制定詳細的標準。相反,我們將致力于整理一個安全案例 —— 一份提供系統(tǒng)在某些情況下是安全的證據(jù)的報告 —— 并制定安全案例需要滿足的高級標準才能獲得批準。許多技術(shù)安全工作最終將通過納入這些安全案例產(chǎn)生影響,這些安全案例是我們在 到達 ASL-4 之前的關(guān)鍵目標。

Anthropic 把寶押在對可解釋性的深入研究,希望它能夠成為 AI 系統(tǒng)安全的證據(jù)來源。

 對于大多數(shù)部署的安全案例(即任何可能用于高風險任務的模型部署),都需要包含證據(jù)表明我們的安全措施具有很高的穩(wěn)健性。也就是說,應該清楚的是,無論是模型還是它的監(jiān)測系統(tǒng),都不會在罕見但重要的輸入上以令人驚訝的方式失敗 

除非可解釋性出現(xiàn)不太可能的最佳結(jié)果,否則我們預計一個強有力的安全案例將需要依靠基于其他方法的額外新發(fā)現(xiàn)。這些新發(fā)現(xiàn)應當能讓我們定量評估模型的安全性,預測它們可能帶來的風險。

保護算法的秘密

如果我們的研究能力遠遠領(lǐng)先于該領(lǐng)域的平均水平,那么保護該研究的關(guān)鍵發(fā)現(xiàn)對于公司保持領(lǐng)先地位將非常重要。這與不公布模型權(quán)重有本質(zhì)不同,保護起來也要困難得多:因為這些發(fā)現(xiàn)通??梢杂脦拙湓捇驇锥卧拋肀磉_,離職的員工很自然地就能記住。因此保護算法秘密至關(guān)重要。

為 ASL-4 和 ASL-5 建立清晰的評估

一旦達到 ASL-3 級別,安全評估就變得更難了。在 ASL-4 或 ASL-5 級別下部署預防措施,時間和金錢成本可能會空前高昂,過早啟動評估和過晚啟動高風險等級都會產(chǎn)生巨大成本。

這些評估分級應該既清晰又容易理解。如果我們發(fā)現(xiàn)某個模型需要 ASL-N 級別的保護,我們就得向第三方解釋,為什么這個模型需要這樣的保護,以及為什么其他類似的模型可能也需要。如果我們在評估中發(fā)現(xiàn)某些風險因素,我們需要有明確的證據(jù)來證明這些風險因素確實值得立即關(guān)注。

建立對危險能力、緩解措施和誘導的精確預測

如果我們能夠準確預測哪些風險會在何時出現(xiàn),以及哪些緩解措施可以在何時準備就緒,那么將能夠更好地進行規(guī)劃和協(xié)調(diào)。這些預測將在我們的 RSP 評估規(guī)劃中發(fā)揮特別直接的作用:在 RSP 的當前設(shè)計下,我們的評估體系需要留出緩沖空間,以便在風險實際出現(xiàn)之前安全地觸發(fā),從而避免模型是在中等安全性下訓練的,但事后又確定需要更高安全級別的情況。

這些預測也可能影響我們安全案例結(jié)構(gòu)。如果我們有能夠?qū)π嘛L險的出現(xiàn)做出精確預測的方法,這些預測可以幫助識別更廣泛安全案例中最需要關(guān)注的特定風險因素。

構(gòu)建高度自適應的研究基礎(chǔ)設(shè)施

在 TAI 早期開發(fā)的某個階段,我們可能會獲得有關(guān)許多風險的新的具體證據(jù)。并且我們可能不會信任具有完全高帶寬訪問權(quán)限的模型來修改我們的基礎(chǔ)設(shè)施和代碼庫,因此工程師時間仍將是我們做許多工作的約束。此時我們需要能夠快速行動,并從新的自動化機會中盡可能多地受益。這可能需要在第二階段中進行大量的組織和基礎(chǔ)設(shè)施準備。

在 TAI 出現(xiàn)前,我們可能會發(fā)現(xiàn)許多具體的風險。但由于工作進度需要工程師配合。為了能更快地推進,在這個階段,可能需要公司組織調(diào)整和基礎(chǔ)設(shè)施的建設(shè)。

壓力測試安全案例

我們的合規(guī)團隊(負責安全)和對齊壓力測試團隊(負責其他技術(shù)安全措施)構(gòu)成了三道防線世界觀中的第二道安全防線,他們負責確保我們了解自己正在緩解的風險,并確保沒有遺漏任何重要信息。在我們的宏觀安全計劃中,這表現(xiàn)為對組織準備做出的任何有關(guān)安全和保障的承載聲明進行懷疑評估,并對任何重要的自由裁量決策進行二次簽字。

這一職能的直接重要性并不像這里列出的許多其他職能,因為原則上我們的一線安全團隊一次就能把事情做好。但在實踐中,我預計這將對我們把事情做好的能力產(chǎn)生重大影響,并清楚地表明我們已經(jīng)做到了這一點。

特別地,對齊壓力測試團隊的主要挑戰(zhàn)是要足夠接近我們的日常執(zhí)行工作,腳踏實地,但又不成為這項工作的主要直接貢獻者,以免損害他們評估這項工作的能力。

審查安全案例

董事會在長期利益信任(LTBT)和外部合作伙伴的支持下,為模型構(gòu)筑了三道防線世界觀中的第三道安全防線,對任何關(guān)鍵安全決策提出獨立觀點,而這些觀點的提出者從未參與公司計劃的執(zhí)行或執(zhí)行。這些人最終負責簽署高風險決策,比如全新前沿模型的部署等。

我希望董事會能夠在需要時找到相關(guān)外部專家,并做出合理決策。更大的挑戰(zhàn)是做決策的過程要讓其他參與者易懂并值得信賴。最顯而易見的方法是當相關(guān)組織上線并擁有足夠的技術(shù)實力來裁決這些決定時,遵從這些特定第三方組織關(guān)于決策的意見。如果沒有這一點,很難想象 RSP 及附屬結(jié)構(gòu)如何通過 LeCun 提出的測試。

因此,我認為 Anthropic 無法直接解決的最緊迫安全問題便是找到一個或理想情況下幾個有威望的第三方組織來勝任裁決角色。這些組織要有很高的知名度并受到廣泛的信任,以至于如果前沿 AI 開發(fā)者不與它們中的任何一個合作都會被視為高度可疑。

為新興風險因素開發(fā)明確的確鑿證據(jù)演示

當前的 TAI 安全工作通常至少涉及一定程度的推測或推斷,原因很簡單,我們往往無法驗證那些構(gòu)成風險的系統(tǒng)。如果可以找到過渡到具體實證工作的方法,則應該這樣做,既是為了鞏固我們對威脅模型的信心,也為其他相關(guān)方(尤其包括決策制定者)提供更具說服力的證據(jù)

當我們看到明顯的證據(jù)表明真實模型中開始出現(xiàn)某種風險或風險因素時,則值得進行大量額外工作將它們轉(zhuǎn)化為簡單、嚴格的演示,使風險立即清晰明了,理想情況下要讓技術(shù)水平較低的受眾也能理解。我們過去工作中有過這樣的例子,比如「Sleeper Agents」(沉睡的智能體)和「Sycophancy」(拍馬屁)。

準備暫?;蛑匦虏渴?/span>

為了使 RSP 承諾在最壞的情況下(確保 TAI 系統(tǒng)的安全極其困難)發(fā)揮作用,我們需要能夠暫停開發(fā)和部署新的前沿模型,直到制定出足夠的保障措施。但是不能保證這在任何特定的時間線上都能實現(xiàn),這可能會導致我們?nèi)∠虼蠓薷闹饕渴稹?/span>

第二階段:TAI(變革性人工智能)

在這個階段,性能最好的模型開始符合 TAI 的標準,但在大多數(shù)領(lǐng)域還沒有遠遠超過人類。根據(jù) RSP,它們的定級為 ASL-4。AI 研發(fā)還沒有自動化到 AI 可以自主進步的程度。

AI 開展研究的能力逐漸變強,這將為 AI 安全帶來顯著進步。這個階段可能會逐漸到來,但如果 AI 的研發(fā)能力強到「逃逸速度」時,TAI 階段可能會突然結(jié)束,直接進入第 3 階段。

第 1 階段的許多任務在此時還不會完成,其中許多任務在第 2 階段中只會變得更具挑戰(zhàn)性和緊迫性。此外,如果人工智能增強研發(fā)達到「逃逸速度」,這一階段可能會突然結(jié)束,我們將需要為第 3 階段做好比當時看起來更直觀的準備。

開發(fā)方法來調(diào)整實質(zhì)上超人的人工智能

在第 3 階段中,我們可能會遇到一些系統(tǒng),如果它們失調(diào),就足以迅速而果斷地破壞安全。因此,在第 2 階段結(jié)束之前,我們需要要么完全、完美地解決對齊的核心挑戰(zhàn),要么完全、完美地解決一些相關(guān)的(并且?guī)缀跬瑯永щy的)目標,例如可糾正性。

不斷、仔細地評估

我們預計人工智能在微調(diào)和啟發(fā)方面的進展速度將大幅加快。雖然在早期的 ASL 中,前沿風險評估可以包含一些緩沖,如果人工智能系統(tǒng)未能觸發(fā)緩沖,我們可以在需要再次評估之前進行一些進一步的研究和擴展,但這些緩沖可能會變得不可持續(xù),每一項重要進展都應該進行仔細評估。快速且在很大程度上自動化的評估至關(guān)重要。

部署以支持高風險決策制定

在從第 2 階段過渡到第 3 階段的過程中,經(jīng)濟相關(guān)大量領(lǐng)域的自動化將變得清晰合理,災難性風險近在眼前,全球大多數(shù)機構(gòu)都面臨前所未有的威脅和機遇。除了成為所有這些不確定性和變化的根源之外,人工智能系統(tǒng)還可以提供即時工具來幫助應對這些不確定性和變化。

此時,最有價值的一點是部署能夠有效提高我們做出高風險決策能力的工具,可能包括針對個人決策、建立共識、教育和 / 或預測的工作。這里很大一部分工作將是產(chǎn)品設(shè)計,而不是核心人工智能研究,因此其中大部分工作可能通過以公共利益為導向的合作伙伴而不是內(nèi)部完成。

第三階段:當 TAI 來臨之后該怎么辦

當進入這個階段時,最強的 AI 模型已經(jīng)在廣義上超越了人類,這將需要 ASL-5 級別的預防措施。如果到了這個時候,我們還沒有在重大的核心安全挑戰(zhàn)上取得決定性的成功,那么屆時 AI 行動的速度太快,風險太高,我們不太可能從重大失誤中恢復過來。

監(jiān)管機構(gòu)很可能會在 AI 方面投入巨資,在很大程度上使公司不再需要獨自做出重大決策。在這個階段,我沒有列出任何「待做事項」,因為我希望最好的情況就是「無事發(fā)生」。

當超高智慧的人工智能出現(xiàn)時,作為負責開發(fā)的組織,之前的決策將承擔巨大風險,早期部署 AI 系統(tǒng)的方式可能以難以預測迅速改變或破壞社會結(jié)構(gòu)和功能。同時,我們需要仔細考慮治理和安全機制,因為這些高級 AI 系統(tǒng)屆時將不僅是簡單的工具,更可能像一個完整的獨立文明一樣運作。

當然,AI 做出什么樣的行為才算無害,是一個非常棘手的問題,相比于由一個公司內(nèi)部來權(quán)衡,更希望有更廣泛的力量來達成共識。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2013-04-17 10:56:10

ONFOpenDayligh標準協(xié)議

2014-11-10 10:33:37

2014-11-07 17:22:10

2024-05-29 13:02:03

2015-06-17 15:54:42

2014-05-21 16:04:38

面試面試規(guī)則

2014-02-28 14:53:18

2022-09-06 17:58:11

技術(shù)雙11

2024-03-07 09:59:00

2011-08-23 17:02:37

FedoraLinux 20周年

2012-12-13 11:12:24

戴爾

2009-12-23 09:45:31

微軟施密特

2011-03-11 13:18:44

2021-07-09 10:20:32

人工智能AI開發(fā)

2015-04-03 17:04:13

2009-09-15 10:45:52

Linux驅(qū)動Linux微軟

2011-08-23 18:07:42

QomoLinux 20周年

2014-06-27 14:49:41

SDN

2016-01-15 10:47:08

技術(shù)團隊能力
點贊
收藏

51CTO技術(shù)棧公眾號