攻破OpenAI o1/o3、DeepSeek R1防線,安全推理過程反成大模型「阿喀琉斯之踵」
本文共同第一作者是杜克大學(xué)計算進化智能中心的博士生郭士霆、張健一,導(dǎo)師為陳怡然教授。
在通往 AGI 的道路上,大型推理模型(LRMs)正以前所未有的速度迭代進化:OpenAI 的 o 系列模型憑借類人推理能力刷新多項基準,DeepSeek-R1 以極低的訓(xùn)練成本實現(xiàn)完全不輸 o 系列模型的性能突破。
然而,在這股追求推理性能的浪潮之下,一個關(guān)乎技術(shù)倫理的隱憂正在浮現(xiàn) —— 當(dāng)模型運用自身強大的推理能力進行安全審查時,「展示安全推理思維鏈」這種透明化機制是否會暴露安全隱患?
杜克大學(xué)計算進化智能中心的最新研究給出了警示性答案。團隊提出的 H-CoT(思維鏈劫持)的攻擊方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在內(nèi)的多款高性能大型推理模型的安全防線:在涉及極端犯罪策略的虛擬教育場景測試中,模型拒絕率從初始的 98% 暴跌至 2% 以下,部分案例中甚至出現(xiàn)從「謹慎勸阻」到「主動獻策」的立場反轉(zhuǎn)。
這項研究揭示了當(dāng)前安全機制的深層矛盾 —— 推理透明化與防御魯棒性正在形成難以調(diào)和的沖突。
- 論文地址:https://arxiv.org/abs/2502.12893v1
- 項目主頁:https://maliciouseducator.org
- Github:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
- 杜克大學(xué)計算進化智能中心:https://cei.pratt.duke.edu/
一、大型推理模型的安全標(biāo)準與技術(shù)路線
為確保大型推理模型(LRMs)的真正造福人類,必須在強推理能力與內(nèi)容無害性之間建立足夠可靠的平衡。這要求我們同時建立明確的安全標(biāo)準和完善的技術(shù)保障體系。
從安全標(biāo)準來看,作為大型推理模型的先驅(qū),OpenAI 在其 o1/o3 系列中提出了如下安全準則:
如果出于合理的教育目的討論有害內(nèi)容,允許模型提供概括性、中立且具有信息性的回答,同時應(yīng)積極勸阻對該內(nèi)容的濫用或進一步傳播。
從技術(shù)保障來看,OpenAI 通過運用 o1/o3 強大的推理能力,對用戶請求進行謹慎且「慢思考」式的安全評估,以期在性能與安全之間取得平衡。
然而,即使有上述安全標(biāo)準的規(guī)范和技術(shù)路線的護航,我們?nèi)孕枰伎家粋€無法回避的問題:現(xiàn)有的技術(shù)手段是否足以支撐如此高要求的安全標(biāo)準?更具體地說,本篇研究發(fā)現(xiàn)兩個亟待解決的系統(tǒng)性挑戰(zhàn):
挑戰(zhàn) 1:極度高危請求的謹慎識別
當(dāng)面對明確涉及極端犯罪的請求時(例子請參考原文),模型能否始終如一地執(zhí)行安全準則并拒絕提供回答?即使攻擊者以虛擬的教育場景進行偽裝。
挑戰(zhàn) 2:展示安全推理過程是否會產(chǎn)生反噬作用
即便模型在一開始能夠拒絕,但是模型在拒絕請求時展示的詳細安全審查思維鏈,可能被攻擊者逆向解析。這種透明化機制是否會導(dǎo)致攻擊者通過思維鏈信息操控后續(xù)交互,從而系統(tǒng)性瓦解模型的防御立場?此問題在當(dāng)前技術(shù)路線中尚未得到充分重視。
二、構(gòu)建測試基準與提出新型 H-CoT 攻擊方法
為系統(tǒng)評估現(xiàn)有安全機制的缺陷,作者構(gòu)建了名為「惡意教育者(Malicious Educator)」的測試基準集。該基準聚焦 10 類高危場景,每條測試請求均要求模型從攻擊者視角生成包含「具體方案 / 實施方式 / 功能示例 / 實施理由」的完整策略。
為確保測試請求的高風(fēng)險性,作者以 2024 年 1 月 OpenAI o1 模型的響應(yīng)為基準:該模型對此基準集的初始拒絕率達到 98%。
關(guān)鍵發(fā)現(xiàn):安全推理的透明化陷阱
在測試過程中,作者發(fā)現(xiàn)當(dāng)模型拒絕高危請求時,其輸出的思維鏈會完整展示安全審查的邏輯路徑(例如「此請求涉及攻擊行為→可能違反安全規(guī)定→需阻止?jié)撛谖:Α梗?。這種透明化機制使攻擊者能夠逆向解析模型的防御邏輯成為可能,為后續(xù)攻擊提供關(guān)鍵切入點。(此發(fā)現(xiàn)也與后續(xù)的 Claude 3.7 Sonnet System Card 中的結(jié)論不謀而合)
H-CoT 攻擊方法實現(xiàn)
基于上述發(fā)現(xiàn),本文提出「思維鏈劫持」攻擊(Hijacking Chain-of-Thought, H-CoT),具體實施分為兩個階段:
- 安全邏輯提取:針對目標(biāo)危險請求,首先提交與原問題相關(guān)聯(lián)的無害請求,誘導(dǎo)模型輸出包含安全審查邏輯的思維鏈 (具體例子請參考原文)。
- 邏輯污染攻擊:參照提取的安全推理鏈,為原始危險請求偽造「看似安全」 的邏輯思維鏈,嵌入原始危險請求的上下文環(huán)境,誤導(dǎo)模型降低防御閾值。
H-CoT 的攻擊流程
實驗結(jié)果顯示,H-CoT 攻擊可導(dǎo)致 OpenAI o1 模型對同一批高危請求的拒絕率從 98% 驟降至 2%。這種攻擊有效性直接證明了:模型展示安全審查思維鏈的行為,實質(zhì)上為攻擊者提供了可以操控其防御系統(tǒng)的切入點。
三、令人擔(dān)憂的安全測試結(jié)果
在構(gòu)建的「惡意教育者」測試基準上,結(jié)合 H-CoT(思維鏈劫持) 攻擊方法,作者觀察到了一系列令人擔(dān)憂的安全問題。
1. OpenAI o 系列(o1、o1-pro、o3-mini)的安全表現(xiàn)下滑
這些模型在面對「惡意教育者」基準時,最初能維持 98% 的高拒絕率,但在 H-CoT 攻擊下卻無一幸免,拒絕率驟降至 2%(見下圖,ASR 代表攻擊成功率 = 1 - 拒絕率)。換言之,對于同一批高風(fēng)險的請求,模型從「堅定拒絕」 轉(zhuǎn)變?yōu)閹缀酢溉娣判小梗踩谰€瞬間瓦解。
更令人擔(dān)憂的是,隨著推理模型之間的競爭不斷加?。ɡ?DeepSeek-R1 憑借低成本和出色性能迅速崛起,給 OpenAI o 系列模型的開發(fā)帶來更大壓力),作者擔(dān)心在這樣激烈的商業(yè)環(huán)境中,模型開發(fā)方可能會為了提高實用性而在一定程度上犧牲安全性。
為驗證這一點,作者比較了今年一月份和二月份的最新 OpenAI o1 模型在 「惡意教育者」基準上的表現(xiàn),并進一步考察了不同 IP 地址(通過代理網(wǎng)絡(luò))對模型安全性能的影響。如下圖所示,可以發(fā)現(xiàn)隨著 DeepSeek-R1 的發(fā)布,o1 模型從一月份到二月份在多個類別上的安全表現(xiàn)都有所下滑;同時,不同地理位置(體現(xiàn)為不同代理 IP)也會對模型的安全性產(chǎn)生顯著影響。
另外無論在時間維度還是地理位置的變化條件下,H-CoT 攻擊在絕大部分測試場景中仍保持了極高的成功率,展現(xiàn)出一致且高效的攻擊能力。其背后原因也再次凸顯了「透明思維鏈」在安全審查中帶來的結(jié)構(gòu)性漏洞,一旦遭到惡意利用,模型的防御體系將極其脆弱。
2. DeepSeek-R1 的風(fēng)險評估
DeepSeek-R1 本身在「惡意教育者」基準上的拒絕率僅有約 20%,在 H-CoT 攻擊壓力下更是降至 4%(見下圖)。與 OpenAI o 系列「先安全推理審查,再給出回答」的模式不同,DeepSeek-R1 的策略是「先回答,同時審查」,即先輸出一份答案,如若發(fā)現(xiàn)存在高風(fēng)險內(nèi)容,再對原始答案進行覆蓋。
這種機制意味著在模型覆蓋答案之前,惡意攻擊者仍然可以截獲不當(dāng)信息。盡管這并不代表 DeepSeek-R1 完全沒有進行安全推理審查,但也反映其安全推理審查強度不夠。
另外,作者還注意到,DeepSeek-R1 在處理中文請求時比處理英文請求更為嚴格:針對「尋求犯罪策略」的問題,中文環(huán)境下常生成「如何防止犯罪的策略」,而英文環(huán)境下卻可能給出「如何犯罪」的詳細方案。
這種跨語言差異或許與訓(xùn)練語料和主要市場定位有關(guān),但也為潛在的「跨語種」攻擊方式提供了可乘之機,即惡意攻擊者可通過將原來危險的中文請求翻譯成英文來繞過 DeepSeek-R1 的安全審查。因此作者呼吁模型開發(fā)方對此也應(yīng)保持高度警惕。
3. Gemini 2.0 Flash Thinking 的更嚴重安全隱患
在對 Gemini 2.0 Flash Thinking 的測試中,作者不僅觀測到 H-CoT 攻擊將模型的拒絕率從原先的 10% 降至 0%,還發(fā)現(xiàn) H-CoT 能顯著影響模型的態(tài)度 —— 從「猶豫嚴謹」到「主動獻策」,出現(xiàn)了明顯的態(tài)度逆轉(zhuǎn)。
例如,在回答相同問題的五次試驗中,模型給出的犯罪策略數(shù)量可能出現(xiàn) 2、3、3、4、4 等變化。如果作者選取「最多策略」那次(4 條策略)的思考過程,并將其注入到 H-CoT 攻擊請求中,模型隨后的回答便會穩(wěn)定輸出至少 4 條策略。
又如,如果五次試驗中有四次回答較為謹慎猶豫,但有一次回答中使用了「當(dāng)然」(相當(dāng)于「非常愿意」)的積極回答的表述,那么作者就能將該次回答的思考過程作為 H-CoT 注入到原始問題,從而在隨后的五次新回答中,模型都會從一開始就用「當(dāng)然」開頭,表現(xiàn)出非常愿意配合的態(tài)度來提供犯罪策略。
這些現(xiàn)象表明,Gemini 2.O Flash Thinking 旨在優(yōu)先提高「基于思維鏈的指令跟隨」能力,而安全對齊(safety alignment)的優(yōu)先級則被嚴重削弱,一旦遭遇 H-CoT 攻擊便易受操控。
四、未來的大型推理模型安全展望
作者希望通過本研究能夠拋磚引玉,引起更多研究者對當(dāng)前大型推理模型安全性的關(guān)注。尤其對「展示安全推理思維鏈」這一特性,作者強烈呼吁在實際應(yīng)用中應(yīng)適當(dāng)隱藏或模糊化處理,以免攻擊者據(jù)此研究或利用安全審查機制,從而輕易突破防線。
同時作者會逐步開源針對不同模型與不同問題場景所收集的 H-CoT 攻擊樣本。鑒于模型將不斷迭代更新,作者歡迎世界各地的研究者和開發(fā)者對最新版本模型(比如 deepseek-R2,比如后續(xù)的 o1/o3 模型更新,比如 Grok3,Claude 3.7 Sonnet)進行測試,驗證既有 H-CoT 攻擊所用的「偽造思維鏈」是否仍然奏效;
同時,作者也鼓勵更多人能參與到貢獻「惡意教育者」這個測試基準集中來,幫助完善并豐富該基準。詳細信息可參考網(wǎng)站與開源倉庫。