OpenAI 大幅縮短 AI 模型安全測試周期 專家警告或埋下隱患
以GPT系列、Codec、DALL-E和Whisper等AI項目聞名的OpenAI公司,近期被曝大幅壓縮其大型語言模型(LLM)的安全測試周期。專家警告,這種為追求發(fā)布速度而犧牲安全評估的做法可能帶來嚴重后果。
測試周期從數(shù)月驟減至數(shù)天
據(jù)《金融時報》報道,OpenAI目前僅給予內(nèi)部員工和外部團隊數(shù)天時間,用于評估最新LLM模型的風(fēng)險與性能表現(xiàn)。而此前同類測試通常持續(xù)數(shù)月時間。八位熟悉OpenAI測試流程的知情人士透露,該公司已明顯減少在安全測試方面的投入,無論是資源分配還是時間安排都大幅縮減。
測試周期縮短的典型案例體現(xiàn)在GPT系列模型上:GPT-4發(fā)布前經(jīng)歷了長達六個月的安全評估,而2024年5月推出的GPT-4 Omni模型測試階段僅持續(xù)一周。Parekh咨詢公司CEO帕雷克·賈恩指出:"AI領(lǐng)域競爭日趨白熱化,科技公司正以驚人速度推出新模型。"
安全風(fēng)險與聲譽危機雙重威脅
多位專家強調(diào),壓縮測試時間將顯著影響首發(fā)模型質(zhì)量。"如果出現(xiàn)模型幻覺或輸出危害等事故,OpenAI將失去公眾信任,面臨產(chǎn)品發(fā)布受挫的困境。"賈恩分析道。他特別指出,OpenAI已因從非營利組織轉(zhuǎn)型為營利企業(yè)面臨形象危機,任何安全事故都可能強化"為利潤犧牲安全"的負面認知。
測試參與者直言不諱地批評這種變化:有人將縮短測試稱為"輕率之舉"和"災(zāi)難配方";曾參與GPT-4測試的人員透露,某些潛在風(fēng)險往往需要兩個月才能被發(fā)現(xiàn)。雖然OpenAI未立即回應(yīng)質(zhì)詢,但該公司在2024年9月已將安全委員會改組為獨立的"董事會監(jiān)督委員會",該機構(gòu)有權(quán)出于安全考慮推遲模型發(fā)布。
技術(shù)升級或成雙刃劍
賈恩提出另一種可能性:OpenAI或許正通過AI技術(shù)提升測試效率。"他們可能在內(nèi)部流程中大量應(yīng)用AI技術(shù),試圖以此加速模型發(fā)布。"這一推測得到OpenAI2024年12月聲明的佐證,該公司當時宣稱其AI測試模型正快速變得更加強大。然而,這種技術(shù)驅(qū)動的測試加速能否真正保障模型安全性,仍需實踐檢驗。