OpenAI深夜開源HealthBench,60個國家合力開發(fā)5000段真實對話
今天凌晨1點30,OpenAI開源了一個專門面向醫(yī)療大模型的測試評估集——HealthBench。
與以往測試集不同的是,該測試集的5000段核心測試對話,全部由來自60個國家/地區(qū)的26個專業(yè)262名醫(yī)生打造,極大增強(qiáng)了該測試集的難度、真實性以及豐富度。并且采用了多輪對話測試,而不是簡單的答題或選擇題模式。
根據(jù)測試數(shù)據(jù)顯示,大模型在醫(yī)療保健領(lǐng)域的表現(xiàn)有了顯著提升。例如,從之前的GPT-3.5Turbo的16%到GPT-4o的32%,再到o3的60%,整體性能有了顯著進(jìn)步。尤其是小型模型的進(jìn)步更為突出,GPT-4.1nano不僅在性能上超越了GPT-4o,而且成本降低了25倍。
開源地址:https://github.com/openai/simple-evals
HealthBench簡單介紹
據(jù)OpenAI透露,這262名醫(yī)生是從1021位醫(yī)生多輪測試中嚴(yán)格篩選出來的,在數(shù)據(jù)收集過程中,還會持續(xù)對醫(yī)生輸入的質(zhì)量進(jìn)行審查,依據(jù)自動化質(zhì)量指標(biāo)和對評分標(biāo)準(zhǔn)的審核,對醫(yī)生團(tuán)隊進(jìn)行輪換,確保數(shù)據(jù)的高質(zhì)量。
HealthBench的示例被劃分為7個主題和5個軸。7個主題分別為緊急轉(zhuǎn)診、情境尋求、全球健康、健康數(shù)據(jù)任務(wù)、專業(yè)定制溝通、不確定性下的響應(yīng)和響應(yīng)深度,每個主題都聚焦于現(xiàn)實世界健康交互的重要方面,評估模型在相應(yīng)場景下的表現(xiàn)。
5個軸包括準(zhǔn)確性、完整性、溝通質(zhì)量、情境感知和指令遵循,用于衡量模型行為的不同維度,使評估能夠更全面、細(xì)致地分析模型性能。
多數(shù)對話通過定制的大模型合成生成,由開發(fā)團(tuán)隊與醫(yī)生合作,詳細(xì)列舉重要的醫(yī)療場景,例如,用戶逐步描述暗示醫(yī)療緊急情況、醫(yī)療專業(yè)人員要求總結(jié)臨床筆記、模糊查詢需要澄清等,然后將這些場景轉(zhuǎn)化為多輪對話。
此外,部分?jǐn)?shù)據(jù)來自醫(yī)生對大語言模型在醫(yī)療場景中的紅隊測試,用于識別模型的弱點和不當(dāng)響應(yīng);還有一部分?jǐn)?shù)據(jù)源自Google發(fā)布的HealthSearchQA評估數(shù)據(jù)集,通過大語言模型將其中的查詢改寫為用戶與模型的對話。生成對話后,會使用o1-preview進(jìn)行相關(guān)性過濾,確保對話真實、自洽、與身體健康相關(guān)且無不完整消息。
創(chuàng)建評分標(biāo)準(zhǔn)是HealthBench的關(guān)鍵環(huán)節(jié)。每個對話都有對應(yīng)的由醫(yī)生編寫的評分標(biāo)準(zhǔn)。評分標(biāo)準(zhǔn)涵蓋了各種屬性,例如應(yīng)包含的具體事實、清晰溝通的方面、對特定主題的常見誤解等,并且每個標(biāo)準(zhǔn)都有從 -10 到 10 的非零分值,用于獎勵或懲罰模型的響應(yīng)。
評估時,基于模型的評分器會根據(jù)對話、模型響應(yīng)和評分標(biāo)準(zhǔn),獨立判斷每個標(biāo)準(zhǔn)是否被滿足。如果滿足,模型將獲得相應(yīng)的全部分值;否則不得分。最終,通過對所有滿足標(biāo)準(zhǔn)的分值進(jìn)行求和,并除以該示例的最大可能得分,得到單個示例的分?jǐn)?shù)。
醫(yī)生參與構(gòu)建流程
在醫(yī)生撰寫響應(yīng)的實驗中,OpenAI邀請醫(yī)生針對HealthBench任務(wù)撰寫他們認(rèn)為的理想響應(yīng)。醫(yī)生被分為三組,第一組醫(yī)生在沒有任何AI輔助的情況下,僅根據(jù)HealthBench中的對話撰寫響應(yīng),他們可以使用互聯(lián)網(wǎng)但不能使用AI工具;
第二組醫(yī)生可以參考2024年8-9月的模型GPT-4o和o1-preview生成的四個響應(yīng),并在此基礎(chǔ)上進(jìn)行改進(jìn);第三組醫(yī)生則參考2025年4月的模型GPT-4.1和o3的響應(yīng)進(jìn)行撰寫。
醫(yī)生在參考2024年模型響應(yīng)的基礎(chǔ)上,能夠在一定程度上提高響應(yīng)的性能,尤其在完整性和準(zhǔn)確性方面有較為明顯的提升。
然而,當(dāng)參考2025年性能更好的模型響應(yīng)時,醫(yī)生并不能進(jìn)一步提高響應(yīng)質(zhì)量。在比較醫(yī)生撰寫的響應(yīng)與參考響應(yīng)的得分時發(fā)現(xiàn),對于2024年模型的參考響應(yīng),醫(yī)生撰寫的響應(yīng)改進(jìn)的比例高于惡化的比例56.2%vs39.8%;
而對于2025年模型的參考響應(yīng),醫(yī)生改進(jìn)和惡化參考響應(yīng)的可能性幾乎相同46.8%vs47.7%。此外,沒有參考模型響應(yīng)的醫(yī)生撰寫的響應(yīng)相對較短,這在一定程度上影響了其在HealthBench上的得分,因為HealthBench分?jǐn)?shù)與響應(yīng)長度存在一定的相關(guān)性。
大模型測試數(shù)據(jù)
在驗證評分器可靠性的元評估中,一共有34個預(yù)定義的共識評分標(biāo)準(zhǔn)。對于每個HealthBench Consensus示例,收集多個醫(yī)生對特定響應(yīng)是否滿足標(biāo)準(zhǔn)的注釋,將這些注釋與基于模型的評分器的評分進(jìn)行比較。采用宏觀F1分?jǐn)?shù)來評估模型評分與醫(yī)生評分的一致性,宏觀F1分?jǐn)?shù)是每個類別的F1分?jǐn)?shù)的無加權(quán)平均值,能夠平衡對真陽性和假陽性的敏感度。
通過三種方法建立基線:典型醫(yī)生基線,通過計算每個醫(yī)生與其他醫(yī)生評分的 MF1 分?jǐn)?shù)來估計人類專家之間的一致性;個體醫(yī)生基線,報告每個個體醫(yī)生的 MF1 分?jǐn)?shù);
隨機(jī)基線,以經(jīng)驗陽性率返回 “met” 的弱基線,其 MF1 分?jǐn)?shù)為 0.50。以 GPT-4.1 作為主要的基于模型的評分器進(jìn)行評估,結(jié)果顯示,GPT-4.1 在所有主題上都超過了隨機(jī)基線,在7個主題中的5個主題上超過了平均醫(yī)生得分,在6個主題上位于醫(yī)生得分的上半部分,在所有主題上都高于醫(yī)生得分的下三分之一。
這表明GPT-4.1 作為模型評分器能夠與專家評分相匹配。此外,研究團(tuán)隊還使用 OpenAI 的 2025年4月的其他模型作為評分器進(jìn)行元評估,發(fā)現(xiàn) GPT-4.1 的表現(xiàn)最佳,o4-mini 和 o3 稍次,GPT-4.1 mini 和 nano 則表現(xiàn)較差。
這可能與GPT-4.1 在提示調(diào)整過程中被使用有關(guān)。同時多次運行HealthBench評估不同模型,發(fā)現(xiàn)模型得分的標(biāo)準(zhǔn)差約為 0.002,表明評估結(jié)果的總體可變性較低,進(jìn)一步證明了 HealthBench 評估的可靠性。