谷歌豪華陣容打造AI科學(xué)家,用測試時間計算加速科學(xué)發(fā)現(xiàn),CEO皮猜也來站臺了
CEO皮猜親自站臺,谷歌的最新研究狠狠火了——
為科學(xué)家群體推出“科研搭子”AI co-scientist,一個能夠利用高級推理綜合大量文獻、生成新穎假設(shè),并提出詳細研究計劃的多智能體AI系統(tǒng)。
劃重點,該系統(tǒng)將與OpenAI o1/DeepSeek-R1相似的測試時間計算用來加速科學(xué)發(fā)現(xiàn)。
據(jù)皮猜介紹,這個系統(tǒng)已經(jīng)在肝臟纖維化治療、抗菌耐藥性和藥物再利用等重要研究領(lǐng)域取得了初步成果。
而且趁熱打鐵,谷歌這次還面向全球科學(xué)家推出了一個“可信測試計劃”,大家現(xiàn)在都可以申請。
另外,從致謝名單可以看到,這項研究集齊了谷歌內(nèi)部豪華陣容,包括Google Research、Deepmind以及Cloud AI teams,還有頂尖高??茖W(xué)家參與測試……
正如網(wǎng)友所言,說不定AI智能體未來某天就獲得諾貝爾獎了。
文獻綜述/提出假設(shè)/報告一條龍搞定
直接來看AI co-scientist的運作過程。
其目標非常清晰,當(dāng)科學(xué)家文字給出研究主題后,它會借助多個AI智能體幫助生成新的研究假設(shè)、詳細的研究概述和實驗方案。
參與其中的智能體包括但不限于:
- 生成(Generation):提出新的假設(shè)或想法
- 反思(Reflection):評估和分析生成的假設(shè)
- 排名(Ranking):對假設(shè)進行優(yōu)先級排序
- 進化(Evolution):通過迭代改進假設(shè)
- 鄰近性(Proximity):探索與現(xiàn)有知識相近或相關(guān)的領(lǐng)域
- 元審查(Meta-review):對整個過程進行監(jiān)督和優(yōu)化
這些智能體通過自動化反饋不斷迭代,生成、評估和改進假設(shè),從而形成自我優(yōu)化循環(huán),最終輸出高質(zhì)量研究方案。
而作為科學(xué)家,具體可以通過以下幾種方式參與協(xié)作。
比如最開始給系統(tǒng)提供粗略的想法或一些研究主題or方向,讓它幫你進一步細化;或者對AI的輸出提供自然語言反饋,讓它進一步調(diào)整。
此外,科學(xué)家還能使用其他工具,如網(wǎng)絡(luò)搜索或一些專業(yè)領(lǐng)域的AI模型,來進一步提高研究質(zhì)量。
深挖二者具體協(xié)作過程,還能看到當(dāng)科學(xué)家提出研究目標后,有一個監(jiān)督智能體(Supervisor Agent)來負責(zé)工作分配。
- 專業(yè)智能體(紅色框,具有獨特的角色和邏輯);
- 科學(xué)家的輸入和反饋(藍色框);
- 系統(tǒng)信息流(深灰色箭頭);
- 智能體間的反饋(智能體內(nèi)部的紅色箭頭)。
從上面可以看出,整個AI co-scientist系統(tǒng)的運作較為簡單。
測試時間計算用于科學(xué)發(fā)現(xiàn)
當(dāng)然,這項研究的主要亮點是:
擴展測試時間計算(test-time)來大大增強其推理能力,包括上面提到的自我對弈、假設(shè)排名和進化過程等關(guān)鍵推理步驟。
在研究中,AI co-scientist利用Elo評級系統(tǒng)來衡量和提升其在解決科學(xué)問題方面的能力。
具體而言,Elo評級是一個動態(tài)的評估指標,通常用于衡量比賽者的相對技能水平。研究人員對比了AI co-scientist(藍色線)和Gemini 2.0(紅色線)在GPQA(General Problem-solving Question Answering)基準測試上的平均準確率。
結(jié)果發(fā)現(xiàn),高Elo評級的系統(tǒng)在解決挑戰(zhàn)性問題時,能夠提供更準確答案。(正相關(guān))
這表明了,Elo評級可以作為一個有效的指標,用來預(yù)測和提升AI co-scientist在科學(xué)問題解決方面的性能。
接下來,七位領(lǐng)域?qū)<揖x了15個開放的研究目標,并提出了相應(yīng)的最佳解決方案。
目標是,利用自動化的Elo評估指標,來對比AI co-scientist和其他最先進智能體和推理模型(Gemini 2.0 Pro版本和推理版本,以及人類專家)在解決這些復(fù)雜問題上的表現(xiàn)。
結(jié)果顯示,AI co-scientist明顯表現(xiàn)最佳。
此外,隨著AI系統(tǒng)投入更多時間進行推理和改進,其自我評估的質(zhì)量得到了顯著提升,甚至超出了傳統(tǒng)模型以及在某些情況下無法解決問題的人類專家的水平。
更關(guān)鍵的,基于對11個研究目標子集的分析,專家評估認為AI co-scientist在新穎性和影響力方面的表現(xiàn)優(yōu)于其他基線模型。
為了進一步評估AI co-scientist用于科學(xué)發(fā)現(xiàn)的實際潛力,研究團隊進行了一系列端到端的實驗室實驗。
這些實驗專注于三個關(guān)鍵的生物醫(yī)學(xué)領(lǐng)域:藥物再利用、新治療靶點的提出以及抗菌耐藥性的背后機制。
實驗中,AI co-scientist不僅受到了專家的指導(dǎo)和反饋,而且涵蓋了從簡單到復(fù)雜的多種研究場景。
話不多說,我們具體來看其取得的初步成果。
首先,藥物再利用是一種將已經(jīng)批準用于其他疾病的藥物用于治療新疾病的策略。這種方法能夠縮短藥物開發(fā)的時間和成本,并且可以快速地將有效的治療方案帶給患者。
這一次,研究人員將目光瞄準了急性髓系白血?。ˋML),AI co-scientist通過分析大量的生物醫(yī)學(xué)數(shù)據(jù),包括藥物的化學(xué)結(jié)構(gòu)、藥效學(xué)和遺傳信息,來預(yù)測哪些現(xiàn)有藥物可能對AML有效。
最終,AI co-scientist提出了3種可能藥物。而且在進一步驗證中,它所建議的藥物在多個AML細胞系中,以臨床相關(guān)的濃度抑制了腫瘤的活力,證明了其有效性。
而比藥物再利用更復(fù)雜的識別新型治療靶點中,研究人員聚焦于肝纖維化這種疾病。
肝纖維化的治療是當(dāng)前肝病研究的重點,而尋找有效的治療靶點是關(guān)鍵。
過程中,AI co-scientist通過對大量生物醫(yī)學(xué)數(shù)據(jù)的分析,包括基因表達譜、蛋白質(zhì)互作網(wǎng)絡(luò)和已知藥物數(shù)據(jù)庫,來識別與肝纖維化相關(guān)的關(guān)鍵分子和生物學(xué)路徑。
對比它所提出的一系列潛在治療方案,和傳統(tǒng)的纖維化誘導(dǎo)劑(作為陰性對照)以及抑制劑(作為陽性對照)來看,所有由AI co-scientist建議的藥物都顯示出有希望的活性(p值小于0.01)。
這意味著這些藥物在治療肝纖維化方面具有很高的可能性。
最后,在第三次實驗中,通過分析大量的遺傳學(xué)、蛋白質(zhì)結(jié)構(gòu)和藥物活性數(shù)據(jù),AI co-scientist也被發(fā)現(xiàn)能夠識別和預(yù)測細菌耐藥的潛在機制。
具體而言,在囊膜形成噬菌體誘導(dǎo)的染色體島(cf-PICIs)中,研究人員利用AI co-scientist的能力來探索cf-PICIs在多種細菌物種中的存在和功能機制。
AI co-scientist通過分析和整合大量的生物學(xué)文獻和數(shù)據(jù),獨立提出了一個新的假設(shè):
cf-PICIs可能通過與多種噬菌體尾部相互作用來擴大其宿主范圍。
而這一假設(shè)得到了實驗室實驗的驗證。
不過需要提醒,盡管AI co-scientist已經(jīng)在科學(xué)發(fā)現(xiàn)上取得一系列初步成果,但谷歌也點出了其局限性:
文獻綜述能力、事實核查、與外部工具的交叉檢查、自動評估技術(shù)以及更大規(guī)模的評估等,均需要進一步完善。
現(xiàn)在,感興趣的研究人員or團隊可以申請一波了~
申請地址:https://docs.google.com/forms/d/e/1FAIpQLSdvw_8IPrc8O7ZM8FKF46i8BnOYMeSeyLeBNiuk_yGWIlnxYA/viewform