谷歌豪華陣容打造AI科學(xué)家，用測試時間計算加速科學(xué)發(fā)現(xiàn)，CEO皮猜也來站臺了

作者：量子位 2025-02-21 09:20:00

人工智能新聞

該系統(tǒng)將與OpenAI o1/DeepSeek-R1相似的測試時間計算用來加速科學(xué)發(fā)現(xiàn)。

CEO皮猜親自站臺，谷歌的最新研究狠狠火了——

為科學(xué)家群體推出“科研搭子”AI co-scientist，一個能夠利用高級推理綜合大量文獻、生成新穎假設(shè)，并提出詳細研究計劃的多智能體AI系統(tǒng)。

劃重點，該系統(tǒng)將與OpenAI o1/DeepSeek-R1相似的測試時間計算用來加速科學(xué)發(fā)現(xiàn)。

據(jù)皮猜介紹，這個系統(tǒng)已經(jīng)在肝臟纖維化治療、抗菌耐藥性和藥物再利用等重要研究領(lǐng)域取得了初步成果。

而且趁熱打鐵，谷歌這次還面向全球科學(xué)家推出了一個“可信測試計劃”，大家現(xiàn)在都可以申請。

另外，從致謝名單可以看到，這項研究集齊了谷歌內(nèi)部豪華陣容，包括Google Research、Deepmind以及Cloud AI teams，還有頂尖高?？茖W(xué)家參與測試……

正如網(wǎng)友所言，說不定AI智能體未來某天就獲得諾貝爾獎了。

文獻綜述/提出假設(shè)/報告一條龍搞定

直接來看AI co-scientist的運作過程。

其目標非常清晰，當(dāng)科學(xué)家文字給出研究主題后，它會借助多個AI智能體幫助生成新的研究假設(shè)、詳細的研究概述和實驗方案。

參與其中的智能體包括但不限于：

生成（Generation）：提出新的假設(shè)或想法
反思（Reflection）：評估和分析生成的假設(shè)
排名（Ranking）：對假設(shè)進行優(yōu)先級排序
進化（Evolution）：通過迭代改進假設(shè)
鄰近性（Proximity）：探索與現(xiàn)有知識相近或相關(guān)的領(lǐng)域
元審查（Meta-review）：對整個過程進行監(jiān)督和優(yōu)化

這些智能體通過自動化反饋不斷迭代，生成、評估和改進假設(shè)，從而形成自我優(yōu)化循環(huán)，最終輸出高質(zhì)量研究方案。

而作為科學(xué)家，具體可以通過以下幾種方式參與協(xié)作。

比如最開始給系統(tǒng)提供粗略的想法或一些研究主題or方向，讓它幫你進一步細化；或者對AI的輸出提供自然語言反饋，讓它進一步調(diào)整。

此外，科學(xué)家還能使用其他工具，如網(wǎng)絡(luò)搜索或一些專業(yè)領(lǐng)域的AI模型，來進一步提高研究質(zhì)量。

深挖二者具體協(xié)作過程，還能看到當(dāng)科學(xué)家提出研究目標后，有一個監(jiān)督智能體（Supervisor Agent）來負責(zé)工作分配。

專業(yè)智能體（紅色框，具有獨特的角色和邏輯）；
科學(xué)家的輸入和反饋（藍色框）；
系統(tǒng)信息流（深灰色箭頭）；
智能體間的反饋（智能體內(nèi)部的紅色箭頭）。

從上面可以看出，整個AI co-scientist系統(tǒng)的運作較為簡單。

測試時間計算用于科學(xué)發(fā)現(xiàn)

當(dāng)然，這項研究的主要亮點是：

擴展測試時間計算（test-time）來大大增強其推理能力，包括上面提到的自我對弈、假設(shè)排名和進化過程等關(guān)鍵推理步驟。

在研究中，AI co-scientist利用Elo評級系統(tǒng)來衡量和提升其在解決科學(xué)問題方面的能力。

具體而言，Elo評級是一個動態(tài)的評估指標，通常用于衡量比賽者的相對技能水平。研究人員對比了AI co-scientist（藍色線）和Gemini 2.0（紅色線）在GPQA（General Problem-solving Question Answering）基準測試上的平均準確率。

結(jié)果發(fā)現(xiàn)，高Elo評級的系統(tǒng)在解決挑戰(zhàn)性問題時，能夠提供更準確答案。（正相關(guān)）

這表明了，Elo評級可以作為一個有效的指標，用來預(yù)測和提升AI co-scientist在科學(xué)問題解決方面的性能。

接下來，七位領(lǐng)域?qū)＜揖x了15個開放的研究目標，并提出了相應(yīng)的最佳解決方案。

目標是，利用自動化的Elo評估指標，來對比AI co-scientist和其他最先進智能體和推理模型（Gemini 2.0 Pro版本和推理版本，以及人類專家）在解決這些復(fù)雜問題上的表現(xiàn)。

結(jié)果顯示，AI co-scientist明顯表現(xiàn)最佳。

此外，隨著AI系統(tǒng)投入更多時間進行推理和改進，其自我評估的質(zhì)量得到了顯著提升，甚至超出了傳統(tǒng)模型以及在某些情況下無法解決問題的人類專家的水平。

更關(guān)鍵的，基于對11個研究目標子集的分析，專家評估認為AI co-scientist在新穎性和影響力方面的表現(xiàn)優(yōu)于其他基線模型。

為了進一步評估AI co-scientist用于科學(xué)發(fā)現(xiàn)的實際潛力，研究團隊進行了一系列端到端的實驗室實驗。

這些實驗專注于三個關(guān)鍵的生物醫(yī)學(xué)領(lǐng)域：藥物再利用、新治療靶點的提出以及抗菌耐藥性的背后機制。

實驗中，AI co-scientist不僅受到了專家的指導(dǎo)和反饋，而且涵蓋了從簡單到復(fù)雜的多種研究場景。

話不多說，我們具體來看其取得的初步成果。

首先，藥物再利用是一種將已經(jīng)批準用于其他疾病的藥物用于治療新疾病的策略。這種方法能夠縮短藥物開發(fā)的時間和成本，并且可以快速地將有效的治療方案帶給患者。

這一次，研究人員將目光瞄準了急性髓系白血?。ˋML），AI co-scientist通過分析大量的生物醫(yī)學(xué)數(shù)據(jù)，包括藥物的化學(xué)結(jié)構(gòu)、藥效學(xué)和遺傳信息，來預(yù)測哪些現(xiàn)有藥物可能對AML有效。

最終，AI co-scientist提出了3種可能藥物。而且在進一步驗證中，它所建議的藥物在多個AML細胞系中，以臨床相關(guān)的濃度抑制了腫瘤的活力，證明了其有效性。

而比藥物再利用更復(fù)雜的識別新型治療靶點中，研究人員聚焦于肝纖維化這種疾病。

肝纖維化的治療是當(dāng)前肝病研究的重點，而尋找有效的治療靶點是關(guān)鍵。

過程中，AI co-scientist通過對大量生物醫(yī)學(xué)數(shù)據(jù)的分析，包括基因表達譜、蛋白質(zhì)互作網(wǎng)絡(luò)和已知藥物數(shù)據(jù)庫，來識別與肝纖維化相關(guān)的關(guān)鍵分子和生物學(xué)路徑。

對比它所提出的一系列潛在治療方案，和傳統(tǒng)的纖維化誘導(dǎo)劑（作為陰性對照）以及抑制劑（作為陽性對照）來看，所有由AI co-scientist建議的藥物都顯示出有希望的活性（p值小于0.01）。

這意味著這些藥物在治療肝纖維化方面具有很高的可能性。

最后，在第三次實驗中，通過分析大量的遺傳學(xué)、蛋白質(zhì)結(jié)構(gòu)和藥物活性數(shù)據(jù)，AI co-scientist也被發(fā)現(xiàn)能夠識別和預(yù)測細菌耐藥的潛在機制。

具體而言，在囊膜形成噬菌體誘導(dǎo)的染色體島（cf-PICIs）中，研究人員利用AI co-scientist的能力來探索cf-PICIs在多種細菌物種中的存在和功能機制。

AI co-scientist通過分析和整合大量的生物學(xué)文獻和數(shù)據(jù)，獨立提出了一個新的假設(shè)：

cf-PICIs可能通過與多種噬菌體尾部相互作用來擴大其宿主范圍。

而這一假設(shè)得到了實驗室實驗的驗證。

不過需要提醒，盡管AI co-scientist已經(jīng)在科學(xué)發(fā)現(xiàn)上取得一系列初步成果，但谷歌也點出了其局限性：

文獻綜述能力、事實核查、與外部工具的交叉檢查、自動評估技術(shù)以及更大規(guī)模的評估等，均需要進一步完善。

現(xiàn)在，感興趣的研究人員or團隊可以申請一波了~

申請地址：https://docs.google.com/forms/d/e/1FAIpQLSdvw_8IPrc8O7ZM8FKF46i8BnOYMeSeyLeBNiuk_yGWIlnxYA/viewform

責(zé)任編輯：張燕妮來源：量子位

AI 系統(tǒng)模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌豪華陣容打造AI科學(xué)家，用測試時間計算加速科學(xué)發(fā)現(xiàn)，CEO皮猜也來站臺了

文獻綜述/提出假設(shè)/報告一條龍搞定

測試時間計算用于科學(xué)發(fā)現(xiàn)

谷歌豪華陣容打造AI科學(xué)家，用測試時間計算加速科學(xué)發(fā)現(xiàn)，CEO皮猜也來站臺了