自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大語(yǔ)言模型在知識(shí)增強(qiáng)復(fù)雜問(wèn)題求解中的綜述 原創(chuàng) 精華

發(fā)布于 2025-5-14 10:05
瀏覽
0收藏

?摘要:?jiǎn)栴}求解一直是人類在眾多領(lǐng)域取得進(jìn)步的根本驅(qū)動(dòng)力。隨著人工智能的發(fā)展,大語(yǔ)言模型(LLMs)已成為能夠解決跨多個(gè)領(lǐng)域復(fù)雜問(wèn)題的強(qiáng)大工具。與傳統(tǒng)計(jì)算系統(tǒng)不同,大語(yǔ)言模型將原始計(jì)算能力與近似人類推理能力相結(jié)合,使其能夠生成解決方案、進(jìn)行推理,甚至利用外部計(jì)算工具。然而,將大語(yǔ)言模型應(yīng)用于實(shí)際問(wèn)題求解面臨重大挑戰(zhàn),包括多步推理、領(lǐng)域知識(shí)整合和結(jié)果驗(yàn)證。本綜述探討了大語(yǔ)言模型在復(fù)雜問(wèn)題求解中的能力和局限性,研究了思維鏈(CoT)推理、知識(shí)增強(qiáng),以及各種基于大語(yǔ)言模型和工具的驗(yàn)證技術(shù)。此外,我們還強(qiáng)調(diào)了在軟件工程、數(shù)學(xué)推理與證明、數(shù)據(jù)分析與建模和科學(xué)研究等不同領(lǐng)域中特定領(lǐng)域的挑戰(zhàn)。本文進(jìn)一步從多步推理、領(lǐng)域知識(shí)整合和結(jié)果驗(yàn)證的角度,討論了當(dāng)前大語(yǔ)言模型解決方案的基本局限性,以及基于大語(yǔ)言模型的復(fù)雜問(wèn)題求解的未來(lái)發(fā)展方向。

1 引言

人類文明的歷史是由解決問(wèn)題的能力塑造的,從古代建造住所到解開(kāi)宇宙的奧秘。例如,古代天文學(xué)家計(jì)算地球的大小,而現(xiàn)代科學(xué)家使用計(jì)算模型預(yù)測(cè)天氣。隨著技術(shù)的進(jìn)步,人類逐漸從單純依靠個(gè)人或集體智慧,轉(zhuǎn)向利用計(jì)算機(jī)等強(qiáng)大工具來(lái)應(yīng)對(duì)日益復(fù)雜的挑戰(zhàn)。這種轉(zhuǎn)變標(biāo)志著問(wèn)題求解的范式轉(zhuǎn)變,從純粹以人類為中心的方法,演變?yōu)槿祟悇?chuàng)造力與計(jì)算能力的協(xié)同作用。

如今,基于大語(yǔ)言模型的人工智能系統(tǒng)代表了一項(xiàng)突破性進(jìn)展。與擅長(zhǎng)精確計(jì)算的傳統(tǒng)計(jì)算機(jī)不同,大語(yǔ)言模型模擬人類推理的各個(gè)方面,如生成創(chuàng)造性解決方案和進(jìn)行上下文推理。這使得大語(yǔ)言模型成為將計(jì)算能力與近似人類思維相結(jié)合的工具,能夠解決那些對(duì)人類來(lái)說(shuō)具有挑戰(zhàn)性的復(fù)雜問(wèn)題。與人類解決問(wèn)題類似,大語(yǔ)言模型可以直接解決問(wèn)題并生成最終結(jié)果;大語(yǔ)言模型還可以通過(guò)編寫(xiě)和執(zhí)行代碼來(lái)利用計(jì)算機(jī)解決問(wèn)題并獲得結(jié)果。

復(fù)雜問(wèn)題求解的范圍涵蓋廣泛的領(lǐng)域,幾乎涉及人類社會(huì)的各個(gè)方面(圖 1)。例如,設(shè)計(jì)強(qiáng)大的軟件系統(tǒng)架構(gòu)需要平衡可擴(kuò)展性、可靠性和用戶需求,而證明數(shù)學(xué)定理則需要嚴(yán)謹(jǐn)?shù)倪壿嬐评砗统橄竽芰ΑT跀?shù)據(jù)科學(xué)領(lǐng)域,構(gòu)建準(zhǔn)確的模型來(lái)解釋大量數(shù)據(jù)集對(duì)于明智的決策至關(guān)重要。同樣,藥物發(fā)現(xiàn)需要探索復(fù)雜的分子相互作用以確定有效的治療方法,而構(gòu)建物理模型則使我們能夠模擬和理解自然現(xiàn)象。這些例子凸顯了人類努力解決的復(fù)雜問(wèn)題的多樣性,每個(gè)問(wèn)題都需要領(lǐng)域?qū)I(yè)知識(shí)、推理和創(chuàng)造力的結(jié)合。


大語(yǔ)言模型在知識(shí)增強(qiáng)復(fù)雜問(wèn)題求解中的綜述-AI.x社區(qū)

圖 1. 一些復(fù)雜問(wèn)題求解的場(chǎng)景

解決這些現(xiàn)實(shí)世界中的復(fù)雜問(wèn)題需要利用領(lǐng)域知識(shí)或經(jīng)驗(yàn),并經(jīng)過(guò)多個(gè)推理步驟才能得出最終解決方案。在研究領(lǐng)域,數(shù)學(xué)推理通常被視為復(fù)雜問(wèn)題求解的一種代表性形式,目前的研究主要集中在具有明確最終答案的數(shù)學(xué)推理問(wèn)題上。相比之下,數(shù)學(xué)定理證明任務(wù) —— 在高等教育和研究中更具代表性 —— 卻常常被忽視,因?yàn)樗鼈兺ǔ](méi)有單一的最終答案可供驗(yàn)證。在實(shí)踐中,許多現(xiàn)實(shí)世界的復(fù)雜問(wèn)題比數(shù)學(xué)推理任務(wù)更具挑戰(zhàn)性。首先,這些問(wèn)題本質(zhì)上難以驗(yàn)證。例如,在數(shù)據(jù)科學(xué)中,許多建模技術(shù)可以應(yīng)用于同一數(shù)據(jù)集,但它們的性能可能差異很大。此外,模型的有效性高度依賴于上下文,因問(wèn)題和數(shù)據(jù)集而異。這種可變性使得為任何給定的建模任務(wù)確定最佳解決方案變得困難。其次,解決這類現(xiàn)實(shí)世界問(wèn)題需要大量的領(lǐng)域?qū)I(yè)知識(shí)。再以數(shù)據(jù)建模為例,人們不僅必須了解數(shù)據(jù)的細(xì)微差別,還必須精通各種建模技術(shù)才能獲得良好的性能。

解決現(xiàn)實(shí)世界的復(fù)雜問(wèn)題需要三個(gè)關(guān)鍵要素:多步推理、領(lǐng)域知識(shí)和結(jié)果驗(yàn)證。當(dāng)大語(yǔ)言模型應(yīng)用于現(xiàn)實(shí)世界問(wèn)題時(shí),這個(gè)問(wèn)題求解過(guò)程會(huì)面臨多重挑戰(zhàn)。

?多步推理:解決一個(gè)復(fù)雜問(wèn)題需要采取多個(gè)步驟才能達(dá)到最終結(jié)果。搜索空間的大小在很大程度上取決于解決復(fù)雜問(wèn)題所需的步驟數(shù),并且隨著推理步驟數(shù)的增加,搜索空間可能呈指數(shù)增長(zhǎng)。這使得確定通向最終結(jié)果的正確路徑變得具有挑戰(zhàn)性。此外,搜索過(guò)程中出現(xiàn)的任何錯(cuò)誤都可能傳播并導(dǎo)致錯(cuò)誤的結(jié)果。

?領(lǐng)域知識(shí):知識(shí)在引導(dǎo)問(wèn)題解決者在搜索空間中前進(jìn)方面起著至關(guān)重要的作用,幫助確定下一步或識(shí)別何時(shí)找到了解決方案。特定領(lǐng)域的應(yīng)用,如機(jī)器學(xué)習(xí)任務(wù)和數(shù)學(xué)定理證明任務(wù),通常需要利用長(zhǎng)尾領(lǐng)域知識(shí),而眾所周知,大語(yǔ)言模型無(wú)法很好地掌握長(zhǎng)尾知識(shí)。這就要求基于大語(yǔ)言模型的系統(tǒng)格外注意掌握領(lǐng)域知識(shí),并可靠地檢索和應(yīng)用所需知識(shí)來(lái)解決問(wèn)題。

?結(jié)果驗(yàn)證:必須仔細(xì)評(píng)估每一步,以判斷它是否有助于得出正確的解決方案,或者整個(gè)解決方案是否能夠解決給定的問(wèn)題。在許多缺乏標(biāo)準(zhǔn)結(jié)果或預(yù)定義解決程序的應(yīng)用中,這種評(píng)估可能特別具有挑戰(zhàn)性。對(duì)于目標(biāo)不明確的開(kāi)放式問(wèn)題,例如在科學(xué)研究和數(shù)據(jù)挖掘中發(fā)現(xiàn)的問(wèn)題,難度甚至更大。

大語(yǔ)言模型的最新發(fā)展展示了它們?cè)谝恍┠繕?biāo)明確且結(jié)果易于驗(yàn)證的復(fù)雜問(wèn)題上的強(qiáng)大推理能力,這使得它們非常適合數(shù)學(xué)推理和競(jìng)技編程挑戰(zhàn)等任務(wù)。思維鏈推理是解決多步推理的主要技術(shù)。思維鏈推理中存在一種推理縮放定律,即隨著思維鏈路徑數(shù)量的增加,找到正確解決方案的可能性會(huì)顯著提高,并且對(duì)于許多具有挑戰(zhàn)性的問(wèn)題,通常只要有足夠數(shù)量的思維鏈路徑,就有可能生成正確的解決方案。由于目標(biāo)應(yīng)用,如數(shù)學(xué)推理和競(jìng)技編程,很容易驗(yàn)證,許多研究工作正在使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練大語(yǔ)言模型,以提高它們?cè)谶@些應(yīng)用中的推理能力。OpenAI 發(fā)布的 GPT-o1 和 DeepSeek-R1 展示了這種思維鏈推理方法的潛力。

雖然思維鏈推理是解決復(fù)雜問(wèn)題的重要技術(shù),但有必要采用一種智能體方法,使大語(yǔ)言模型能夠訪問(wèn)外部知識(shí)庫(kù)并使用驗(yàn)證工具,以進(jìn)一步提高大語(yǔ)言模型解決現(xiàn)實(shí)世界復(fù)雜問(wèn)題的能力。先前的研究表明,大語(yǔ)言模型在保留長(zhǎng)尾知識(shí)方面存在困難,而特定領(lǐng)域的知識(shí)通常屬于這一類別。對(duì)于科學(xué)發(fā)現(xiàn)、數(shù)學(xué)定理證明和數(shù)據(jù)科學(xué)等知識(shí)密集型任務(wù),外部知識(shí)整合至關(guān)重要,在這些任務(wù)中,領(lǐng)域?qū)I(yè)知識(shí)對(duì)于準(zhǔn)確和明智的決策至關(guān)重要。知識(shí)可以通過(guò) RAG 和 GraphRAG 等技術(shù)從文檔中檢索,或者通過(guò)利用從文檔集合構(gòu)建的知識(shí)圖譜來(lái)獲取。此外,智能體可以與人類互動(dòng),直接獲取領(lǐng)域知識(shí)。在訓(xùn)練和推理過(guò)程中,結(jié)果驗(yàn)證對(duì)于確保大語(yǔ)言模型的有效解決方案也至關(guān)重要。專注于推理的大語(yǔ)言模型通常使用合成數(shù)據(jù)進(jìn)行訓(xùn)練,這就需要一個(gè)驗(yàn)證器來(lái)選擇高質(zhì)量的數(shù)據(jù)用于模型訓(xùn)練。在推理過(guò)程中,推理縮放定律強(qiáng)調(diào)了驗(yàn)證器在多個(gè)候選解決方案中識(shí)別正確解決方案的必要性。為此,可以采用各種類型的驗(yàn)證器,包括基于大語(yǔ)言模型評(píng)判的方法、符號(hào)推理工具,甚至實(shí)驗(yàn)驗(yàn)證系統(tǒng)。

盡管大語(yǔ)言模型在復(fù)雜問(wèn)題求解方面取得了顯著進(jìn)展,但在將大語(yǔ)言模型應(yīng)用于實(shí)際應(yīng)用時(shí),每個(gè)領(lǐng)域都有其獨(dú)特的挑戰(zhàn)。以圖 1 中的一些領(lǐng)域?yàn)槔?。在軟件工程中,大語(yǔ)言模型的任務(wù)是在大型代碼庫(kù)中生成或修改代碼,以修復(fù)錯(cuò)誤和實(shí)現(xiàn)新功能。這不僅要求它們對(duì)代碼生成進(jìn)行推理,還要求它們?nèi)媪私庹麄€(gè)代碼庫(kù)和項(xiàng)目需求。此外,軟件開(kāi)發(fā)不僅要求代碼正確,還要求在計(jì)算效率和內(nèi)存使用方面進(jìn)行優(yōu)化,這給評(píng)估過(guò)程增加了額外的復(fù)雜性。數(shù)學(xué)包含兩種主要類型的任務(wù):計(jì)算和證明。雖然基礎(chǔ)算術(shù)和計(jì)算任務(wù)有大量數(shù)據(jù)可用,但在高等數(shù)學(xué)中,尤其是在高等教育和研究中,數(shù)據(jù)稀缺仍然是一個(gè)重大挑戰(zhàn)。為了解決這一限制,必須更有效地利用領(lǐng)域知識(shí)進(jìn)行數(shù)據(jù)合成,以減輕數(shù)據(jù)稀缺的影響,并利用現(xiàn)有的數(shù)學(xué)知識(shí),如定理,來(lái)改進(jìn)數(shù)學(xué)證明。此外,數(shù)學(xué)定理證明通常缺乏有效的方法來(lái)驗(yàn)證證明解決方案,這使得訓(xùn)練大語(yǔ)言模型生成嚴(yán)格正確的數(shù)學(xué)推理解決方案變得困難。數(shù)據(jù)科學(xué)涉及處理大量數(shù)據(jù)集,但任務(wù)描述往往缺乏關(guān)于輸入數(shù)據(jù)分布的足夠細(xì)節(jié),這使得大語(yǔ)言模型難以生成最合適的解決方案來(lái)很好地對(duì)大型數(shù)據(jù)集進(jìn)行建模。這也使評(píng)估大語(yǔ)言模型生成的輸出變得復(fù)雜,需要進(jìn)行多層次評(píng)估。此外,利用全面的數(shù)據(jù)建模技術(shù)知識(shí)庫(kù)對(duì)于開(kāi)發(fā)更有效的方法來(lái)解決復(fù)雜的數(shù)據(jù)科學(xué)問(wèn)題至關(guān)重要??茖W(xué)研究通常涉及開(kāi)放式問(wèn)題,這使得我們無(wú)法直接訓(xùn)練大語(yǔ)言模型來(lái)解決科學(xué)問(wèn)題。一種潛在的解決方案是讓人類參與這個(gè)過(guò)程(人類 - 大語(yǔ)言模型協(xié)作),允許人類和大語(yǔ)言模型之間進(jìn)行迭代協(xié)作,以探索現(xiàn)有的科學(xué)文獻(xiàn)和人類知識(shí),產(chǎn)生新的想法,并實(shí)現(xiàn)整個(gè)研究流程的自動(dòng)化。這些挑戰(zhàn)凸顯了對(duì)復(fù)雜問(wèn)題求解進(jìn)行進(jìn)一步研究的必要性,這需要超越當(dāng)前的推理大語(yǔ)言模型。

本文對(duì)當(dāng)前大語(yǔ)言模型在解決復(fù)雜問(wèn)題方面的進(jìn)展進(jìn)行了全面概述,并超越了推理大語(yǔ)言模型的文獻(xiàn)范圍。我們的目標(biāo)是回顧為大語(yǔ)言模型開(kāi)發(fā)的關(guān)鍵技術(shù),以及這些方法如何應(yīng)用于應(yīng)對(duì)不同領(lǐng)域的挑戰(zhàn)。本文分為四個(gè)部分來(lái)討論當(dāng)前大語(yǔ)言模型的研究:

?復(fù)雜問(wèn)題求解的定義:我們首先從認(rèn)知科學(xué)和計(jì)算理論的角度正式定義復(fù)雜問(wèn)題求解(第 2 節(jié))。

?方法:我們研究大語(yǔ)言模型研究中解決復(fù)雜問(wèn)題的關(guān)鍵方法,包括多步推理、知識(shí)增強(qiáng)和結(jié)果驗(yàn)證(第 3 節(jié))。

?領(lǐng)域:我們探索在軟件工程、數(shù)據(jù)科學(xué)、數(shù)學(xué)和科學(xué)研究這四個(gè)領(lǐng)域中的復(fù)雜問(wèn)題求解,突出每個(gè)領(lǐng)域的獨(dú)特挑戰(zhàn)以及為解決這些挑戰(zhàn)而開(kāi)發(fā)的解決方案(第 4 節(jié))。

?當(dāng)前的局限性和未來(lái)方向:我們討論當(dāng)前研究的局限性,并提出未來(lái)研究的潛在方向(第 5 節(jié))。


大語(yǔ)言模型在知識(shí)增強(qiáng)復(fù)雜問(wèn)題求解中的綜述-AI.x社區(qū)

圖 2. 人類和人工智能解決問(wèn)題的兩種范式

2 復(fù)雜問(wèn)題求解的定義

我們可以從認(rèn)知科學(xué)和計(jì)算理論兩個(gè)角度定義復(fù)雜問(wèn)題求解。認(rèn)知科學(xué)研究人類如何利用其內(nèi)在能力解決問(wèn)題。相比之下,計(jì)算理論探索如何利用機(jī)器解決問(wèn)題,強(qiáng)調(diào)設(shè)計(jì)算法以實(shí)現(xiàn)復(fù)雜計(jì)算的自動(dòng)化。當(dāng)考慮大語(yǔ)言模型在解決復(fù)雜問(wèn)題中的作用時(shí),出現(xiàn)了兩種潛在的范式:(1)直接問(wèn)題求解:大語(yǔ)言模型自主生成類似于人類專家的解決方案;(2)利用計(jì)算系統(tǒng)解決復(fù)雜問(wèn)題:大語(yǔ)言模型提取并定義問(wèn)題的計(jì)算組件,利用傳統(tǒng)計(jì)算機(jī)執(zhí)行密集計(jì)算,同時(shí)專注于設(shè)計(jì)解決方案和協(xié)調(diào)流程?;谶@些范式,本節(jié)將更深入地探討在認(rèn)知科學(xué)和計(jì)算理論框架中如何定義復(fù)雜問(wèn)題求解。

2.1 定義

定義 1(問(wèn)題):一個(gè)問(wèn)題\Pi(X, Y, P)由以下兩部分描述:(1)其參數(shù)x的描述;(2)一個(gè)陳述(即謂詞邏輯)P(Y; X),它刻畫(huà)了解決方案必須滿足的屬性。形式上,目標(biāo)集定義為G = \{Y \in Y | P(Y; X)\},其中y是最終結(jié)果的空間,P是一個(gè)謂詞邏輯,意味著當(dāng)X = X時(shí),P(Y; X)表示最終結(jié)果Y應(yīng)滿足的屬性。問(wèn)題的一個(gè)實(shí)例\pi是通過(guò)為所有問(wèn)題參數(shù)指定特定值獲得的,即\pi := \Pi(X = X)。

一個(gè)問(wèn)題可以看作是一項(xiàng)任務(wù),即從一組可能的候選解決方案中找到一個(gè)解決方案。謂詞P(Y; X)規(guī)定了一個(gè)答案被認(rèn)為有效的條件。在不同的問(wèn)題中,謂詞P(Y; X)可能是明確定義的,也可能不是。例如,在最短路徑問(wèn)題中,答案空間y由所有可能的路徑組成,謂詞P(Y; X)是明確定義的,規(guī)定最終結(jié)果Y(一條路徑)必須滿足總權(quán)重最小的屬性。相比之下,在數(shù)據(jù)挖掘任務(wù)中,目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)中有洞察力的模式。然而,什么構(gòu)成 “有洞察力的” 模式并沒(méi)有明確定義,這使得謂詞P(Y; X)更具主觀性和上下文依賴性。

基于問(wèn)題的定義,我們現(xiàn)在可以正式將問(wèn)題求解定義為確定一系列從初始狀態(tài)到目標(biāo)狀態(tài)的轉(zhuǎn)換過(guò)程。

定義 2(問(wèn)題求解):?jiǎn)栴}求解是為問(wèn)題實(shí)例\pi找到一個(gè)解決方案軌跡T(\pi) \in T_{feasible } \subseteq T的過(guò)程,其中T_{feasible }是所有可能的解決方案軌跡的集合,正式定義為:

 \mathcal{T}_{feasible } := \{X \to O_1 \to ... \to O_{\kappa} \to Y | X \in X, Y \in \mathcal{G}, \kappa \in \mathbb{N}^{+}, \forall_{1 \leq i \leq \kappa} O_{i} \in O\} 

T是所有可能軌跡的集合:

 \mathcal{T} := \{X \to O_1 \to ... \to O_{\kappa} \to Y | X \in X, Y \in \mathcal{Y}, \kappa \in \mathbb{N}^{+}, O_{i} \in O\} 

O是問(wèn)題求解過(guò)程中所有可能的中間狀態(tài)的集合。


大語(yǔ)言模型在知識(shí)增強(qiáng)復(fù)雜問(wèn)題求解中的綜述-AI.x社區(qū)

這個(gè)定義強(qiáng)調(diào)了問(wèn)題求解的迭代性和狀態(tài)依賴性,其中中間狀態(tài)O_i捕捉了導(dǎo)致最終結(jié)果Y的不斷演變的理解或部分解決方案。然而,驅(qū)動(dòng)狀態(tài)轉(zhuǎn)換的機(jī)制和可行解決方案軌跡的約束因問(wèn)題解決者的性質(zhì)而異。

從以人類為中心的角度來(lái)看,問(wèn)題求解本質(zhì)上受到個(gè)人認(rèn)知能力的限制。從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的轉(zhuǎn)換不僅受邏輯推理的影響,還受領(lǐng)域知識(shí)、先前經(jīng)驗(yàn)和實(shí)時(shí)反饋的影響。因此,不同的人可能會(huì)根據(jù)他們可用的認(rèn)知資源在T_{feasible }中遵循不同的路徑。正式定義如下:

定義 3(以人類為中心的問(wèn)題求解):以人類為中心的問(wèn)題求解是具有認(rèn)知能力c(包括領(lǐng)域知識(shí)、邏輯推理、利用實(shí)時(shí)反饋和其他認(rèn)知資源)的人,為問(wèn)題實(shí)例\pi找到解決方案軌跡T(\pi)的過(guò)程。從中間狀態(tài)O_i到下一個(gè)狀態(tài)O_{i + 1}的轉(zhuǎn)換由認(rèn)知引導(dǎo)的轉(zhuǎn)換函數(shù)控制:


大語(yǔ)言模型在知識(shí)增強(qiáng)復(fù)雜問(wèn)題求解中的綜述-AI.x社區(qū)

其中\(zhòng)mathcal{P}(O)是O的冪集,表示所有可能的下一個(gè)狀態(tài),轉(zhuǎn)換函數(shù)\Gamma(O_i, C)根據(jù)問(wèn)題解決者的認(rèn)知能力確定可行的下一個(gè)狀態(tài)集。

相反,從計(jì)算機(jī)輔助的角度來(lái)看,問(wèn)題求解是從計(jì)算理論的角度進(jìn)行的。在這里,狀態(tài)轉(zhuǎn)換由形式算法而不是認(rèn)知能力控制。

定義 4(計(jì)算機(jī)輔助問(wèn)題求解):?jiǎn)栴}求解是設(shè)計(jì)算法A來(lái)解決問(wèn)題\Pi(X, Y, P)的過(guò)程。算法是計(jì)算機(jī)可執(zhí)行的有限指令序列,用于產(chǎn)生解決方案。形式上,算法被定義為一個(gè)五元組:


大語(yǔ)言模型在知識(shí)增強(qiáng)復(fù)雜問(wèn)題求解中的綜述-AI.x社區(qū)

其中X是輸入空間,描述問(wèn)題的所有可能參數(shù);Y是輸出空間,代表所有潛在的解決方案;O是狀態(tài)空間,包含算法執(zhí)行過(guò)程中的所有可能狀態(tài);\delta: X ?— O \to O是狀態(tài)轉(zhuǎn)換函數(shù),指定算法如何根據(jù)輸入從一個(gè)狀態(tài)轉(zhuǎn)換到下一個(gè)狀態(tài);\sigma_0 \in O是初始狀態(tài),代表算法的起始條件。如果對(duì)于問(wèn)題\Pi的任何實(shí)例\pi,算法都能保證產(chǎn)生一個(gè)滿足謂詞P(Y; X)的解決方案Y \in G,則稱該算法解決了問(wèn)題\Pi。

通過(guò)比較這兩個(gè)定義,我們觀察到它們有一個(gè)基本的相似之處:都專注于找到解決問(wèn)題的步驟。然而,它們的重點(diǎn)有所不同。以人類為中心的問(wèn)題求解主要關(guān)注解決特定問(wèn)題實(shí)例\pi的過(guò)程,而計(jì)算機(jī)輔助問(wèn)題求解則強(qiáng)調(diào)設(shè)計(jì)相對(duì)通用的算法來(lái)解決一類問(wèn)題\Pi。

2.2 示例

讓我們以機(jī)器學(xué)習(xí)任務(wù)為例(圖 3)。開(kāi)發(fā)一個(gè)高質(zhì)量的機(jī)器學(xué)習(xí)模型可以被構(gòu)建為一個(gè)問(wèn)題求解過(guò)程,在這個(gè)過(guò)程中,我們尋求一個(gè)可行的解決方案軌跡T(\pi) \in T_{feasible }。這個(gè)過(guò)程中的每一步都對(duì)應(yīng)于一個(gè)狀態(tài)轉(zhuǎn)換 (O_i \to O_{i + 1}),由推理、領(lǐng)域知識(shí)和迭代評(píng)估驅(qū)動(dòng)。最初,我們通過(guò)確定任務(wù)并將其構(gòu)建為機(jī)器學(xué)習(xí)公式來(lái)定義問(wèn)題。然后,我們通過(guò)分析數(shù)據(jù)、應(yīng)用預(yù)處理技術(shù)和進(jìn)行特征工程來(lái)過(guò)渡到中間狀態(tài)。一旦數(shù)據(jù)處理完畢,我們選擇合適的建模技術(shù)并開(kāi)發(fā)模型進(jìn)行訓(xùn)練。為了優(yōu)化這些轉(zhuǎn)換,領(lǐng)域知識(shí)起著至關(guān)重要的作用,它指導(dǎo)著合適模型和訓(xùn)練策略的選擇。知識(shí)可能來(lái)自歷史方法、理論研究或?qū)<抑庇X(jué),塑造了可行的狀態(tài)空間 T_{feasible }。開(kāi)發(fā)有效的機(jī)器學(xué)習(xí)模型需要對(duì)每種方法進(jìn)行多輪評(píng)估,包括人工評(píng)估和實(shí)驗(yàn)評(píng)估。由于機(jī)器學(xué)習(xí)模型依賴于從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)分布來(lái)進(jìn)行預(yù)測(cè),僅通過(guò)檢查來(lái)評(píng)估解決方案的質(zhì)量是具有挑戰(zhàn)性的。相反,通過(guò)人工評(píng)估和實(shí)驗(yàn)測(cè)試進(jìn)行的實(shí)證驗(yàn)證,在收斂到最優(yōu)解決方案 Y 之前確定模型的有效性。


大語(yǔ)言模型在知識(shí)增強(qiáng)復(fù)雜問(wèn)題求解中的綜述-AI.x社區(qū)

圖 3. 案例研究:機(jī)器學(xué)習(xí)領(lǐng)域的示例

3 方法論

圖 4 展示了基于大語(yǔ)言模型的復(fù)雜問(wèn)題求解技術(shù)。當(dāng)前的思維鏈大語(yǔ)言模型通過(guò)數(shù)據(jù)合成進(jìn)行訓(xùn)練。這個(gè)過(guò)程始于生成思維鏈數(shù)據(jù),接著使用驗(yàn)證器選擇正確的思維鏈樣本用于模型訓(xùn)練。在推理過(guò)程中,大語(yǔ)言模型生成多個(gè)思維鏈解決方案,然后使用驗(yàn)證器為給定任務(wù)識(shí)別正確的解決方案。數(shù)據(jù)合成有多種方法。一種方法是讓大語(yǔ)言模型自主生成思維鏈數(shù)據(jù),這要求基礎(chǔ)模型訓(xùn)練良好。對(duì)于訓(xùn)練數(shù)據(jù)有限的應(yīng)用,可以對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行知識(shí)挖掘來(lái)合成數(shù)據(jù),同時(shí)也可以融入人類專業(yè)知識(shí)。此外,挖掘出的知識(shí)可以在推理過(guò)程中注入大語(yǔ)言模型,而不僅僅用于訓(xùn)練。某些應(yīng)用產(chǎn)生的結(jié)果難以驗(yàn)證,比如機(jī)器學(xué)習(xí)任務(wù)。在這種情況下,可以采用多種驗(yàn)證方法。除了使用基于大語(yǔ)言模型的驗(yàn)證器,還可以進(jìn)行符號(hào)驗(yàn)證和實(shí)驗(yàn)評(píng)估。此外,人類專家也可以參與驗(yàn)證過(guò)程。


大語(yǔ)言模型在知識(shí)增強(qiáng)復(fù)雜問(wèn)題求解中的綜述-AI.x社區(qū)

圖 4. 復(fù)雜問(wèn)題求解的循環(huán)

3.1 多步推理

大語(yǔ)言模型的思維鏈推理已被證明對(duì)解決復(fù)雜問(wèn)題是有效的。這一研究方向始于 [136],該研究表明,通過(guò)提供一些推理路徑示例的思維鏈提示,可以增強(qiáng)大語(yǔ)言模型的推理能力。[64] 隨后證明,通過(guò)簡(jiǎn)單地使用 “讓我們一步一步思考” 這樣的提示,鼓勵(lì)大語(yǔ)言模型生成中間推理步驟,思維鏈推理可以在零樣本設(shè)置中提高性能。[132] 表明,對(duì)多個(gè)推理路徑進(jìn)行采樣并使用多數(shù)投票法,可以進(jìn)一步提高大語(yǔ)言模型在推理任務(wù)中的性能。[155] 引入了思維樹(shù)(ToT),它允許大語(yǔ)言模型在思維上探索多個(gè)推理路徑,以提高大語(yǔ)言模型的推理能力。

我們可以利用圖 4 所示的架構(gòu)來(lái)改進(jìn)思維鏈推理,以解決復(fù)雜問(wèn)題。當(dāng)提出一個(gè)問(wèn)題時(shí),由大語(yǔ)言模型驅(qū)動(dòng)的生成器會(huì)生成多個(gè)推理路徑。然后,驗(yàn)證器評(píng)估這些路徑的準(zhǔn)確性。如果一些推理路徑被驗(yàn)證為正確,它們將被用于形成問(wèn)題的答案。然而,如果沒(méi)有一條路徑被認(rèn)為是正確的,就會(huì)使用校正器,通過(guò)修改不正確的路徑并結(jié)合驗(yàn)證器提供的額外反饋來(lái)創(chuàng)建新的推理路徑。在這種方法中,提高任何給定問(wèn)題獲得正確解決方案的可能性,需要改進(jìn)兩個(gè)關(guān)鍵指標(biāo):

?覆蓋率:至少可以使用生成的一條推理路徑解決的問(wèn)題的百分比。

?精度:從所有生成的路徑中選擇正確推理路徑的概率。

為了提高覆蓋率,我們需要對(duì)生成器和校正器進(jìn)行微調(diào),以增加產(chǎn)生有效推理路徑的機(jī)會(huì)。為了提高精度,必須對(duì)驗(yàn)證器進(jìn)行微調(diào),以更準(zhǔn)確地識(shí)別正確路徑。

?生成器:為了優(yōu)化生成器,我們不能僅僅依賴人類生成的數(shù)據(jù),而應(yīng)該合成帶有推理路徑的數(shù)據(jù)。[159] 提出了一種迭代過(guò)程,生成多個(gè)推理路徑,選擇正確的路徑,并使用它們進(jìn)一步微調(diào)大語(yǔ)言模型,逐步提高其產(chǎn)生準(zhǔn)確推理的能力。此外,他們引入了一種 “合理化” 技術(shù),利用問(wèn)題的答案作為提示,來(lái)增強(qiáng)推理路徑的生成。[113] 采用了類似的迭代方法,生成推理路徑來(lái)微調(diào)大語(yǔ)言模型,并使用微調(diào)后的大語(yǔ)言模型生成更多推理路徑。主要的區(qū)別在于,這項(xiàng)工作通過(guò)溫度采樣生成多個(gè)路徑,并使用二元獎(jiǎng)勵(lì)函數(shù)對(duì)它們進(jìn)行評(píng)分,而 [159] 使用貪婪解碼來(lái)生成推理路徑。兩項(xiàng)研究都表明,大語(yǔ)言模型會(huì)很快對(duì)生成的數(shù)據(jù)產(chǎn)生過(guò)擬合。[7] 表明,使用較弱的大語(yǔ)言模型生成高質(zhì)量的合成數(shù)據(jù)也是可行的,并且在由較弱大語(yǔ)言模型生成的數(shù)據(jù)上進(jìn)行微調(diào)的模型,其性能通常優(yōu)于在由較強(qiáng)大語(yǔ)言模型生成的數(shù)據(jù)上訓(xùn)練的模型。

?自校正:我們可以利用前一次嘗試中不正確的推理路徑和驗(yàn)證器的反饋,來(lái)增加下一次迭代中生成正確路徑的概率。這個(gè)過(guò)程被視為自校正。[52] 表明,現(xiàn)有的大語(yǔ)言模型,如 GPT-4 和 Llama-2,在用于自校正時(shí),無(wú)法增加生成正確路徑的概率。與標(biāo)準(zhǔn)提示方法相比,它們往往會(huì)降低獲得正確解決方案的概率。這表明我們需要一個(gè)經(jīng)過(guò)專門微調(diào)的大語(yǔ)言模型用于自校正。Pair-SFT [139] 訓(xùn)練了一個(gè)獨(dú)立的校正器模型,來(lái)優(yōu)化生成器模型的輸出。他們創(chuàng)建了一個(gè)由響應(yīng)對(duì)((y, y'),其中y是對(duì)問(wèn)題的初始響應(yīng),y'是校正后的版本)組成的數(shù)據(jù)集,來(lái)訓(xùn)練校正器。SCoRe [65] 采用強(qiáng)化學(xué)習(xí)方法,訓(xùn)練一個(gè)單一的大語(yǔ)言模型,使其既能生成初始響應(yīng),又能進(jìn)行自校正。他們發(fā)現(xiàn),以前的方法由于分布轉(zhuǎn)移或基礎(chǔ)模型偏差的放大而無(wú)效。通過(guò)使用單個(gè)大語(yǔ)言模型進(jìn)行響應(yīng)生成和校正,SCoRe 避免了單獨(dú)的生成器和校正器模型之間出現(xiàn)的分布不匹配問(wèn)題。

?推理縮放定律:生成許多推理路徑并選擇正確的路徑成本很高。問(wèn)題越難,我們可能需要采樣的推理路徑就越多。這里一個(gè)關(guān)鍵的研究問(wèn)題是,如何明智地使用計(jì)算資源,為任何給定的問(wèn)題找到正確的路徑。[10] 闡述了推理時(shí)計(jì)算的縮放定律。他們觀察到,覆蓋率隨著從大語(yǔ)言模型生成的樣本數(shù)量幾乎呈對(duì)數(shù)線性增長(zhǎng),如果生成許多推理路徑,覆蓋率可能會(huì)達(dá)到 100%。他們進(jìn)一步發(fā)現(xiàn),在解決一些較簡(jiǎn)單的問(wèn)題時(shí),使用較弱的模型生成更多樣本可能比使用更大的大語(yǔ)言模型更具成本效益;然而,在解決更困難的問(wèn)題時(shí),更強(qiáng)的大語(yǔ)言模型更受青睞。[114] 從多個(gè)方面研究了在生成正確推理路徑時(shí),縮放推理時(shí)計(jì)算的 “計(jì)算最優(yōu)” 策略。當(dāng)使用獎(jiǎng)勵(lì)模型搜索良好的推理路徑時(shí),他們?cè)u(píng)估了不同的搜索策略,包括最佳 N 搜索、束搜索和前瞻搜索,并得出結(jié)論,束搜索對(duì)于更難的問(wèn)題和較低的計(jì)算預(yù)算更合適,而最佳 N 搜索對(duì)于較容易的問(wèn)題和較高的預(yù)算更有效。另一個(gè)方面是更新生成器模型的提議分布,以增加生成良好推理路徑的概率。一種選擇是并行生成多個(gè)推理路徑,另一種選擇是使用經(jīng)過(guò)微調(diào)的大語(yǔ)言模型迭代地修改自己的答案,這會(huì)導(dǎo)致順序測(cè)試時(shí)推理。他們表明,較容易的問(wèn)題受益于順序推理,而較難的問(wèn)題則需要一定比例的順序與并行推理。計(jì)算資源也可以分配給預(yù)訓(xùn)練。為了解決難題,應(yīng)該將一些計(jì)算資源用于預(yù)訓(xùn)練,而對(duì)于較容易的問(wèn)題,我們只需要將計(jì)算資源用于推理。

3.2 知識(shí)

解決復(fù)雜問(wèn)題需要有效地利用知識(shí)。一方面,許多復(fù)雜問(wèn)題求解任務(wù)本質(zhì)上是特定領(lǐng)域的,如果沒(méi)有專業(yè)知識(shí),有效地解決這些問(wèn)題就會(huì)成為一個(gè)挑戰(zhàn)。另一方面,處理這些任務(wù)的過(guò)程涉及多方面的程序,而現(xiàn)有的大語(yǔ)言模型往往缺乏所需的可靠性和穩(wěn)健性。因此,獲取和增強(qiáng)這類專業(yè)知識(shí),是有效解決復(fù)雜問(wèn)題的關(guān)鍵問(wèn)題。

為了獲取這類知識(shí),最簡(jiǎn)單和最直接的方法是特定領(lǐng)域的預(yù)訓(xùn)練 [115]。雖然大語(yǔ)言模型在訓(xùn)練過(guò)程中獲取了世界知識(shí),但研究表明,它們?cè)谟洃浐蛯⑦@些知識(shí)應(yīng)用于實(shí)際任務(wù)(特別是長(zhǎng)尾信息)方面并不可靠 [121],并且多項(xiàng)研究 [38, 106] 表明,在預(yù)訓(xùn)練后,它們無(wú)法通過(guò)監(jiān)督微調(diào)(SFT)獲取新的事實(shí)性知識(shí)。與這些方法不同,基于提示的增強(qiáng)技術(shù),如 RAG [36]、GraphRAG [30, 48] 和 KAG [78],可以將領(lǐng)域知識(shí)直接嵌入到特定任務(wù)的上下文中。在此基礎(chǔ)上,許多研究通過(guò)信息提取 [141, 167, 168]、構(gòu)建特定領(lǐng)域的知識(shí)圖譜 [24, 169, 181] 或過(guò)程提取 [158] 等方法來(lái)探索獲取這類知識(shí),同時(shí)也可以使用大語(yǔ)言模型直接生成特定任務(wù)的工作流程 [104, 165],并通過(guò)人類交互反饋對(duì)其進(jìn)行優(yōu)化 [9]。以下部分將根據(jù)所處理知識(shí)的類型,介紹各種相關(guān)研究。

?領(lǐng)域知識(shí):領(lǐng)域知識(shí)旨在為復(fù)雜任務(wù)提供先驗(yàn)信息,提供全面的介紹、詳細(xì)的描述和相關(guān)背景 [18, 42, 102]。[80] 提出了一種計(jì)算框架,通過(guò)集成目標(biāo)導(dǎo)向的動(dòng)態(tài)知識(shí)生成機(jī)制,增強(qiáng)智能體的問(wèn)題解決能力。[126] 引入了知識(shí)驅(qū)動(dòng)的思維鏈(KD-CoT),這是一個(gè)利用外部知識(shí)來(lái)驗(yàn)證和完善推理軌跡的框架,從而減少幻覺(jué)并降低錯(cuò)誤傳播。[73] 引入了知識(shí)鏈(CoK),這是一個(gè)創(chuàng)新的框架,通過(guò)動(dòng)態(tài)集成來(lái)自不同來(lái)源的基礎(chǔ)信息來(lái)增強(qiáng)大語(yǔ)言模型。[101] 提出了 Physics Reasoner,這是一個(gè)知識(shí)增強(qiáng)框架,利用大語(yǔ)言模型來(lái)解決物理問(wèn)題。

?過(guò)程知識(shí):過(guò)程知識(shí)是指為解決復(fù)雜問(wèn)題而設(shè)計(jì)的工作流程或認(rèn)知模式,通常用于規(guī)范和指導(dǎo)大型模型的推理過(guò)程。像 MoT [72] 這樣的技術(shù),利用合成和提取的高質(zhì)量思維過(guò)程作為外部記憶,為模型提供卓越的問(wèn)題解決示例。此外,BoT [150] 范式引入了元緩沖區(qū),存儲(chǔ)跨任務(wù)的認(rèn)知模板,這些模板包含通用的推理模式和知識(shí)結(jié)構(gòu),可以在各種特定問(wèn)題中重復(fù)使用和實(shí)例化,從而實(shí)現(xiàn)高效推理。此外,像 Expel [177] 這樣的方法,還包括通過(guò)環(huán)境交互收集經(jīng)驗(yàn)池,模型可以從類似的經(jīng)驗(yàn)中學(xué)習(xí),對(duì)比成功和不成功的軌跡,以獲得新的見(jiàn)解并提高任務(wù)推理能力。[182] 引入了 KnowAgent,這是一種通過(guò)集成顯式動(dòng)作知識(shí)來(lái)提升大語(yǔ)言模型規(guī)劃能力的方法。[135, 165] 的其他研究使用工作流程,有選擇地引導(dǎo)智能體解決復(fù)雜問(wèn)題。

?人機(jī)交互:即使有外部知識(shí)庫(kù),大語(yǔ)言模型在處理細(xì)微或特定領(lǐng)域的信息時(shí)仍然可能遇到困難,它們往往缺乏人類專家所擁有的深入上下文理解。為了解決這個(gè)問(wèn)題,大語(yǔ)言模型可以與人類合作,通過(guò)讓人類提供關(guān)鍵見(jiàn)解來(lái)彌合這一差距,確保大語(yǔ)言模型專注于相關(guān)信息,并根據(jù)專業(yè)知識(shí)完善其解釋。例如,在法律或醫(yī)學(xué)研究等任務(wù)中,人類可以引導(dǎo)大語(yǔ)言模型優(yōu)先考慮某些模型可能忽略的參考文獻(xiàn)或細(xì)微差別 [4, 55, 117, 140]。為了實(shí)現(xiàn)這種人機(jī)大語(yǔ)言模型協(xié)作,我們需要設(shè)計(jì)直觀、用戶友好的界面,促進(jìn)人類和大語(yǔ)言模型之間的有效溝通和交互 [26, 174]。這些界面應(yīng)該能夠?qū)崿F(xiàn)有效的雙向通信,用戶可以提供反饋、澄清模糊的輸入,并實(shí)時(shí)跟蹤大語(yǔ)言模型的推理過(guò)程。一個(gè)設(shè)計(jì)良好的界面可以促進(jìn)信任、增強(qiáng)協(xié)作,并確保大語(yǔ)言模型能夠被專家和非專家有效地使用。

3.3 評(píng)估

在處理復(fù)雜問(wèn)題時(shí),評(píng)估解決方案的有效性,對(duì)于提高基于大語(yǔ)言模型系統(tǒng)的可靠性和確定更好的方法至關(guān)重要。先前的研究 [97, 110] 表明,大語(yǔ)言模型在數(shù)學(xué)推理中很容易被無(wú)關(guān)信息干擾。這表明大語(yǔ)言模型可能并沒(méi)有真正掌握數(shù)學(xué)概念,而是依賴模式匹配來(lái)生成響應(yīng)。此外,[93] 強(qiáng)調(diào),大語(yǔ)言模型在罕見(jiàn)任務(wù)上的表現(xiàn)比在更常見(jiàn)的任務(wù)上更差,即使這些任務(wù)具有相同的復(fù)雜程度。而且,大語(yǔ)言模型對(duì)其訓(xùn)練數(shù)據(jù)(互聯(lián)網(wǎng)文本)中輸入和輸出的概率分布很敏感,即使是確定性任務(wù)也是如此。當(dāng)大語(yǔ)言模型應(yīng)用于在線上不太常見(jiàn)的特定領(lǐng)域問(wèn)題時(shí),這些挑戰(zhàn)會(huì)更加明顯。為了全面評(píng)估解決方案,可能需要考慮多個(gè)評(píng)估標(biāo)準(zhǔn),如正確性和效率。確保解決方案滿足實(shí)際需求,需要開(kāi)發(fā)和集成多種評(píng)估技術(shù),以有效地分析大語(yǔ)言模型生成的解決方案。

為了改進(jìn)思維鏈推理,我們需要一個(gè)驗(yàn)證器模型來(lái)選擇正確的推理路徑。[20] 在解決 GSM8K 中的數(shù)學(xué)問(wèn)題時(shí)首次證明了這一點(diǎn)。這項(xiàng)工作表明,訓(xùn)練一個(gè)驗(yàn)證器模型,在多個(gè)解決方案中選擇正確的解決方案,與僅僅微調(diào)大語(yǔ)言模型相比,可以顯著提高測(cè)試解決率。因此,這里的一個(gè)關(guān)鍵問(wèn)題是,如何訓(xùn)練一個(gè)可靠的驗(yàn)證器模型來(lái)確定正確的推理路徑。[81] 展示了使用過(guò)程監(jiān)督來(lái)訓(xùn)練過(guò)程獎(jiǎng)勵(lì)模型(PRM)的有效性。這種方法首先為一個(gè)問(wèn)題生成多個(gè)推理路徑,然后讓人類標(biāo)注員為推理路徑的每個(gè)步驟標(biāo)注標(biāo)簽。這種方法需要大量的人力資源來(lái)準(zhǔn)備訓(xùn)練數(shù)據(jù)。[81] 采用主動(dòng)學(xué)習(xí)來(lái)減少人類標(biāo)注的工作量。[127] 提出了一種在訓(xùn)練 PRM 時(shí)無(wú)需人類標(biāo)注的方法。為了評(píng)估推理路徑中中間步驟的正確性,他們使用一個(gè)經(jīng)過(guò)微調(diào)的大語(yǔ)言模型,從給定的步驟生成多個(gè)后續(xù)推理路徑。然后,該步驟的正確性得分由成功通向正確答案的路徑數(shù)量決定。[166] 訓(xùn)練了一個(gè)生成模型作為驗(yàn)證器,并表明生成模型的性能優(yōu)于判別式驗(yàn)證器。此外,他們還表明,訓(xùn)練一個(gè)單一的大語(yǔ)言模型同時(shí)用于生成和驗(yàn)證,其性能優(yōu)于分別使用大語(yǔ)言模型進(jìn)行生成和驗(yàn)證。

除了基于大語(yǔ)言模型的驗(yàn)證,還可以使用工具來(lái)驗(yàn)證模型輸出,減少幻覺(jué)并提高準(zhǔn)確性。這些驗(yàn)證方法大致可以分為符號(hào)驗(yàn)證和實(shí)驗(yàn)驗(yàn)證。

?符號(hào)驗(yàn)證:符號(hào)驗(yàn)證使用形式化方法來(lái)確保大語(yǔ)言模型輸出的正確性。這包括生成可執(zhí)行代碼,并通過(guò)編譯驗(yàn)證其語(yǔ)法和語(yǔ)義 [14, 34]。此外,還會(huì)將輸出與知識(shí)庫(kù)或知識(shí)圖譜進(jìn)行比較,以驗(yàn)證事實(shí)準(zhǔn)確性。這些方法對(duì)于需要邏輯一致性的任務(wù)特別有效,如數(shù)學(xué)證明或特定領(lǐng)域的事實(shí)驗(yàn)證 [19]。PAL [34] 使用符號(hào)推理來(lái)解釋自然語(yǔ)言問(wèn)題,并生成程序作為中間步驟。這些程序在運(yùn)行時(shí)環(huán)境(如 Python 解釋器)中進(jìn)行驗(yàn)證,確保生成代碼的邏輯和結(jié)構(gòu)有效且可執(zhí)行。在數(shù)學(xué)推理中,像 [162] 中的工具,為數(shù)值計(jì)算、方程求解和表達(dá)式轉(zhuǎn)換提供了專門的接口。這些接口允許模型驗(yàn)證和糾正每個(gè)步驟,確保推理過(guò)程的正確性,就像符號(hào)定理證明一樣。Factool [19] 提供了一個(gè)靈活的、與領(lǐng)域無(wú)關(guān)的框架,用于識(shí)別事實(shí)錯(cuò)誤。它通過(guò)使用多個(gè)驗(yàn)證工具,包括搜索引擎、學(xué)術(shù)數(shù)據(jù)庫(kù)和代碼解釋器,來(lái)增強(qiáng)跨領(lǐng)域的事實(shí)驗(yàn)證。

?實(shí)驗(yàn)驗(yàn)證:相比之下,實(shí)驗(yàn)驗(yàn)證通過(guò)實(shí)際測(cè)試和實(shí)證實(shí)驗(yàn)來(lái)驗(yàn)證模型 [12, 40, 76]。當(dāng)形式驗(yàn)證不切實(shí)際,或者目標(biāo)是性能優(yōu)化時(shí),這種方法很有用。模型在實(shí)際環(huán)境或模擬中進(jìn)行測(cè)試,性能通過(guò)與基準(zhǔn)或競(jìng)爭(zhēng)解決方案進(jìn)行比較來(lái)衡量。在自動(dòng)化數(shù)據(jù)科學(xué)中,像 AutoKaggle 這樣的框架,通過(guò)迭代進(jìn)行實(shí)際測(cè)試、模型調(diào)整和比較分析,自主參與 Kaggle 競(jìng)賽,優(yōu)化數(shù)據(jù)分析管道并取得頂級(jí)性能,就是實(shí)驗(yàn)驗(yàn)證的例證。Grosnit 等人 [40] 精心安排結(jié)構(gòu)化推理,以自動(dòng)分析和優(yōu)化解決方案,而 Li 等人 [76] 使用多智能體框架來(lái)生成、測(cè)試和改進(jìn)模型。

對(duì)于關(guān)鍵應(yīng)用,在高風(fēng)險(xiǎn)或不可預(yù)測(cè)的環(huán)境中應(yīng)用大語(yǔ)言模型時(shí),確保安全性和穩(wěn)健性至關(guān)重要,因?yàn)殄e(cuò)誤的輸出可能會(huì)導(dǎo)致嚴(yán)重后果。大語(yǔ)言模型雖然強(qiáng)大,但由于幻覺(jué)、錯(cuò)誤解釋或意外輸入,可能會(huì)生成不可靠或不安全的響應(yīng)。在這種情況下,我們應(yīng)該引入人工監(jiān)督來(lái)驗(yàn)證和糾正輸出,確保更安全、更可靠的決策。例如,在醫(yī)學(xué)診斷中,人類專家可以驗(yàn)證人工智能生成的治療建議,以避免誤診或不安全的處方。

4 領(lǐng)域

本文研究了四個(gè)現(xiàn)實(shí)世界應(yīng)用領(lǐng)域,在這些領(lǐng)域中,大語(yǔ)言模型可用于解決復(fù)雜問(wèn)題:軟件工程、數(shù)學(xué)、數(shù)據(jù)科學(xué)和科學(xué)研究。我們將從多步推理、知識(shí)整合和結(jié)果驗(yàn)證的角度,討論這些應(yīng)用中的挑戰(zhàn)。

4.1 軟件工程

這涉及讓大語(yǔ)言模型在最少人工干預(yù)的情況下,執(zhí)行復(fù)雜的軟件工程任務(wù)。該領(lǐng)域的核心任務(wù)通常分為兩個(gè)主要方面:代碼生成和代碼理解。代碼生成包括程序合成 [58, 69, 71, 124, 173]、代碼翻譯 [16, 100, 145]、自動(dòng)程序修復(fù) [53, 59, 107] 和代碼優(yōu)化 [28, 144],在這些任務(wù)中,大語(yǔ)言模型必須生成功能正確且高效的代碼,并滿足各種規(guī)范。另一方面,代碼理解側(cè)重于分析和解釋現(xiàn)有代碼,涉及源代碼摘要 [70, 133, 163]、代碼審查 [154] 和代碼搜索 [27, 122] 等任務(wù)。盡管這些任務(wù)的目標(biāo)不同,但它們都要求大語(yǔ)言模型深入理解代碼庫(kù)的語(yǔ)法、語(yǔ)義和結(jié)構(gòu),并在多個(gè)抽象層次上進(jìn)行推理。

使用大語(yǔ)言模型解決復(fù)雜的軟件工程任務(wù)存在一些獨(dú)特的挑戰(zhàn)。首先,這些任務(wù)需要多步推理,因?yàn)檐浖_(kāi)發(fā)通常涉及分解問(wèn)題、在文件或函數(shù)之間保持上下文一致性,以及迭代優(yōu)化代碼。其次,知識(shí)整合至關(guān)重要 —— 大語(yǔ)言模型必須具備基礎(chǔ)編程知識(shí)(如語(yǔ)法、算法)、特定領(lǐng)域的實(shí)踐(如工具使用、設(shè)計(jì)模式)以及大型代碼庫(kù)的知識(shí)。第三,結(jié)果驗(yàn)證并非易事:生成語(yǔ)法正確的代碼是不夠的,它還必須能夠編譯、正確執(zhí)行并滿足性能目標(biāo)。與自然語(yǔ)言任務(wù)不同,軟件的正確性可以進(jìn)行形式化測(cè)試,這為有效利用執(zhí)行反饋既帶來(lái)了機(jī)遇也帶來(lái)了挑戰(zhàn)。

為應(yīng)對(duì)這些挑戰(zhàn),人們提出了多種模型和框架。在程序合成方面,諸如 Code Evol-Instruct [90] 和 OSS-INSTRUCT [137] 等方法通過(guò)合成數(shù)據(jù)生成和微調(diào)來(lái)增強(qiáng)大語(yǔ)言模型的能力,而 GraphCoder [84] 和 GALLa [176] 等方法則注入結(jié)構(gòu)表示(如代碼圖)以改進(jìn)語(yǔ)法和語(yǔ)義理解。基于反饋的機(jī)制,如 Self-Debugging [15]、LDB [180] 和 RLTF [82],利用運(yùn)行時(shí)輸出、編譯器錯(cuò)誤或測(cè)試用例來(lái)迭代地指導(dǎo)模型優(yōu)化。在代碼庫(kù)理解方面,像 StarCoder2、RepoCoder [164]、CoCoMIC [25]、DeepSeek-Coder [43]、SWE-GPT [91] 等工具利用代碼庫(kù)級(jí)別的信息、依賴圖和檢索增強(qiáng)生成(RAG),幫助模型在龐大且相互依賴的代碼庫(kù)中導(dǎo)航。對(duì)于代碼優(yōu)化,PIE-Problem [157] 和 SBLLM [35] 等框架引入多程序員解決方案集和進(jìn)化搜索策略,幫助大語(yǔ)言模型從各種優(yōu)化技術(shù)中學(xué)習(xí),并根據(jù)執(zhí)行指標(biāo)優(yōu)化代碼。

未來(lái)軟件工程自動(dòng)化的工作可能會(huì)集中在三個(gè)方向。第一,構(gòu)建更強(qiáng)的具有推理意識(shí)的模型,這些模型能夠通過(guò)中間抽象(如偽代碼或符號(hào)計(jì)劃)生成和修改代碼。第二,增強(qiáng)長(zhǎng)上下文和記憶機(jī)制,以處理復(fù)雜的代碼庫(kù)和跨文件推理。第三,納入閉環(huán)反饋系統(tǒng),將自動(dòng)測(cè)試生成、運(yùn)行時(shí)分析和形式驗(yàn)證集成到代碼生成過(guò)程中。通過(guò)結(jié)合這些方法,我們可以期待基于大語(yǔ)言模型的智能體從基本的代碼助手演變?yōu)橛心芰Φ淖灾鬈浖こ處煛?/p>

4.2 數(shù)學(xué)

數(shù)學(xué)推理已成為評(píng)估大語(yǔ)言模型能力的關(guān)鍵基準(zhǔn),因?yàn)樗粌H需要自然語(yǔ)言理解,還需要精確的邏輯推理、符號(hào)操作和深厚的領(lǐng)域知識(shí) [108, 120]。該領(lǐng)域的主要任務(wù)包括算術(shù)計(jì)算問(wèn)題 [45, 56, 83, 151]、數(shù)學(xué)應(yīng)用題(MWPs)[37, 49, 63, 116] 和自動(dòng)定理證明(ATP)[2, 152]。這些任務(wù)測(cè)試計(jì)算準(zhǔn)確性、演繹推理、將現(xiàn)實(shí)世界場(chǎng)景數(shù)學(xué)建模的能力以及形式數(shù)學(xué)知識(shí)的應(yīng)用等核心能力。它們共同構(gòu)成了一個(gè)嚴(yán)格的框架,用于評(píng)估大語(yǔ)言模型是否能夠超越表面的語(yǔ)言生成,進(jìn)行結(jié)構(gòu)化、基于規(guī)則的問(wèn)題解決。

然而,解決數(shù)學(xué)問(wèn)題存在一些使其有別于其他復(fù)雜領(lǐng)域的獨(dú)特挑戰(zhàn)。一個(gè)主要挑戰(zhàn)是多步推理,因?yàn)樵S多數(shù)學(xué)任務(wù)需要順序且邏輯相關(guān)的操作,其中任何一個(gè)錯(cuò)誤步驟都可能導(dǎo)致整個(gè)解決方案出錯(cuò)。另一個(gè)關(guān)鍵挑戰(zhàn)是知識(shí)整合 —— 大語(yǔ)言模型不僅必須理解抽象原理(如歸納法),還必須理解特定領(lǐng)域的概念和定理,并識(shí)別何時(shí)以及如何應(yīng)用它們,尤其是在研究生階段和研究中。這需要檢索和處理對(duì)大語(yǔ)言模型來(lái)說(shuō)通常屬于長(zhǎng)尾知識(shí)的特定領(lǐng)域知識(shí)。第三個(gè)挑戰(zhàn)是結(jié)果驗(yàn)證,特別是在定理證明等場(chǎng)景中,結(jié)果的正確性只能通過(guò)人工評(píng)估或嚴(yán)格的形式檢查來(lái)確認(rèn)。最近的研究 [92] 表明,當(dāng)前最先進(jìn)的大語(yǔ)言模型在數(shù)學(xué)競(jìng)賽中能生成正確的最終結(jié)果,但解決方案卻是錯(cuò)誤的。這些挑戰(zhàn)不僅要求流暢的文本生成,還要求模型進(jìn)行精確推理、整合外部工具或知識(shí)庫(kù),并驗(yàn)證多步解決方案的正確性。

為應(yīng)對(duì)這些挑戰(zhàn),近期的研究引入了一系列專門的策略和系統(tǒng)。在計(jì)算能力方面,像 MathGLM [153] 這樣的模型通過(guò)課程學(xué)習(xí)在逐漸復(fù)雜的數(shù)學(xué)問(wèn)題上進(jìn)行預(yù)訓(xùn)練,即使與更大的通用模型相比,也能實(shí)現(xiàn)卓越的準(zhǔn)確性?;谔崾镜姆椒ǎ?MathPrompter [56],通過(guò)生成和交叉驗(yàn)證多個(gè)解決方案路徑來(lái)提高算術(shù)運(yùn)算的準(zhǔn)確性。在推理任務(wù)中,與 Prolog 的符號(hào)集成或像 Lean 這樣的證明助手(如 LeanDojo [148]、AlphaProof [22])有助于彌合非正式推理和形式邏輯之間的差距,以驗(yàn)證大語(yǔ)言模型生成的數(shù)學(xué)推理。在建模和抽象方面,針對(duì)數(shù)學(xué)應(yīng)用題的符號(hào)求解器和自動(dòng)形式化基準(zhǔn)(如 LeanEuclid)[98] 等工作,展示了大語(yǔ)言模型如何將現(xiàn)實(shí)世界問(wèn)題或幾何推理映射到形式數(shù)學(xué)表示中。此外,檢索增強(qiáng)系統(tǒng)和基于知識(shí)的工具包,如 DOCMATH-EVAL [179] 和 LeanDojo [148] 表明,整合結(jié)構(gòu)化數(shù)學(xué)知識(shí)可以顯著提高在需要先驗(yàn)定理或特定領(lǐng)域推理策略的任務(wù)中的性能。

展望未來(lái),基于大語(yǔ)言模型的數(shù)學(xué)推理的未來(lái)工作可能會(huì)集中在深化模型在外部反饋和過(guò)程監(jiān)督下進(jìn)行形式推理的能力。開(kāi)發(fā)將大語(yǔ)言模型與定理證明器、符號(hào)執(zhí)行引擎甚至形式驗(yàn)證編譯器相結(jié)合的混合框架,可以進(jìn)一步提高結(jié)果的正確性和邏輯的可靠性。此外,用結(jié)構(gòu)化數(shù)學(xué)知識(shí)庫(kù)豐富大語(yǔ)言模型,提高它們檢索相關(guān)先驗(yàn)知識(shí)的能力,并在細(xì)粒度的證明步驟上進(jìn)行訓(xùn)練,可以增強(qiáng)它們進(jìn)行高級(jí)數(shù)學(xué)推理的能力。最終,實(shí)現(xiàn)可泛化、可驗(yàn)證和具有領(lǐng)域感知的數(shù)學(xué)推理,將是推動(dòng)大語(yǔ)言模型更接近人類數(shù)學(xué)理解水平的關(guān)鍵。

4.3 數(shù)據(jù)科學(xué)

這是一個(gè)對(duì)大量數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)建模的領(lǐng)域 [172]。數(shù)據(jù)科學(xué)的主要任務(wù)圍繞一個(gè)復(fù)雜的多階段流程展開(kāi),包括任務(wù)理解、數(shù)據(jù)探索與分析、特征工程、模型選擇、模型訓(xùn)練和評(píng)估。這些階段相互關(guān)聯(lián),不僅需要技術(shù)執(zhí)行,還需要根據(jù)輸入數(shù)據(jù)進(jìn)行仔細(xì)推理和調(diào)整。與問(wèn)題定義明確且固定的領(lǐng)域不同,數(shù)據(jù)科學(xué)需要不斷調(diào)整以探索輸入數(shù)據(jù)。

該領(lǐng)域的獨(dú)特挑戰(zhàn)源于其動(dòng)態(tài)性和數(shù)據(jù)依賴性。首先,多步推理至關(guān)重要,因?yàn)樵缙陔A段(如特征提取)做出的決策會(huì)顯著影響后期階段(如模型性能)。其次,有效的解決方案通常需要特定領(lǐng)域的知識(shí),而通用大語(yǔ)言模型不容易捕捉到這些知識(shí);整合此類知識(shí)對(duì)于處理現(xiàn)實(shí)世界的復(fù)雜性至關(guān)重要。第三,驗(yàn)證解決方案的質(zhì)量特別困難,因?yàn)樾阅茉诤艽蟪潭壬先Q于輸入數(shù)據(jù),而不僅僅是問(wèn)題描述。這使得評(píng)估建模策略具有挑戰(zhàn)性。

當(dāng)前的研究工作通過(guò)開(kāi)發(fā)基于智能體的系統(tǒng),在應(yīng)對(duì)這些挑戰(zhàn)方面取得了顯著進(jìn)展。Data Interpreter [50] 引入了一種基于圖的智能體,該智能體對(duì)流程階段之間的依賴關(guān)系進(jìn)行建模,并相應(yīng)地自動(dòng)化代碼生成和優(yōu)化。AutoKaggle [76] 采用多智能體框架,配備諸如規(guī)劃器、開(kāi)發(fā)者和評(píng)審者等專門智能體,為表格數(shù)據(jù)任務(wù)提供端到端的解決方案,包括迭代調(diào)試和測(cè)試。Agent K [40] 通過(guò)學(xué)習(xí)記憶機(jī)制優(yōu)化性能,利用強(qiáng)化信號(hào)為未來(lái)任務(wù)保留有用的策略。同時(shí),DS-Agent [44] 采用基于知識(shí)的方法,構(gòu)建一個(gè)從 Kaggle 競(jìng)賽中獲得的專家見(jiàn)解知識(shí)庫(kù),并應(yīng)用基于案例的推理來(lái)生成更好的解決方案。這些系統(tǒng)使用 DS-Bench [61]、MLE-Bench [12] 和 MLAgentBench [54] 等平臺(tái)進(jìn)行基準(zhǔn)測(cè)試,這些平臺(tái)提供基于現(xiàn)實(shí)世界機(jī)器學(xué)習(xí)挑戰(zhàn)的結(jié)構(gòu)化任務(wù),以評(píng)估整個(gè)建模流程的性能。

展望未來(lái),該領(lǐng)域的未來(lái)研究應(yīng)集中在增強(qiáng)大語(yǔ)言模型從數(shù)據(jù)驅(qū)動(dòng)的實(shí)驗(yàn)中進(jìn)行推理、適應(yīng)和學(xué)習(xí)的能力。一個(gè)關(guān)鍵方向是開(kāi)發(fā)知識(shí)豐富的建模智能體,這些智能體能夠納入常用庫(kù)之外的先進(jìn)特定領(lǐng)域技術(shù)。另一個(gè)有前景的領(lǐng)域是整合實(shí)驗(yàn)驅(qū)動(dòng)的推理,使智能體能夠根據(jù)實(shí)際性能指標(biāo)迭代地測(cè)試、評(píng)估和優(yōu)化他們的建模策略。最后,使用包含實(shí)驗(yàn)結(jié)果反饋循環(huán)和特定領(lǐng)域線索的思維鏈(CoT)機(jī)制訓(xùn)練大語(yǔ)言模型,可能為實(shí)現(xiàn)更智能、更自適應(yīng)的數(shù)據(jù)科學(xué)智能體提供一條途徑。

4.4 科學(xué)研究

人工智能(AI)在科學(xué)研究中發(fā)揮著越來(lái)越具有變革性的作用,支持?jǐn)?shù)據(jù)分析、模擬、文獻(xiàn)綜述和創(chuàng)意生成等任務(wù)。其應(yīng)用涵蓋眾多領(lǐng)域,例如在生物學(xué)中,AlphaFold [62] 和 RoseTTAFold [6] 等工具徹底改變了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè);在物理學(xué)中,人工智能有助于加速粒子模擬 [66];在天文學(xué)中,它們協(xié)助系外行星探測(cè) [94]。在這些背景下,大語(yǔ)言模型在科學(xué)研究中主要有兩種用途:作為增強(qiáng)人類研究能力的工具,以及作為提出新穎科學(xué)假設(shè)或想法的共同創(chuàng)造者。

盡管取得了這些進(jìn)展,但在科學(xué)發(fā)現(xiàn)中使用大語(yǔ)言模型仍存在一些顯著挑戰(zhàn)。首先,科學(xué)研究通常涉及目標(biāo)不明確的開(kāi)放式問(wèn)題,這使得以保證準(zhǔn)確或可驗(yàn)證解決方案的方式應(yīng)用大語(yǔ)言模型變得困難。此外,科學(xué)研究需要深入的特定領(lǐng)域知識(shí),大語(yǔ)言模型必須有效地利用這些專業(yè)知識(shí)才能做出可靠的預(yù)測(cè)。這些挑戰(zhàn)使得大語(yǔ)言模型難以自主完成整個(gè)研究周期,尤其是當(dāng)任務(wù)涉及開(kāi)放式推理、抽象綜合或跨學(xué)科知識(shí)時(shí)。

由于科學(xué)研究的這些挑戰(zhàn),大語(yǔ)言模型主要用作輔助科學(xué)任務(wù)的工具。例如,大語(yǔ)言模型已被用于加速生物醫(yī)學(xué)和環(huán)境科學(xué)等領(lǐng)域的數(shù)據(jù)解釋,在這些領(lǐng)域中,BioBERT 和 SciBERT 等預(yù)訓(xùn)練模型有助于對(duì)特定領(lǐng)域的數(shù)據(jù)進(jìn)行情境化理解 [8, 57, 68, 85]。在模擬和預(yù)測(cè)建模方面,大語(yǔ)言模型已應(yīng)用于氣候預(yù)測(cè)和分子建模,利用它們的世界知識(shí)支持傳統(tǒng)模擬可能有限的場(chǎng)景 [11]。在文獻(xiàn)綜述和綜合方面,大語(yǔ)言模型通過(guò)總結(jié)大量文本語(yǔ)料庫(kù),幫助研究人員揭示趨勢(shì)并識(shí)別知識(shí)差距 [8, 60, 85, 88, 109, 123]。更多的實(shí)驗(yàn)工作使用大語(yǔ)言模型進(jìn)行研究創(chuàng)意生成 —— 一些研究表明大語(yǔ)言模型可以生成新穎的科學(xué)想法,但也凸顯了評(píng)估和選擇高質(zhì)量想法的困難,尤其是因?yàn)榇笳Z(yǔ)言模型本身并不是可靠的評(píng)估者 [5, 112, 128, 131]。此外,像 AI Scientist [87] 和 HEADS [118] 等基于智能體的系統(tǒng)展示了實(shí)現(xiàn)從創(chuàng)意生成到模擬同行評(píng)審的整個(gè)研究流程自動(dòng)化的可行性,盡管它們?cè)隍?yàn)證這些流程以解決真正困難的現(xiàn)實(shí)世界科學(xué)問(wèn)題方面仍有不足。

未來(lái)的研究可能會(huì)集中在通過(guò)整合更嚴(yán)格的評(píng)估機(jī)制和實(shí)現(xiàn)更深入的特定領(lǐng)域推理,來(lái)提高大語(yǔ)言模型在科學(xué)發(fā)現(xiàn)中的可靠性和影響力。一個(gè)關(guān)鍵方向是構(gòu)建模仿科學(xué)團(tuán)隊(duì)動(dòng)態(tài)的多智能體協(xié)作框架,以使生成的想法更加多樣化和完善。另一個(gè)方向是將大語(yǔ)言模型與外部工具(如實(shí)驗(yàn)數(shù)據(jù)庫(kù)、模擬引擎或形式驗(yàn)證系統(tǒng))相結(jié)合,以支持結(jié)果驗(yàn)證并減少幻覺(jué)。最后,改善大語(yǔ)言模型生成的輸出與人工或?qū)嶒?yàn)驗(yàn)證之間的反饋循環(huán),對(duì)于實(shí)現(xiàn)大語(yǔ)言模型成為科學(xué)過(guò)程中值得信賴的合作者至關(guān)重要。這些發(fā)展將有助于從推測(cè)性生成轉(zhuǎn)向?qū)茖W(xué)研究可驗(yàn)證、有影響力的貢獻(xiàn)。

5 討論與未來(lái)方向

盡管在大語(yǔ)言模型解決復(fù)雜問(wèn)題的研究方面已經(jīng)取得了顯著進(jìn)展,但仍然存在重大挑戰(zhàn)。為了進(jìn)一步增強(qiáng)大語(yǔ)言模型處理復(fù)雜問(wèn)題的能力,我們應(yīng)從多步推理、知識(shí)和驗(yàn)證這三個(gè)關(guān)鍵角度著眼對(duì)其進(jìn)行改進(jìn)。

多步推理

在訓(xùn)練用于多步推理的大語(yǔ)言模型時(shí),存在兩個(gè)主要問(wèn)題:數(shù)據(jù)稀缺和高計(jì)算成本。

基于思維鏈的大語(yǔ)言模型通常在大量互聯(lián)網(wǎng)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,并通過(guò)大語(yǔ)言模型生成的合成數(shù)據(jù)進(jìn)一步提升能力。然而,在許多專業(yè)領(lǐng)域,數(shù)據(jù)稀缺仍然是一個(gè)挑戰(zhàn)。例如,雖然像 Python 這樣廣泛使用的編程語(yǔ)言在網(wǎng)上有大量代碼語(yǔ)料庫(kù),但像 Lean [21] 這樣不太知名的語(yǔ)言數(shù)據(jù)有限。盡管通過(guò)大語(yǔ)言模型生成合成數(shù)據(jù)可以提升大語(yǔ)言模型的能力,但這依賴于基礎(chǔ)大語(yǔ)言模型在特定領(lǐng)域得到良好的預(yù)訓(xùn)練。因此,利用數(shù)據(jù)合成來(lái)提升大語(yǔ)言模型生成類似 Lean 語(yǔ)言代碼的能力,仍然是一個(gè)重大挑戰(zhàn)。類似的問(wèn)題也出現(xiàn)在包括數(shù)學(xué)和科學(xué)在內(nèi)的其他領(lǐng)域。解決數(shù)據(jù)稀缺問(wèn)題的一種方法是開(kāi)發(fā)將大語(yǔ)言模型與針對(duì)目標(biāo)應(yīng)用專門訓(xùn)練的定制模型相結(jié)合的智能體。例如,在形式定理證明中,由于數(shù)據(jù)有限,定制模型可以幫助確定數(shù)學(xué)策略(策略)的適用性,并評(píng)估每一步之后證明是否朝著目標(biāo)前進(jìn) [152]。這些模型通過(guò)強(qiáng)化學(xué)習(xí) [103, 125, 134] 引導(dǎo)大語(yǔ)言模型做出明智的決策,即使在數(shù)據(jù)稀疏的領(lǐng)域也能增強(qiáng)其推理能力。

另一個(gè)問(wèn)題是高計(jì)算成本。推理縮放定律已被視為增強(qiáng)大語(yǔ)言模型處理復(fù)雜問(wèn)題能力的一種方式 [17, 32, 119, 129]。通過(guò)生成大量推理路徑,大語(yǔ)言模型更有可能為高度復(fù)雜的問(wèn)題找到通向解決方案的路徑,但這是以增加計(jì)算量為代價(jià)的。例如,GPT-o1 及其后續(xù)版本 GPT-o3 與 GPT-4 相比,推理成本顯著更高。因此,降低推理成本至關(guān)重要。我們可以從幾個(gè)角度應(yīng)對(duì)計(jì)算挑戰(zhàn)。首先,我們可以訓(xùn)練更好的用于生成和自校正的大語(yǔ)言模型,以減少生成推理路徑 / 標(biāo)記的嘗試次數(shù)。其次,我們應(yīng)該探索各種搜索算法,以更有效地生成推理路徑。除了最佳 N 搜索,我們還應(yīng)該探索束搜索和蒙特卡洛樹(shù)搜索。第三,我們可以減小大語(yǔ)言模型的規(guī)模以加快推理速度,這包括將大語(yǔ)言模型蒸餾成更小的模型,以及將知識(shí)從大語(yǔ)言模型中解耦以創(chuàng)建更緊湊版本等技術(shù),從而降低計(jì)算需求。

知識(shí)

知識(shí)是解決復(fù)雜問(wèn)題的基礎(chǔ)。目前,大語(yǔ)言模型在預(yù)訓(xùn)練過(guò)程中通過(guò)對(duì)大量數(shù)據(jù)進(jìn)行下一個(gè)標(biāo)記預(yù)測(cè)來(lái)獲取世界知識(shí),這帶來(lái)了一些挑戰(zhàn)。大語(yǔ)言模型可能無(wú)法可靠地記憶世界知識(shí),尤其是長(zhǎng)尾知識(shí) [121]。因此,當(dāng)前的大語(yǔ)言模型在訓(xùn)練數(shù)據(jù)稀缺的領(lǐng)域中表現(xiàn)不佳。即使大語(yǔ)言模型保留了知識(shí),它們?cè)诮鉀Q復(fù)雜問(wèn)題時(shí)可能難以回憶起相關(guān)信息,或者可能缺乏正確應(yīng)用知識(shí)來(lái)解決復(fù)雜問(wèn)題的能力。

為了在解決復(fù)雜問(wèn)題時(shí)有效地利用知識(shí),一種方法是構(gòu)建超越傳統(tǒng)基于三元組結(jié)構(gòu)(僅包含實(shí)體和關(guān)系)的綜合知識(shí)圖譜。在機(jī)器學(xué)習(xí)的背景下,一個(gè)專業(yè)的知識(shí)圖譜不僅應(yīng)包括技術(shù)的文字描述,還應(yīng)包括其數(shù)學(xué)公式和相應(yīng)的實(shí)現(xiàn)代碼。此外,它應(yīng)該捕捉不同技術(shù)之間的關(guān)系,以促進(jìn)對(duì)各種方法的探索,并在問(wèn)題解決中促進(jìn)創(chuàng)新。這樣的知識(shí)圖譜可以通過(guò)從學(xué)術(shù)論文、技術(shù)報(bào)告和教科書(shū)等來(lái)源提取信息,并經(jīng)過(guò)仔細(xì)的驗(yàn)證和核實(shí)來(lái)系統(tǒng)地構(gòu)建 [89]。一旦構(gòu)建完成,這個(gè)知識(shí)圖譜可以通過(guò)兩種關(guān)鍵方式加以利用。第一,它可以用于合成數(shù)據(jù)以進(jìn)行模型訓(xùn)練,從而應(yīng)對(duì)數(shù)據(jù)稀缺的挑戰(zhàn)。第二,它可以在推理過(guò)程中通過(guò)檢索增強(qiáng)生成(RAG)方法支持問(wèn)題解決,使模型能夠?qū)崟r(shí)訪問(wèn)和應(yīng)用相關(guān)知識(shí) [46]。

然而,大語(yǔ)言模型在表示和發(fā)現(xiàn)知識(shí)方面仍然面臨挑戰(zhàn)。它們?cè)趶?fù)雜任務(wù)中對(duì)思維鏈推理的依賴受到當(dāng)前序列化技術(shù)的限制,這些技術(shù)難以從結(jié)構(gòu)上捕捉特定領(lǐng)域的知識(shí)和邏輯(工作流程),同時(shí)對(duì)人類干預(yù)的支持有限 [95]。此外,大語(yǔ)言模型在平衡創(chuàng)新知識(shí)發(fā)現(xiàn)與邏輯可信度方面遇到困難,這往往導(dǎo)致產(chǎn)生幻覺(jué)性輸出。更復(fù)雜的是,大語(yǔ)言模型的動(dòng)態(tài)適應(yīng)能力不足以跟上快速變化的環(huán)境,因?yàn)橹R(shí)更新延遲可能使決策策略失效。這些相互關(guān)聯(lián)的挑戰(zhàn)凸顯了進(jìn)一步研究改進(jìn)思維過(guò)程建模、增強(qiáng)特定領(lǐng)域知識(shí)發(fā)現(xiàn)與更新(編輯)[29, 130, 156, 170],以及為復(fù)雜問(wèn)題解決開(kāi)發(fā)更強(qiáng)大適應(yīng)機(jī)制 [33, 143] 的必要性。

評(píng)估

當(dāng)前的大語(yǔ)言模型研究,如 OpenAI o1,主要集中在最終結(jié)果易于驗(yàn)證的復(fù)雜問(wèn)題上,如競(jìng)技編程和數(shù)學(xué)推理。然而,實(shí)際應(yīng)用有著更為復(fù)雜的要求,這使得最終結(jié)果的驗(yàn)證變得復(fù)雜。首先,一些應(yīng)用不僅要求解決方案正確,還要求實(shí)現(xiàn)效率或更高的準(zhǔn)確性。例如,在機(jī)器學(xué)習(xí)任務(wù)中,雖然像隨機(jī)預(yù)測(cè)或多層感知器這樣的基線方法可以被視為 “正確” 的解決方案,但它們可能無(wú)法滿足期望的性能,人們更傾向于更有效的解決方案。此外,許多應(yīng)用中的問(wèn)題難以全面定義。還是以機(jī)器學(xué)習(xí)任務(wù)為例,任務(wù)描述和輸入數(shù)據(jù)的分布對(duì)于設(shè)計(jì)有效的解決方案都至關(guān)重要。然而,將輸入數(shù)據(jù)的分布傳達(dá)給大語(yǔ)言模型具有挑戰(zhàn)性。另外,在某些科學(xué)領(lǐng)域,如藥物發(fā)現(xiàn)、氣候建?;蛏鐣?huì)科學(xué)中,結(jié)果的驗(yàn)證通常需要廣泛的實(shí)驗(yàn)測(cè)試、重復(fù)實(shí)驗(yàn)或進(jìn)一步的理論分析,以確認(rèn)其準(zhǔn)確性和可靠性。

這些挑戰(zhàn)強(qiáng)調(diào)了需要強(qiáng)大的評(píng)估框架以及整合特定領(lǐng)域?qū)I(yè)知識(shí),以確保大語(yǔ)言模型生成輸出的可靠性。為了提高大語(yǔ)言模型輸出的可信度,采用多種評(píng)估方法至關(guān)重要。以機(jī)器學(xué)習(xí)任務(wù)為例,有幾種方法可以評(píng)估機(jī)器學(xué)習(xí)算法的有效性:第一,可以通過(guò)與先前發(fā)表的結(jié)果(如學(xué)術(shù)論文和技術(shù)報(bào)告)進(jìn)行比較來(lái)評(píng)估算法的性能。第二,可以利用基于大語(yǔ)言模型的評(píng)估器來(lái)評(píng)估解決方案的質(zhì)量。為了提高其準(zhǔn)確性,應(yīng)進(jìn)行數(shù)據(jù)分析,從輸入數(shù)據(jù)中提取全面的見(jiàn)解,并將其提供給大語(yǔ)言模型。第三,實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法并進(jìn)行實(shí)驗(yàn),為其有效性提供實(shí)證評(píng)估。第四,對(duì)于某些機(jī)器學(xué)習(xí)算法,我們可以對(duì)算法進(jìn)行一些理論分析,并通過(guò)像 Lean 這樣的符號(hào)驗(yàn)證工具進(jìn)一步驗(yàn)證,確保對(duì)算法的正確性和有效性進(jìn)行嚴(yán)格驗(yàn)證。通過(guò)結(jié)合所有這些不同的評(píng)估方法,我們有可能對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行全面評(píng)估。我們相信類似的評(píng)估原則(基于大語(yǔ)言模型的評(píng)估、實(shí)證實(shí)驗(yàn)、理論評(píng)估的組合)也可以應(yīng)用于其他領(lǐng)域。

6 相關(guān)工作

已有幾篇綜述論文探討了基于大語(yǔ)言模型的推理。早期的工作,如 Qiao 等人 [105] 和 Huang 與 Chang [51],對(duì)基于大語(yǔ)言模型的推理進(jìn)行了概述,這對(duì)復(fù)雜問(wèn)題解決至關(guān)重要。然而,這些綜述主要關(guān)注該領(lǐng)域的初期發(fā)展。隨著 GPT-o1 [99] 的發(fā)布,基于大語(yǔ)言模型推理的有效性得到了顯著展示。此后,眾多研究探索了 GPT-o1 背后的潛在機(jī)制。例如,Zeng 等人 [160] 和 Xu 等人 [142] 深入研究了能夠?qū)崿F(xiàn)類似 o1 推理的技術(shù),特別是通過(guò)強(qiáng)化學(xué)習(xí)。相比之下,本文從更廣泛的視角出發(fā),探討了復(fù)雜問(wèn)題解決所需的各種能力,而不僅僅聚焦于推理。

眾多綜述論文聚焦于基于大語(yǔ)言模型推理的特定領(lǐng)域。例如,Yang 等人 [147] 研究了形式數(shù)學(xué)推理的進(jìn)展、挑戰(zhàn)和未來(lái)方向。Eger 等人 [31] 探索了使用大語(yǔ)言模型支持科學(xué)研究的最新進(jìn)展,涵蓋了文獻(xiàn)搜索、創(chuàng)意生成、文本和多模態(tài)內(nèi)容(如科學(xué)圖表和圖形)生成以及基于人工智能的同行評(píng)審等應(yīng)用。Ahn 等人 [3] 對(duì)使用大語(yǔ)言模型進(jìn)行的各類數(shù)學(xué)推理進(jìn)行了概述。然而,這些工作并未涉及類似 o1 的技術(shù)。同時(shí),Li 等人 [75] 專注于數(shù)學(xué)推理中的定理證明。該綜述并非僅依賴大語(yǔ)言模型,而是將定理證明分解為多個(gè)組件,并討論了各種深度學(xué)習(xí)技術(shù)在每個(gè)方面的應(yīng)用。

7 結(jié)論

在這篇綜述論文中,我們從認(rèn)知科學(xué)和計(jì)算理論的角度定義了復(fù)雜問(wèn)題解決,并分析了不同復(fù)雜問(wèn)題的特征。然后,我們研究了大語(yǔ)言模型(LLMs)的重大進(jìn)展,重點(diǎn)關(guān)注復(fù)雜問(wèn)題解決背景下的思維鏈推理和基于智能體的方法。我們討論了數(shù)據(jù)合成和強(qiáng)化學(xué)習(xí)如何增強(qiáng)大語(yǔ)言模型的多步推理能力。此外,我們還探討了基于智能體的方法如何使人工智能系統(tǒng)利用外部知識(shí)、執(zhí)行工具和結(jié)果驗(yàn)證。然而,我們也研究了這些方法在應(yīng)用于不同類型復(fù)雜問(wèn)題時(shí)的局限性。

?

本文轉(zhuǎn)載自??AIRoobt?? ,作者:DA ZHENG等


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦