處女座 (Virgo):基于文本指令微調(diào)的多模態(tài)慢思考推理系統(tǒng)
1. 引言
近年來,隨著深度學習技術(shù)的飛速發(fā)展,人工智能 (AI) 在諸多領(lǐng)域取得了突破性進展。然而,傳統(tǒng)的深度學習模型在處理需要復(fù)雜推理的任務(wù)時仍然面臨挑戰(zhàn)。例如,在面對數(shù)學題、邏輯謎題或科學問題時,簡單地依靠模式識別和函數(shù)擬合難以獲得令人滿意的結(jié)果。為了解決這個問題,研究人員開始探索將深度學習與符號推理相結(jié)合,從而賦予 AI 系統(tǒng)更強的推理能力,即慢思考推理。
慢思考推理強調(diào)對問題進行深入分析和逐步求解,而非僅僅依賴直覺或快速聯(lián)想。這種方法更接近人類的認知過程,也更適用于需要邏輯推理、知識應(yīng)用和問題解決的復(fù)雜場景。慢思考推理的應(yīng)用場景非常廣泛,包括但不限于:
- 科學發(fā)現(xiàn):輔助科學家進行數(shù)據(jù)分析、假設(shè)驗證和新知識發(fā)現(xiàn)。
- 自動解題:自動求解數(shù)學題、邏輯謎題和編程問題。
- 代碼生成:根據(jù)自然語言描述生成高質(zhì)量、可解釋的代碼。
多模態(tài)慢思考推理將慢思考推理的概念擴展到多模態(tài)領(lǐng)域,旨在使 AI 系統(tǒng)能夠處理圖像、文本、代碼、表格等多種模態(tài)的信息,并進行跨模態(tài)的邏輯推理和問題解決。然而,多模態(tài)慢思考推理也面臨著諸多挑戰(zhàn):
- 多模態(tài)數(shù)據(jù):如何有效地融合和理解來自不同模態(tài)的信息?
- 推理過程:如何設(shè)計能夠處理多模態(tài)信息和復(fù)雜推理過程的模型?
- 模型結(jié)構(gòu):如何構(gòu)建能夠進行跨模態(tài)推理和知識應(yīng)用的模型架構(gòu)?
為了應(yīng)對這些挑戰(zhàn),百川智能和中國人民大學的研究人員在論文《Virgo: A Preliminary Exploration on Reproducing o1-like MLLM》提出了一種簡單而有效的方法,將慢思考能力賦予多模態(tài)大語言模型 (MLLM)處女座 (Virgo)。百川智能是一家專注于人工智能研究與開發(fā)的創(chuàng)新公司,致力于打造更智能、更可信、更人性化的 AI 系統(tǒng)。其核心思想是利用文本長程思維數(shù)據(jù)對 MLLM 進行微調(diào),從而使模型能夠模仿人類的推理過程,進行多模態(tài)的慢思考推理。
2. 相關(guān)工作
2.1 慢思考大語言模型 (LLM)
近年來,研究人員提出了一系列方法來增強大型語言模型 (LLM) 的推理能力。其中,思維鏈 (Chain-of-Thought, CoT) 是一種被廣泛認可的有效方法。CoT 通過在 LLM 的輸入中添加中間推理步驟,引導(dǎo)模型進行逐步推理,從而提高其在復(fù)雜推理任務(wù)上的性能。
OpenAI 提出的 "o1" 模型是慢思考 LLM 的一個典型代表。該模型在諸多基準測試中展現(xiàn)出強大的推理能力,能夠解決復(fù)雜的數(shù)學題、邏輯謎題和代碼生成問題。此外,DeepSeek R1、Qwen QwQ 等模型也展現(xiàn)了慢思考 LLM 在不同領(lǐng)域的應(yīng)用潛力。
2.2 多模態(tài)大語言模型 (MLLM)
多模態(tài)大語言模型 (MLLM) 旨在將 LLM 的能力擴展到多模態(tài)領(lǐng)域。通常,MLLM 包括三個主要組件:
- 視覺編碼器:用于提取圖像等視覺信息的特征表示。
- LLM:用于處理文本信息和進行邏輯推理。
- 跨模態(tài)連接器:用于連接視覺編碼器和 LLM,實現(xiàn)跨模態(tài)的信息交互。
MLLM 在視覺問答、圖像描述生成、多模態(tài)對話等任務(wù)中取得了顯著成果。然而,現(xiàn)有的 MLLM 在處理需要復(fù)雜推理的任務(wù)時仍然存在不足。
2.3 指令微調(diào)
指令微調(diào)是一種通過指令數(shù)據(jù)對 LLM 和 MLLM 進行微調(diào)的方法。指令數(shù)據(jù)通常包含一個任務(wù)描述、一些示例和一個期望的輸出。通過學習大量的指令數(shù)據(jù),模型可以更好地理解人類的意圖,并生成更符合要求的輸出。
指令微調(diào)已被證明可以有效提升 LLM 和 MLLM 的泛化能力和可控性。通過使用不同的指令數(shù)據(jù),可以使模型適應(yīng)不同的任務(wù)和領(lǐng)域。
3. 論文方法
論文的核心思想是利用文本長程思維數(shù)據(jù)對 MLLM 進行微調(diào),從而使模型能夠進行多模態(tài)的慢思考推理。作者們假設(shè)慢思考能力與語言模型組件密切相關(guān),因此可以通過文本指令遷移來 eliciting MLLM 的慢思考能力。
論文提出了兩種具體的 MLLM 慢思考方案:
3.1 文本指令遷移
- 文本長程思維數(shù)據(jù)收集:從 DeepSeek-R1-Lite-Preview 和 QwQ-32B-preview 兩個模型中收集了約 5K 條文本長程思維指令數(shù)據(jù),涵蓋數(shù)學、科學、代碼、謎題等多個領(lǐng)域。這些指令數(shù)據(jù)包含完整的推理過程和最終答案,并使用特殊的符號進行標記,例如<|begin_of_thought |>、<|end_of_thought |>、< begin_of_solution |>、< end_of_solution|>。
- 文本指令微調(diào):選擇 Qwen2-VL-72B-Instruct 作為基礎(chǔ)模型,并凍結(jié)其視覺編碼器的參數(shù)。使用 AdamW 優(yōu)化器,學習率為 7e-6,批大小為 128,訓(xùn)練 10 個 epoch。
3.2 慢思考 MLLM 蒸餾
- 視覺長程思維數(shù)據(jù)收集:從 LLaVA-One Vision 數(shù)據(jù)集中選擇了 8 個數(shù)據(jù)集,涵蓋幾何、表格、圖表、對象等多個領(lǐng)域,共計約 7K 條數(shù)據(jù)。每個數(shù)據(jù)樣本包含一個問題、一張圖像和一個答案。使用 QVQ 模型和 Virgo 模型進行 rollout,生成每個問題的推理過程。
- 視覺指令微調(diào):凍結(jié)視覺編碼器的參數(shù),只訓(xùn)練 LLM 和跨模態(tài)連接器。為了進行 self-distillation,作者們設(shè)計了一種多階段微調(diào)策略:首先使用文本指令數(shù)據(jù)對 Qwen2-VL-72B-Instruct 進行微調(diào),然后使用微調(diào)后的模型進行 self-distillation,生成視覺長程思維數(shù)據(jù),最后使用這些數(shù)據(jù)再次對模型進行微調(diào)。
4. 實驗結(jié)果與分析
為了驗證方法的有效性,作者在四個挑戰(zhàn)性的基準上進行了實驗:MathVerse、MathVision、OlympiadBench 和 MMMU。這些數(shù)據(jù)集涵蓋了各種類型的多模態(tài)推理問題,包括數(shù)學題、圖表分析、圖像理解等,可以全面評估模型的慢思考能力。
4.1 實驗設(shè)置
- 評估基準:
MathVerse:包含來自不同來源的 2612 道多學科數(shù)學題,例如代數(shù)、幾何、微積分等。
MathVision:包含來自 established 數(shù)學競賽的 3040 道高質(zhì)量數(shù)學題,難度較高。
OlympiadBench:包含 8476 道用于奧林匹克級別數(shù)學和物理競賽的雙語多模態(tài)問題, 考察模型的跨語言和跨模態(tài)推理能力。
MMMU:包含 11500 道涵蓋 30 個學科和 183 個子領(lǐng)域的問題,例如物理、化學、生物、歷史、地理等,是一個綜合性多模態(tài)推理數(shù)據(jù)集。
- 對比模型:
- 慢思考 MLLM:OpenAI "o1" 和 QVQ-72B-preview,是目前最先進的慢思考多模態(tài)模型。
- 通用 MLLM:GPT-40、Gemini-Pro 和 Claude-3.5-Sonnet,是目前最先進的通用多模態(tài)模型,但不具備專門的慢思考能力。
- 基礎(chǔ)模型:Qwen2-VL-72B-Instruct,是一個開源的多模態(tài)大語言模型,作者在其基礎(chǔ)上進行微調(diào),構(gòu)建 Virgo 模型。
4.2 主要結(jié)果
實驗結(jié)果表明,Virgo 模型在四個基準測試中均取得了優(yōu)異的性能,證明了基于文本指令微調(diào)的多模態(tài)慢思考方案的有效性。具體來說:
- 整體性能: Virgo 模型在所有基準測試中的性能都顯著優(yōu)于基礎(chǔ)模型 Qwen2-VL-72B-Instruct,并且與 OpenAI "o1" 和 QVQ-72B-preview 等先進的慢思考 MLLM 的性能相當,甚至在某些指標上超過它們。
- 文本指令遷移: 使用文本長程思維數(shù)據(jù)進行微調(diào)的效果優(yōu)于使用從慢思考 MLLM 中蒸餾得到的視覺指令數(shù)據(jù),這表明慢思考能力可以通過文本指令有效地遷移到多模態(tài)領(lǐng)域。
- 模型規(guī)模: 模型規(guī)模對性能有顯著影響,72B 模型的性能明顯優(yōu)于 7B 模型,這說明更大的模型具有更強的慢思考能力。
4.3 進一步分析
為了更深入地理解模型的行為,作者進行了一系列分析實驗,探索了任務(wù)難度、指令長度、指令規(guī)模、視覺指令難度等因素對模型性能的影響。
- 任務(wù)難度: 慢思考推理對較難的任務(wù)的性能提升更明顯,這表明慢思考方法更適用于需要復(fù)雜推理的場景。
- 指令長度: 中等長度的指令數(shù)據(jù)效果最佳,過短的指令可能無法提供足夠的推理步驟,而過長的指令可能引入噪聲,影響模型學習。
- 指令規(guī)模: 增加文本指令的數(shù)量可以提升模型性能,這說明更多的數(shù)據(jù)可以幫助模型更好地學習慢思考推理模式。
- 視覺指令難度: 不同難度的視覺指令對模型性能影響不大,這可能是因為當前的視覺指令生成方法還不夠完善,無法有效控制指令的難度。
4.4 案例分析
作者還通過具體的案例分析,展示了 Virgo 模型的優(yōu)勢和不足。
- 成功案例: Virgo 模型能夠進行詳細的圖像描述和自我反思,例如在解答一道幾何題時,它可以準確識別圖形中的關(guān)鍵信息,并進行逐步的推理和驗證,最終得出正確答案。
- 失敗案例: Virgo 模型缺乏對感知結(jié)果的反思,例如在分析圖表時,如果模型對圖表中的數(shù)據(jù)產(chǎn)生了誤讀,即使進行了推理,也可能得出錯誤的結(jié)論。
5. 結(jié)論與未來方向
5.1 主要結(jié)論
- 通過使用文本長格式思維數(shù)據(jù)簡單地微調(diào) MLLM,一個有能力的 MLLM 可以表現(xiàn)出顯著增強的慢思考能力。
- 對四個具有挑戰(zhàn)性的基準進行了廣泛的實驗,結(jié)果表明,與行業(yè)推理系統(tǒng)相比,這種方法實現(xiàn)了極具競爭力的性能。
- 研究了文本指令數(shù)據(jù)的不同因素的影響,例如數(shù)據(jù)量和長度分布。
5.2 未來AGI的可能
作者認為,當前構(gòu)建多模態(tài)慢思考系統(tǒng)的嘗試是初步的。在未來的工作中,AGI的目標應(yīng)該是擴展具有挑戰(zhàn)性的多模態(tài)問題的來源,并設(shè)計更有原則的方法來增強這種能力。具體來說,未來的研究方向包括:
- 構(gòu)建更具挑戰(zhàn)性的多模態(tài)數(shù)據(jù)集: 目前的多模態(tài)推理數(shù)據(jù)集大多集中在數(shù)學和科學領(lǐng)域,未來需要構(gòu)建更多涵蓋不同領(lǐng)域和任務(wù)類型的數(shù)據(jù)集,例如包含代碼、表格、圖形等多種模態(tài)信息的數(shù)據(jù)集,以及需要進行復(fù)雜邏輯推理和知識應(yīng)用的數(shù)據(jù)集。
- 設(shè)計更精細的 MLLM 慢思考訓(xùn)練方法: 除了文本指令微調(diào),還可以探索其他訓(xùn)練方法,例如結(jié)合強化學習,對模型的推理路徑進行優(yōu)化,使其能夠更高效地找到問題的解決方案。
- 提升 MLLM 在感知和推理方面的綜合能力: 現(xiàn)有的 MLLM 在感知和推理方面都存在一定的局限性,未來需要進一步提升模型的感知能力,例如識別圖像中的細粒度信息,以及推理能力,例如進行多跳推理和常識推理。
- 探索慢思考 MLLM 與其他技術(shù)的結(jié)合: 可以將慢思考 MLLM 與其他技術(shù)相結(jié)合,例如知識圖譜、知識推理等,從而進一步提升模型的推理能力和問題解決能力。
6. 論文引發(fā)的思考
6.1 慢思考系統(tǒng)與其他技術(shù)的結(jié)合
慢思考系統(tǒng)并非孤立的技術(shù),它可以與其他 AI 技術(shù)相結(jié)合,優(yōu)勢互補,從而進一步提升其推理能力和問題解決能力。
- 知識圖譜: 知識圖譜以結(jié)構(gòu)化的形式存儲了大量的知識和概念之間的關(guān)系,可以為慢思考系統(tǒng)提供豐富的背景知識和推理規(guī)則。將知識圖譜融入慢思考系統(tǒng),可以使其能夠進行更深入的知識應(yīng)用和邏輯推理,例如在解答數(shù)學題時,可以利用知識圖譜中的數(shù)學公式和定理進行推理;在進行醫(yī)療診斷時,可以利用知識圖譜中的醫(yī)學知識進行分析。
- 強化學習: 強化學習是一種通過試錯來學習最佳策略的方法,可以用于優(yōu)化慢思考系統(tǒng)的推理路徑和策略。例如,可以將推理過程中的每一步?jīng)Q策看作一個動作,將最終的推理結(jié)果的正確性作為獎勵信號,通過強化學習算法來學習如何選擇最佳的推理路徑,從而使慢思考系統(tǒng)能夠更高效地解決問題。
- 多模態(tài)預(yù)訓(xùn)練: 多模態(tài)預(yù)訓(xùn)練旨在學習不同模態(tài)信息之間的關(guān)聯(lián)和表征,可以提升 MLLM 對多模態(tài)信息的理解能力,為慢思考推理提供更豐富的語義表示。例如,通過多模態(tài)預(yù)訓(xùn)練,MLLM 可以更好地理解圖像和文本之間的關(guān)聯(lián),從而在進行視覺問答時,能夠更準確地理解問題并找到答案。
6.2 慢思考系統(tǒng)在實際場景中的應(yīng)用
慢思考系統(tǒng)在教育、科研、代碼生成等領(lǐng)域具有廣闊的應(yīng)用前景,可以幫助人們更高效地學習、工作和解決問題。
- 教育輔助: 慢思考系統(tǒng)可以用于自動解題、personalized learning 等,幫助學生更好地學習和掌握知識。例如,可以根據(jù)學生的學習情況,生成個性化的學習計劃和練習題,并提供詳細的解題思路和步驟,幫助學生理解和掌握知識點。
- 科學研究: 慢思考系統(tǒng)可以輔助科學家進行數(shù)據(jù)分析和假設(shè)驗證,加速科學發(fā)現(xiàn)的進程。例如,可以幫助科學家分析大量的實驗數(shù)據(jù),發(fā)現(xiàn)其中的規(guī)律和模式,并生成科學假設(shè)和理論,從而推動科學研究的進展。
- 代碼生成: 慢思考系統(tǒng)可以根據(jù)自然語言描述生成高質(zhì)量、可解釋的代碼,提高軟件開發(fā)的效率和質(zhì)量。例如,可以將用戶的需求描述轉(zhuǎn)化為代碼,并生成代碼的解釋文檔,從而降低軟件開發(fā)的難度,提高代碼的可讀性和可維護性。
6.3 慢思考系統(tǒng)對人工智能倫理的影響
隨著慢思考系統(tǒng)的能力不斷提升,其對人工智能倫理的影響也日益凸顯,需要我們認真思考和應(yīng)對。
- 可解釋性: 慢思考系統(tǒng)能夠提供推理過程,增強模型的可解釋性,有助于人們理解 AI 的決策過程。然而,慢思考系統(tǒng)的推理過程可能非常復(fù)雜,如何將其轉(zhuǎn)化為人類能夠理解的形式,仍然是一個挑戰(zhàn)。
- 安全性: 如何確保慢思考系統(tǒng)做出安全可靠的決策,避免產(chǎn)生負面影響,是一個亟待解決的問題。例如,在醫(yī)療診斷、自動駕駛等領(lǐng)域,慢思考系統(tǒng)的決策可能會對人的生命安全產(chǎn)生重大影響,因此需要對其進行嚴格的測試和驗證,確保其安全性。
- 公平性: 如何避免慢思考系統(tǒng)產(chǎn)生偏見和歧視,確保其公平公正地服務(wù)于所有人,也是一個重要的倫理問題。例如,在招聘、貸款等領(lǐng)域,慢思考系統(tǒng)可能會受到數(shù)據(jù)偏差的影響,從而對某些群體產(chǎn)生歧視,因此需要采取措施來消除數(shù)據(jù)偏差,確保模型的公平性。
總而言之,慢思考推理是人工智能領(lǐng)域的一個重要發(fā)展方向,它將推動 AI 系統(tǒng)朝著更智能、更可信、更人性化的方向發(fā)展。論文提出的基于文本指令微調(diào)的 MLLM 慢思考方案具有重要的研究價值和應(yīng)用潛力,可以為構(gòu)建更強大的多模態(tài) AI 系統(tǒng)提供了新的思路。
參考論文:rXiv:2501.01904v1 [cs.CV] 3 Jan 2025
