AI界的新寵:揭秘Llama 3.1如何革新AI合成技術(shù) 精華
合成數(shù)據(jù)技術(shù)并不是創(chuàng)造全新的信息,而是通過轉(zhuǎn)換現(xiàn)有信息來生成不同的變體。在過去的十多年里,合成數(shù)據(jù)技術(shù)已被廣泛應(yīng)用于提升各類模型的精確度——無論是通過變換圖像來優(yōu)化物體檢測模型,還是加強(qiáng)信用卡欺詐檢測,亦或是提升BERT模型在自動問答方面的表現(xiàn)。
隨著大型語言模型(LLMs)的出現(xiàn),生成合成數(shù)據(jù)的動力和技術(shù)都得到了極大的加強(qiáng)。各行各業(yè)的企業(yè)正在利用合成數(shù)據(jù)來微調(diào)基礎(chǔ)LLMs,以滿足各種應(yīng)用場景的需求,比如:
- 金融領(lǐng)域改善風(fēng)險評估
- 優(yōu)化零售供應(yīng)鏈
- 在電信領(lǐng)域提升客戶服務(wù)
- 在醫(yī)療保健領(lǐng)域提高病人護(hù)理水平。
編輯注:本文經(jīng)翻譯并二次整理自Creating Synthetic Data Using Llama 3.1 405B一文。
利用LLM生成的合成數(shù)據(jù)來提升語言模型
在調(diào)整模型時,業(yè)界主要有兩種廣泛采用的方法——知識蒸餾和自我提升。
- 知識蒸餾是將一個大型模型的能力轉(zhuǎn)移到一個小型模型的過程。這不僅僅是讓兩個模型在相同的數(shù)據(jù)集上訓(xùn)練,因為小型模型可能無法學(xué)習(xí)到底層數(shù)據(jù)最準(zhǔn)確的表示。在這種情況下,我們可以使用大型模型來解決問題,然后用這些數(shù)據(jù)讓小型模型模仿大型模型的行為。
- 自我提升則是利用同一個模型來評估和改進(jìn)自己的推理過程,這種方法通常用于進(jìn)一步提升模型的能力。這兩種方法都可以利用Llama 405B模型來優(yōu)化更小型的LLMs。
接下來,讓我們看看如何實現(xiàn)這一過程。訓(xùn)練一個LLM通常包括三個步驟:預(yù)訓(xùn)練、微調(diào)和校準(zhǔn)。
- 預(yù)訓(xùn)練:這一步驟涉及使用一個龐大的信息庫來訓(xùn)練模型,使其了解語言的通用結(jié)構(gòu)是如何組織的。對于通用的LLM,這通常是通過互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)來完成的;而對于特定領(lǐng)域的LLM,我們需要將該領(lǐng)域的具體情況融入其中(例如,針對幾何學(xué)、放射學(xué)或電信的LLM)。這被稱為領(lǐng)域自適應(yīng)預(yù)訓(xùn)練(DAPT)。在預(yù)訓(xùn)練階段應(yīng)用合成數(shù)據(jù)的另一個例子是Phi-1.5模型,該模型使用大型模型來合成數(shù)據(jù),以便在預(yù)訓(xùn)練階段培養(yǎng)邏輯推理能力。
- 微調(diào):一旦模型經(jīng)過通用語言結(jié)構(gòu)的訓(xùn)練,下一步就是對其進(jìn)行微調(diào),使其能夠遵循特定的指令。例如,提高模型在閱讀理解型問題、邏輯推理、代碼生成和函數(shù)調(diào)用方面的表現(xiàn),都屬于這一類。Self-Instruct、WizardCoder、Alpaca等技術(shù)利用這些方法來創(chuàng)建特定任務(wù)的微調(diào)數(shù)據(jù)。你可以通過這個示例來了解更多關(guān)于策劃特定領(lǐng)域數(shù)據(jù)的信息。
- 校準(zhǔn):最后,我們需要確保LLM的響應(yīng)風(fēng)格和語調(diào)符合用戶的期望,比如聽起來更會話化,具有適當(dāng)?shù)脑敿?xì)程度、復(fù)雜性、連貫性和其他用戶定義的屬性。這可以通過使用一個包含指令模型和獎勵模型的流程來實現(xiàn)。聊天模型會創(chuàng)建多個響應(yīng),然后獎勵模型會就響應(yīng)的質(zhì)量給出反饋。這種技術(shù)屬于人工智能反饋的強(qiáng)化學(xué)習(xí)(RLAIF)范疇。這個筆記本將指導(dǎo)你如何使用新的Llama 405B模型和NVIDIA 340B獎勵模型生成模型校準(zhǔn)的合成數(shù)據(jù)。
合成數(shù)據(jù)評估RAG
由于合成數(shù)據(jù)的應(yīng)用范圍非常廣泛,本文將以合成RAG檢索生成評估數(shù)據(jù)進(jìn)行具體的案例說明。
檢索增強(qiáng)生成(RAG)結(jié)合了嵌入模型來檢索相關(guān)信息和LLM來生成答案。嵌入模型為文本的語義生成數(shù)學(xué)表示。我們可以使用LLMs來分析底層文檔并合成數(shù)據(jù),用于評估和微調(diào)嵌入模型。
與RAG類似,任何代理流程都可以被評估,其組件模型也可以被微調(diào)。這可以通過構(gòu)建LLM驅(qū)動的代理來進(jìn)行模擬來實現(xiàn)。這些模擬還可以用來研究行為模式。此外,可以將角色引入LLMs以大規(guī)模生成特定任務(wù)的數(shù)據(jù)。
為了具體化上述討論,讓我們思考一下上述用例之一的基本流程——為檢索生成評估數(shù)據(jù)。跟隨這個筆記本。
策劃評估檢索流程的數(shù)據(jù)的主要挑戰(zhàn)包括:
- 多樣性:問題不應(yīng)只關(guān)注信息的單一方面,或者只有提取性問題。
- 復(fù)雜性:生成的問題應(yīng)該需要一些推理或多個證據(jù)片段來回答。
我們將專注于多樣性,但要探索復(fù)雜性——關(guān)鍵是找到有重疊信息的信息塊。找到重疊信息的幾種方法是計算句子級語義的Jaccard相似度和利用長上下文模型在來自同一文檔的塊之間繪制相關(guān)性。
多樣性來自于不同的觀點。例如,考慮以下段落:
GreenTech Inc.被SolarPower Corporation提議收購,是今年可再生能源領(lǐng)域最引人注目的交易之一。交易價值高達(dá)30億美元,旨在將GreenTech的尖端電池技術(shù)與SolarPower廣泛的太陽能電池板制造和分銷網(wǎng)絡(luò)相結(jié)合。預(yù)計的運營協(xié)同效應(yīng)將在未來兩年內(nèi)使生產(chǎn)成本降低20%,收入增加15%。然而,這筆交易因潛在的反壟斷問題而受到監(jiān)管機(jī)構(gòu)的嚴(yán)格審查。聯(lián)邦貿(mào)易委員會(FTC)已表示,這一合并可能會在可再生能源存儲市場形成壟斷,可能會抑制競爭和創(chuàng)新。
SolarPower已承諾保持GreenTech的研發(fā)中心作為一個獨立實體,以維護(hù)其創(chuàng)新文化,該中心擁有超過500名科學(xué)家和工程師。此外,所有現(xiàn)有雇傭合同都將得到尊重,從而緩解了潛在裁員的擔(dān)憂。合并協(xié)議還包括一項1.5億美元的分手費,如果SolarPower未能獲得必要的監(jiān)管批準(zhǔn),將支付給GreenTech,從而減輕了交易失敗時GreenTech的財務(wù)風(fēng)險。
協(xié)議還包括了詳細(xì)的陳述和保證,確保了財務(wù)報表的準(zhǔn)確性、未披露負(fù)債的缺失以及遵守適用法律。它還包括一個全面的賠償流程,以保護(hù)雙方免受這些陳述和保證的潛在違反。SolarPower和GreenTech已同意在交易關(guān)閉前,未經(jīng)SolarPower同意,GreenTech不得產(chǎn)生新債務(wù)、發(fā)行額外股份或大幅改變業(yè)務(wù)運營。這些承諾旨在保護(hù)GreenTech的價值,并確保交易完成后的平穩(wěn)過渡。協(xié)議還概述了一個全面的盡職調(diào)查流程,包括對GreenTech知識產(chǎn)權(quán)組合的環(huán)境評估和審計,以確保在交易最終確定之前所有資產(chǎn)和負(fù)債都被準(zhǔn)確核算。
歐盟委員會也在審查這一合并,以評估其對歐盟市場的影響,特別是關(guān)于競爭和市場主導(dǎo)地位。這一評估包括提交詳細(xì)的文件,包括市場分析、競爭影響評估和合并的經(jīng)濟(jì)理由。審查過程要求兩家公司迅速回應(yīng)詢問并提供全面文件。此外,為獲得批準(zhǔn),SolarPower和GreenTech可能需要做出讓步,例如剝離某些業(yè)務(wù)單位或資產(chǎn),以減輕對競爭減少的擔(dān)憂。確保遵守歐盟合并法規(guī)不僅涉及解決競爭問題,還要確保合并符合歐盟關(guān)于市場公平和消費者保護(hù)的更廣泛政策。
一個金融分析師可能對這兩家公司合并前后的財務(wù)表現(xiàn)感興趣。法律專家可能對公司面臨FTC、歐盟和其他方面的法律審查感興趣。而記者可能想要理解主要的觀點。
所有這些都是有效的視角和用戶角色,由于他們用不同的觀點來處理相同的信息,評估流程也需要適應(yīng)這些不同的觀點。因此,讓我們設(shè)計一個流程,它接受文檔和角色,然后以角色會問的語調(diào)輸出問題。
生成合成數(shù)據(jù)
圖1. 一個高層次的三步流程,用于為檢索評估生成合成數(shù)據(jù)的概述
從概念上講,這個流程包含三個主要步驟,如圖1所示。
- 第一步:為角色生成所有可能感興趣的問題。
- 第二步:過濾所有生成的問題。
- 第三步:引入角色的寫作風(fēng)格。
第一步:問題生成
在深入探討問題生成之前,我們首先要閱讀文檔并從中提煉出關(guān)鍵信息。在接下來的討論中,我們將以圖1作為參考文本。
探討生成問題第一步的深入分析
用戶畫像是對可能提出問題的用戶特征的描述。以下是一些示例:
- 用戶畫像1Joan是一位資深的金融分析師,擅長運用計量經(jīng)濟(jì)學(xué)來提出投資策略。他通常有一支分析師團(tuán)隊提供信息支持,因此可能對細(xì)節(jié)不太熟悉,可能會提出一些含糊的問題。但他對相關(guān)主題有深入的了解。
- 用戶畫像2Padma是一位經(jīng)驗豐富的企業(yè)訴訟律師,擅長處理大型公司的復(fù)雜法律案件。她以直接、細(xì)致的方式處理問題,以敏銳的分析能力和對細(xì)節(jié)的關(guān)注而聞名。
- 用戶畫像3Aaron是一位新聞專業(yè)的學(xué)生,對英語不夠熟練,可能不會深入挖掘材料的深層含義。他有時會夸大事實以吸引注意。
在理解了文檔內(nèi)容后,大型語言模型(LLM)會根據(jù)每個用戶畫像從文本中提取關(guān)鍵點。不同的用戶畫像可能對相同的信息點感興趣,因此我們使用嵌入模型進(jìn)行語義去重,以找出文本中不同的有趣信息。
多樣性的另一個方面是問題的類型。我們需要提出包括提取性、抽象性、比較性等不同類型的問題,而不僅僅是簡單的“如何/什么”問題。為此,下一步是確定每種信息點適用的問題類型。
最后,基于文本塊、興趣點和問題類型,我們生成所有可能的問題。通過使用用戶畫像和問題類型來指導(dǎo)問題生成,開發(fā)人員可以引導(dǎo)生成的問題更貼近用戶實際會問的問題。
示例興趣點和問題類型:
- 反壟斷法規(guī)審查:抽象性、診斷性問題
- 運營協(xié)同效應(yīng):提取性、抽象性問題
- 創(chuàng)新保護(hù):提取性、抽象性、診斷性問題
- 歐盟并購法規(guī):抽象性、診斷性、提取性、聚合性問題
示例問題:
- SolarPower公司和GreenTech公司的合并可能帶來哪些潛在風(fēng)險,他們打算如何應(yīng)對?
- 歐盟委員會審查合并時會關(guān)注哪些條款,兩家公司可能需要做出哪些調(diào)整以獲得批準(zhǔn)?
- 通過合并,SolarPower和GreenTech希望實現(xiàn)哪些戰(zhàn)略目標(biāo),他們計劃如何整合業(yè)務(wù)以實現(xiàn)這些目標(biāo)?
- SolarPower公司收購GreenTech公司的三大好處是什么,它們與公司的運營和財務(wù)有何關(guān)聯(lián)?
- 目前有多少監(jiān)管機(jī)構(gòu)在審查這次合并,他們主要關(guān)注哪些問題?
- 為了獲得歐盟委員會對合并的批準(zhǔn),SolarPower公司和GreenTech公司可能需要做出哪些讓步,這些讓步會如何影響公司的運營和市場地位?
- FTC對SolarPower公司收購GreenTech公司的主要擔(dān)憂是什么,這可能對可再生能源存儲市場產(chǎn)生什么影響?
第二步:問題篩選
生成問題后,我們需要篩選出最有價值的問題子集。首先是去重,因為不同的信息點可能會產(chǎn)生相似的問題。
然后,我們用LLM作為評判標(biāo)準(zhǔn),確定問題與原文的相關(guān)性,確保問題可以根據(jù)文中信息得到完整回答。接下來,我們將所有相關(guān)的問題改寫成對話式的語氣。最后,我們還會篩選掉那些可能過于籠統(tǒng)的問題。
深入分析第二步:問題篩選
第三步:賦予用戶畫像風(fēng)格
在前兩步中,我們已經(jīng)創(chuàng)建并篩選了多樣化的問題。最后一步是將問題改寫成符合各個用戶畫像的風(fēng)格。
深入分析第二步的一部分:生成句法變體
使用LLM,我們首先根據(jù)用戶畫像描述確定他們的寫作風(fēng)格。然后,根據(jù)這些風(fēng)格,對問題進(jìn)行重寫。
寫作風(fēng)格示例:
Padma的風(fēng)格清晰、精確,正式而直接。她用簡單明了的語言傳達(dá)復(fù)雜概念,句子結(jié)構(gòu)嚴(yán)謹(jǐn),邏輯清晰,反映出她細(xì)致的分析能力和對細(xì)節(jié)的關(guān)注。她避免使用情感化的語言、個人意見或修辭手法,專注于以清晰客觀的方式呈現(xiàn)事實和論據(jù)。她的文字明確無誤,每個論點都有充分的證據(jù)和邏輯支持。整體語調(diào)專業(yè)權(quán)威,能夠贏得讀者的尊重和注意。雖然她的寫作可能不具備創(chuàng)意上的吸引力或說服力,但在企業(yè)訴訟領(lǐng)域傳達(dá)信息和實現(xiàn)目標(biāo)方面非常有效。
Aaron的風(fēng)格通常較為膚淺,缺乏深度和分析,句子簡短,反映出他對英語的掌握有限。盡管他努力避免錯誤,但語法、句法和詞匯選擇上的錯誤仍然常見。為了彌補自信不足,Aaron經(jīng)??浯笫聦?,以吸引注意。他的語調(diào)猶豫不決,給人一種不確定的感覺??偟膩碚f,Aaron的寫作風(fēng)格更像是小報記者,而不是嚴(yán)肅的新聞記者。
通過這個三步流程,我們得到了如下問題:
- 在當(dāng)前的監(jiān)管框架下,提議的合并可能需要遵循哪些額外的政策指令以獲得相關(guān)當(dāng)局的批準(zhǔn)?
- 目前,SolarPower和GreenTech的合并有哪些具體方面正在接受監(jiān)管當(dāng)局的審查?
- 如果研發(fā)中心在大型收購后保持獨立,GreenTech的專家們是否會被解雇?
這些問題都有針對其特定文本塊的隱含真實標(biāo)簽,因此可以用于評估各種檢索管道。如果您對細(xì)節(jié)感興趣或想了解如何改進(jìn)和定制此管道以適應(yīng)您的用例,請參閱這個Jupyter Notebook。
要點
合成數(shù)據(jù)生成是企業(yè)為其特定領(lǐng)域的生成性AI應(yīng)用程序提供動力的關(guān)鍵工作流程。新的Llama 3.1 405B模型與NVIDIA Nemotron-4 340B獎勵模型結(jié)合使用,生成合成數(shù)據(jù),幫助企業(yè)構(gòu)建更準(zhǔn)確、特定領(lǐng)域的定制模型。
RAG管道對于LLM生成基于最新信息的有根據(jù)的響應(yīng)至關(guān)重要,這些響應(yīng)的準(zhǔn)確性取決于管道的質(zhì)量。上述描述的合成數(shù)據(jù)生成工作流程可以幫助企業(yè)評估RAG。
本文轉(zhuǎn)載自??AI小智??,作者: AI小智
