LLM合集:Meta推出PGraphRAG框架,異構(gòu)圖關(guān)系助力個(gè)性化RAG突破界限
1. Personalized Graph-Based Retrieval for Large Language Models
隨著大語言模型(LLMs)的演進(jìn),它們提供個(gè)性化和上下文相關(guān)響應(yīng)的能力具有改變用戶體驗(yàn)的潛力。然而,現(xiàn)有的個(gè)性化方法通常僅依賴用戶歷史來增強(qiáng)提示,這在冷啟動(dòng)場景或數(shù)據(jù)稀疏的情況下限制了其有效性。為了克服這些限制,我們提出了一種基于圖的個(gè)性化檢索增強(qiáng)生成(PGraphRAG)框架,該框架利用用戶中心的知識(shí)圖來豐富個(gè)性化。通過直接將結(jié)構(gòu)化的用戶知識(shí)融入檢索過程,并用相關(guān)用戶上下文增強(qiáng)提示,PGraphRAG增強(qiáng)了上下文理解和輸出質(zhì)量。我們還提出了基于圖的個(gè)性化文本生成基準(zhǔn),旨在評(píng)估在用戶歷史稀疏或不可用的現(xiàn)實(shí)場景中的個(gè)性化文本生成任務(wù)。實(shí)驗(yàn)結(jié)果表明,PGraphRAG在多種任務(wù)中顯著優(yōu)于當(dāng)前最先進(jìn)的個(gè)性化方法,展示了基于圖的檢索在個(gè)性化方面的獨(dú)特優(yōu)勢。
論文: ??https://arxiv.org/pdf/2501.02157??
2. BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
大語言模型(LLMs)通過分而治之的pipeline,并借助上下文學(xué)習(xí)(ICL)示例,在解決復(fù)雜數(shù)學(xué)問題方面表現(xiàn)出有前景的性能。然而,它們的改進(jìn)潛力受到ICL示例中兩個(gè)關(guān)鍵問題的限制:粒度不匹配和隨之而來的負(fù)面效果噪聲問題。具體而言,大語言模型能夠進(jìn)行分割過程,但在幾個(gè)征服步驟中大多由于推理不準(zhǔn)確而失敗,而問題粒度的ICL示例有時(shí)缺乏針對(duì)特定挑戰(zhàn)性推理步驟的相關(guān)步驟。進(jìn)一步,這種斷開可能由于不相關(guān)性而阻礙正確的推理。為此,我們專注于提高每一步的推理質(zhì)量,并提出了BoostStep。BoostStep在每一步的檢索和推理之間對(duì)齊粒度,并為每一步提供高度相關(guān)的ICL示例,采用一種新的“首次嘗試”策略。BoostStep提供的相關(guān)示例多于粗略的問題粒度策略,逐步提高模型在每一步的推理質(zhì)量。BoostStep是一種通用且穩(wěn)健的推理增強(qiáng)方法,不僅提高了獨(dú)立推理性能,還能無縫集成到蒙特卡洛樹搜索方法(MCTS)中,以細(xì)化候選生成和決策。定量上,BoostStep分別將GPT-4o和Qwen2.5-Math-72B在各種數(shù)學(xué)基準(zhǔn)上的性能提高了3.6%和2.0%,并與MCTS結(jié)合使用時(shí),性能提高了7.5%。
論文: ??https://arxiv.org/pdf/2501.03226??
3. Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
與視頻LLMs的主動(dòng)實(shí)時(shí)交互帶來了新的人機(jī)交互范式,其中模型不僅能夠理解用戶意圖,還能在實(shí)時(shí)處理流式視頻內(nèi)容的同時(shí)做出響應(yīng)。與先分析整個(gè)視頻的離線視頻LLMs不同,主動(dòng)實(shí)時(shí)交互需要三種能力:1)感知:實(shí)時(shí)監(jiān)控視頻并捕獲交互。2)決策:在適當(dāng)情況下主動(dòng)發(fā)起交互。3)反應(yīng):持續(xù)與用戶交互。然而,這些期望的能力之間存在固有的沖突。決策和反應(yīng)需要相反的感知規(guī)模和粒度,而自回歸解碼在反應(yīng)期間阻斷了實(shí)時(shí)感知和決策。為了在一個(gè)和諧的系統(tǒng)中統(tǒng)一這些沖突的能力,我們提出了Dispider系統(tǒng),該系統(tǒng)解耦了感知、決策和反應(yīng)。Dispider配備了一個(gè)輕量級(jí)的主動(dòng)流式視頻處理模塊,用于跟蹤視頻流并識(shí)別最佳交互時(shí)刻。一旦觸發(fā)交互,異步交互模塊將提供詳細(xì)的響應(yīng),同時(shí)處理模塊繼續(xù)監(jiān)控視頻。我們的解耦和異步設(shè)計(jì)確保了及時(shí)、上下文相關(guān)且計(jì)算效率高的響應(yīng),使Dispider非常適合長時(shí)視頻流的主動(dòng)實(shí)時(shí)交互。實(shí)驗(yàn)表明,Dispider不僅在常規(guī)視頻問答任務(wù)中保持了強(qiáng)大的性能,還在流式場景響應(yīng)中顯著超越了先前的在線模型,從而驗(yàn)證了我們架構(gòu)的有效性。代碼和模型已發(fā)布在https://github.com/Mark12Ding/Dispider。
論文: ??https://arxiv.org/pdf/2501.03218??
4. GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking
4D視頻控制對(duì)于視頻生成是必不可少的,因?yàn)樗故褂脧?fù)雜的鏡頭技巧(如多機(jī)位拍攝和變焦)成為可能,而這些技巧目前現(xiàn)有的方法尚無法支持。直接訓(xùn)練一個(gè)視頻擴(kuò)散transformer(DiT)來控制4D內(nèi)容需要昂貴的多視角視頻。受到單目動(dòng)態(tài)新穎視圖合成(MDVS)的啟發(fā),該方法優(yōu)化4D表示并根據(jù)不同的4D元素(如相機(jī)姿態(tài)和物體運(yùn)動(dòng)編輯)渲染視頻,我們提出了偽4D高斯場到視頻生成中。具體地,我們提出了一種新的框架,該框架使用密集的3D點(diǎn)跟蹤技術(shù)構(gòu)建偽4D高斯場,并為所有視頻幀渲染高斯場。然后,我們微調(diào)預(yù)訓(xùn)練的DiT以生成遵循渲染視頻指導(dǎo)的視頻,稱為GS-DiT。為了提高GS-DiT的訓(xùn)練效率,我們還提出了一種高效的偽4D高斯場構(gòu)建方法——密集3D點(diǎn)跟蹤(D3D-PT)。我們的D3D-PT在準(zhǔn)確性和推理速度上均優(yōu)于當(dāng)前最先進(jìn)的稀疏3D點(diǎn)跟蹤方法SpatialTracker,加速推理速度兩個(gè)數(shù)量級(jí)。在推理階段,GS-DiT可以在遵循不同相機(jī)參數(shù)的同時(shí)生成具有相同動(dòng)態(tài)內(nèi)容的視頻,解決了當(dāng)前視頻生成模型的一個(gè)重要局限性。
論文: ???https://arxiv.org/pdf/2501.02690??
本文轉(zhuǎn)載自??AI-PaperDaily??,作者: AI-PaperDaily ????
