北大DeepSeek論文或預(yù)定ACL Best Paper!梁文鋒署名
重磅驚喜!
北大與DeepSeek合作,并由梁文鋒親自提交到arXiv的論文,將有望斬獲ACL 2025最佳論文(ACL Best Paper)。
圖片
論文地址:https://arxiv.org/abs/2502.11089
要知道今年的ACL格外的卷,總投稿數(shù)高達(dá)8000多篇,創(chuàng)歷史之最,而ACL 2024總投稿數(shù)僅為4407,幾乎翻倍!
圖片
原生稀疏注意力(Native Sparse Attention,NSA)論文的Meta Review的OA分?jǐn)?shù)已經(jīng)確認(rèn)得到了4.5分,這是一個(gè)相當(dāng)高的分?jǐn)?shù),滿分為5分。
圖片
圖片
按照ACL的OA評(píng)分標(biāo)準(zhǔn),4.5分已經(jīng)獲得了Borderline Award,也就是說非常有望獲得ACL這屆的最佳論文。
圖片
這篇論文的發(fā)布在當(dāng)時(shí)引起廣泛的社區(qū)關(guān)注,NSA把AI行業(yè)的焦點(diǎn)從「模型規(guī)模競(jìng)賽」拉向「算力效率競(jìng)賽」,堪稱2025年上半年最具杠桿效應(yīng)的底層技術(shù)突破之一。
DeepSeek-R1的發(fā)布引發(fā)了AI行業(yè)的「價(jià)值重估」,DeepSeek用「低成本+同效能」的開源技術(shù)撼動(dòng)了當(dāng)時(shí)AI界人們固有的「有卡才行」的認(rèn)知。
圖片
而NSA技術(shù)進(jìn)一步實(shí)現(xiàn)了「長(zhǎng)下文的算力平權(quán)」,讓開源模型也能達(dá)到閉源模型(ChatGPT、Gemini等)才能滿足的上下文窗口。
NSA將長(zhǎng)文本處理速度提高了最多11倍,該方法結(jié)合了算法創(chuàng)新和改進(jìn)的硬件,提高效率而不用犧牲硬件性能。
NSA的出現(xiàn),是對(duì)傳統(tǒng)注意力機(jī)制的一次革新,傳統(tǒng)模型依賴于全注意力機(jī)制,將每個(gè)Token與其他所有Token進(jìn)行比較。
傳統(tǒng)機(jī)制雖然對(duì)于短篇文本有效,但隨著文本長(zhǎng)度的增加,這一過程會(huì)顯著變慢,并且計(jì)算成本變得非常高。
NSA是DeepSeek-R1「爆火出圈」后的第一篇論文,同時(shí)在NSA發(fā)布一周后,DeepSeek進(jìn)行了更廣為人知的「開源周」活動(dòng)分享。
圖片
硬件對(duì)齊與原生可訓(xùn)練稀疏注意力
為什么要革新傳統(tǒng)的注意力機(jī)制?
長(zhǎng)文本處理能力是新一代語言模型的關(guān)鍵需求,但傳統(tǒng)注意力機(jī)制帶來的巨大計(jì)算開銷一直是一個(gè)棘手的問題。
在這種背景下,稀疏注意力機(jī)制展現(xiàn)出了提升計(jì)算效率同時(shí)又能保持模型性能的巨大潛力。
北大和DeepSeek提出名為NSA的創(chuàng)新性稀疏注意力機(jī)制,它能夠原生支持訓(xùn)練,通過將算法創(chuàng)新與硬件優(yōu)化相結(jié)合,實(shí)現(xiàn)了高效的長(zhǎng)文本處理。
NSA采用了動(dòng)態(tài)分層的稀疏策略:在保證全局信息獲取的同時(shí),還能夠精確捕捉局部細(xì)節(jié),這得益于其巧妙結(jié)合了粗粒度的令牌壓縮和細(xì)粒度的令牌選擇。
NSA架構(gòu)如下圖所示,通過三條并行的注意力分支來處理輸入序列。對(duì)于每一個(gè)查詢(query),前面的鍵(key)和值(value)會(huì)分別被處理成三種不同的注意力方式:
- 壓縮注意力(Compressed Attention),用于捕捉粗粒度的整體模式;
- 選擇性注意力(Selected Attention),專注于重要的詞塊;
- 滑動(dòng)注意力(Sliding Attention),負(fù)責(zé)獲取局部上下文信息。
每條分支所生成的不同注意力模式。圖中的綠色區(qū)域表示需要計(jì)算注意力分?jǐn)?shù)的部分,而白色區(qū)域則是可以跳過、不計(jì)算的區(qū)域。
圖片
NSA的主要?jiǎng)?chuàng)新點(diǎn)有兩個(gè):一是通過精心設(shè)計(jì)的算法平衡了計(jì)算密度,并針對(duì)現(xiàn)代硬件做了專門優(yōu)化,顯著提升了運(yùn)行速度;二是實(shí)現(xiàn)了端到端的訓(xùn)練模式,在確保模型性能的前提下大幅降低了預(yù)訓(xùn)練的計(jì)算量。
如圖1所示,實(shí)驗(yàn)結(jié)果顯示:采用NSA預(yù)訓(xùn)練的模型在通用基準(zhǔn)測(cè)試、長(zhǎng)文本處理和指令推理等多個(gè)任務(wù)上,性能均達(dá)到或超過了使用完整注意力機(jī)制的模型。
此外,在處理64k長(zhǎng)度序列時(shí),無論是decoding、前向傳播還是反向傳播,NSA都展現(xiàn)出了顯著的速度優(yōu)勢(shì),充分證明了它在模型全生命周期中的高效性。
圖片
該論文第一作者為北京大學(xué)計(jì)算機(jī)學(xué)院碩士生袁境陽(北京大學(xué),導(dǎo)師為張銘教授),合作者包括高華佐(DeepSeek),代達(dá)勱(DeepSeek),羅鈞宇(北京大學(xué))、肖之屏(華盛頓大學(xué))等。
通訊作者為梁文鋒(DeepSeek),曾旺?。―eepSeek),張銘教授(北京大學(xué))。
圖片
錄用論文一覽
除了NSA論文外,北京大學(xué)張銘教授團(tuán)隊(duì)的其他論文也同樣上榜。
圖片
數(shù)據(jù)為中心視角下大模型的高效后訓(xùn)練
論文名: A Survey on Efficient LLM Training: From Data-centric Perspectives
這是首個(gè)從數(shù)據(jù)中心視角系統(tǒng)性剖析LLM高效后訓(xùn)練的綜述。
該文創(chuàng)新性地提出了一個(gè)涵蓋數(shù)據(jù)選擇、質(zhì)量增強(qiáng)、合成數(shù)據(jù)生成、數(shù)據(jù)蒸餾與壓縮及自演化數(shù)據(jù)生態(tài)的分類框架,深入總結(jié)了各領(lǐng)域代表性方法并展望未來研究方向,旨在為學(xué)界和業(yè)界探索大規(guī)模模型訓(xùn)練中數(shù)據(jù)利用的最大潛力提供關(guān)鍵啟示。
圖片
該論文作者包含羅鈞宇(北京大學(xué),導(dǎo)師為張銘教授),吳伯涵(北京大學(xué)),羅霄(UCLA),肖之屏(華盛頓大學(xué)),靳軼喬(佐治亞理工),涂榮成(南洋理工大學(xué)),尹楠(HKUST),王一帆(對(duì)外經(jīng)貿(mào)),袁境陽(北京大學(xué)),琚瑋(四川大學(xué)),張銘(北京大學(xué),通訊作者)。
首個(gè)金融多模態(tài)評(píng)估數(shù)據(jù)集FinMME
論文名:FinMME: A Financial Multi-Modal Evaluation Dataset
為應(yīng)對(duì)金融領(lǐng)域多模態(tài)大模型評(píng)估的迫切需求,并提供高質(zhì)量的多模態(tài)推理驗(yàn)證數(shù)據(jù)集。
北京大學(xué)Dlib實(shí)驗(yàn)室聯(lián)合香港科技大學(xué)等重磅推出了首個(gè)大規(guī)模、高質(zhì)量的金融多模態(tài)評(píng)估數(shù)據(jù)集FinMME。
該數(shù)據(jù)集包含超過11,200個(gè)金融研究樣本,覆蓋18個(gè)核心金融領(lǐng)域和10種主要圖表類型,并引入獨(dú)創(chuàng)的FinScore評(píng)估系統(tǒng)。
實(shí)驗(yàn)結(jié)果表明,即便是頂尖模型如GPT-4o在FinMME上也面臨顯著挑戰(zhàn),凸顯了其在衡量金融多模態(tài)理解與推理能力方面的深度與價(jià)值。
圖片
圖片
論文作者包含羅鈞宇(北京大學(xué),導(dǎo)師為張銘教授),寇智卓(HKUST),楊禮銘(北京大學(xué)),羅霄(UCLA),黃進(jìn)晟(北京大學(xué)),肖之屏(華盛頓大學(xué)),彭靖姝(HKUST),劉程中(HKUST),吉嘉銘(HKUST),劉譞哲(北京大學(xué)),韓斯睿(HKUST),張銘(北京大學(xué),通訊作者),郭毅可(HKUST)。
大語言模型中的數(shù)學(xué)推理增強(qiáng)方法
該論文涉及大語言模型中的數(shù)學(xué)推理增強(qiáng)方法。思維鏈(CoT)提示已成為激發(fā)大語言模型(LLM)推理能力的核心方法,但其生成的推理步驟中存在難以檢測(cè)的「幻覺」。
現(xiàn)有的消除大語言模型幻覺的方法如過程獎(jiǎng)勵(lì)模型(Process Reward Model)或自一致性校驗(yàn)如同黑箱操作,難以提供可驗(yàn)證的證據(jù),制約了糾正幻覺的能力。
論文提出一種創(chuàng)新的Safe驗(yàn)證框架。區(qū)別于傳統(tǒng)模糊評(píng)分機(jī)制,Safe創(chuàng)新性地證明驗(yàn)證定理的正確性,從根本上識(shí)別并消除幻覺。實(shí)驗(yàn)表明,本論文提出的Safe驗(yàn)證框架在多個(gè)數(shù)學(xué)模型和數(shù)據(jù)集上實(shí)現(xiàn)顯著性能提升,實(shí)現(xiàn)神經(jīng)符號(hào)系統(tǒng)在數(shù)學(xué)推理中的有機(jī)融合。
本研究回歸了形式數(shù)學(xué)語言的初衷——為人類易錯(cuò)的證明過程提供堅(jiān)實(shí)保障。Safe框架為數(shù)學(xué)教育、代碼生成等高風(fēng)險(xiǎn)領(lǐng)域提供了可驗(yàn)證的推理解決方案。
該論文第一作者為數(shù)據(jù)科學(xué)與工程所博士生劉成武(北京大學(xué),導(dǎo)師為張銘教授),合作者包括袁野(北京大學(xué))、尹伊淳(華為諾亞方舟實(shí)驗(yàn)室)、許妍(華為諾亞方舟實(shí)驗(yàn)室)、許鑫(香港科技大學(xué))、陳造宇(香港理工大學(xué))、尚利峰(華為諾亞方舟實(shí)驗(yàn)室)、劉群(華為諾亞方舟實(shí)驗(yàn)室)、張銘(北京大學(xué),通訊作者)。
基于大語言模型的交通流量預(yù)測(cè)方法
論文名: Embracing Large Language Models in Traffic Flow Forecasting
交通流量預(yù)測(cè)旨在基于歷史交通狀況和路網(wǎng)結(jié)構(gòu),預(yù)測(cè)未來交通流量,這是智能交通系統(tǒng)中的關(guān)鍵問題。
現(xiàn)有方法主要聚焦于捕捉和利用時(shí)空依賴性來進(jìn)行流量預(yù)測(cè),盡管取得了一定進(jìn)展,但在面對(duì)測(cè)試時(shí)交通條件變化時(shí)表現(xiàn)不足。
針對(duì)這一挑戰(zhàn),本文提出了一種基于大語言模型(LLM)的新方法——LEAF (Large Language Model Enhanced Traffic Flow Predictor)。
與以往工作主要使用LLM的生成能力來直接生成未來交通流量序列不同,LEAF使用LLM的判別能力。
具體來說,LEAF采用雙分支結(jié)構(gòu),分別通過圖結(jié)構(gòu)和超圖結(jié)構(gòu)捕捉不同的時(shí)空關(guān)系。兩個(gè)分支在預(yù)訓(xùn)練階段獨(dú)立訓(xùn)練,并在測(cè)試時(shí)生成不同的預(yù)測(cè)結(jié)果。
隨后,利用大語言模型從這些預(yù)測(cè)中選擇最有可能的結(jié)果,并通過排序損失函數(shù)作為學(xué)習(xí)目標(biāo)來增強(qiáng)兩個(gè)分支的預(yù)測(cè)能力。在多個(gè)數(shù)據(jù)集上的廣泛實(shí)驗(yàn)驗(yàn)證了LEAF的有效性,證明其在流量預(yù)測(cè)任務(wù)中能夠更好地適應(yīng)測(cè)試環(huán)境變化。
圖片
該論文第一作者為數(shù)據(jù)科學(xué)與工程所博士生趙禹昇(北京大學(xué),導(dǎo)師為張銘教授),合作者包括羅霄(加州大學(xué)洛杉磯分校)、溫浩珉(卡耐基梅隆大學(xué))、肖之屏(華盛頓大學(xué))、琚瑋(四川大學(xué)),張銘(北京大學(xué),通訊作者)。
作者介紹
袁境陽
圖片
北京大學(xué)計(jì)算機(jī)學(xué)院研究生,導(dǎo)師為張銘教授。
主要研究方向是高效大語言模型和稀疏注意力機(jī)制,曾獲北京市優(yōu)秀畢業(yè)生、北京大學(xué)優(yōu)秀畢業(yè)生等稱號(hào)。
羅鈞宇
圖片
北京大學(xué)計(jì)算機(jī)學(xué)院博士生,導(dǎo)師為張銘教授。
他的研究方向關(guān)注于高效的LLM、LLM后訓(xùn)練、自適應(yīng)學(xué)習(xí)等。
在ICML,CVPR,ACL,TPAMI等頂級(jí)刊物上以第一作者發(fā)表多篇文章。
趙禹昇
圖片
北京大學(xué)計(jì)算機(jī)學(xué)院研究生,導(dǎo)師為張銘教授。
研究方向包括圖神經(jīng)網(wǎng)絡(luò)、時(shí)空預(yù)測(cè)、多模態(tài)等,關(guān)注測(cè)試數(shù)據(jù)的分布偏移問題。
劉成武
圖片
北京大學(xué)計(jì)算機(jī)學(xué)院數(shù)據(jù)科學(xué)與工程所博士生,導(dǎo)師是DLIB實(shí)驗(yàn)室的張銘教授。
他的研究方向是自然語言處理、大語言模型的數(shù)學(xué)推理和自動(dòng)定理證明。
他在北京大學(xué)外國語學(xué)院獲得了文學(xué)學(xué)士學(xué)位,并修讀獲得了信息科學(xué)技術(shù)學(xué)院的計(jì)算機(jī)科學(xué)與技術(shù)雙學(xué)位。
張銘
圖片
北京大學(xué)計(jì)算機(jī)學(xué)院二級(jí)教授,博士生導(dǎo)師,北大-安克大模型算法與應(yīng)用聯(lián)合實(shí)驗(yàn)室主任。2021年CCF杰出教育獎(jiǎng)獲得者。
張銘教授本碩博都畢業(yè)于北京大學(xué)計(jì)算機(jī)系,長(zhǎng)期致力于機(jī)器學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)、知識(shí)圖譜、文本挖掘、語言模型、推薦系統(tǒng)、教育大數(shù)據(jù)、科學(xué)智能等相關(guān)研究。
先后主持國家重點(diǎn)研發(fā)計(jì)劃課題、國家自然科學(xué)基金等前沿項(xiàng)目,發(fā)表科研論文 300 多篇,谷歌學(xué)術(shù)被引用21800余次。合作提出的LINE模型是圖機(jī)器學(xué)習(xí)領(lǐng)域著名的的基準(zhǔn)模型,目前單篇被引用 6700 余次。
獲得了機(jī)器學(xué)習(xí)頂級(jí)會(huì)議ICML 2014唯一的最佳論文獎(jiǎng),以及WWW 2016 最佳論文提名。
在近期利用率僅為20%左右的幾大頂會(huì)中,張銘教授的課題組的中概率都在50%以上。
其中,在ICML 2025中了4篇論文。
圖片
AAAI 2025也是5篇上榜。
圖片
還有ICLR 1篇,KDD 1篇,NAACL 1篇主會(huì) 2篇Finding。
參考資料: