自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

北大DeepSeek論文或預(yù)定ACL Best Paper!梁文鋒署名

人工智能
北大DeepSeek聯(lián)合發(fā)布的NSA論文,目前已被ACL 2025錄用并獲得了極高評(píng)分,甚至有望沖擊最佳論文獎(jiǎng)。該技術(shù)顛覆傳統(tǒng)注意力機(jī)制,實(shí)現(xiàn)算力效率飛躍,被譽(yù)為長(zhǎng)文本處理的革命性突破。

重磅驚喜!

北大與DeepSeek合作,并由梁文鋒親自提交到arXiv的論文,將有望斬獲ACL 2025最佳論文(ACL Best Paper)。

圖片圖片

論文地址:https://arxiv.org/abs/2502.11089

要知道今年的ACL格外的卷,總投稿數(shù)高達(dá)8000多篇,創(chuàng)歷史之最,而ACL 2024總投稿數(shù)僅為4407,幾乎翻倍!

圖片圖片

原生稀疏注意力(Native Sparse Attention,NSA)論文的Meta Review的OA分?jǐn)?shù)已經(jīng)確認(rèn)得到了4.5分,這是一個(gè)相當(dāng)高的分?jǐn)?shù),滿分為5分。

圖片圖片

圖片圖片

按照ACL的OA評(píng)分標(biāo)準(zhǔn),4.5分已經(jīng)獲得了Borderline Award,也就是說非常有望獲得ACL這屆的最佳論文。

圖片圖片

這篇論文的發(fā)布在當(dāng)時(shí)引起廣泛的社區(qū)關(guān)注,NSA把AI行業(yè)的焦點(diǎn)從「模型規(guī)模競(jìng)賽」拉向「算力效率競(jìng)賽」,堪稱2025年上半年最具杠桿效應(yīng)的底層技術(shù)突破之一。

DeepSeek-R1的發(fā)布引發(fā)了AI行業(yè)的「價(jià)值重估」,DeepSeek用「低成本+同效能」的開源技術(shù)撼動(dòng)了當(dāng)時(shí)AI界人們固有的「有卡才行」的認(rèn)知。

圖片圖片

而NSA技術(shù)進(jìn)一步實(shí)現(xiàn)了「長(zhǎng)下文的算力平權(quán)」,讓開源模型也能達(dá)到閉源模型(ChatGPT、Gemini等)才能滿足的上下文窗口。

NSA將長(zhǎng)文本處理速度提高了最多11倍,該方法結(jié)合了算法創(chuàng)新和改進(jìn)的硬件,提高效率而不用犧牲硬件性能。

NSA的出現(xiàn),是對(duì)傳統(tǒng)注意力機(jī)制的一次革新,傳統(tǒng)模型依賴于全注意力機(jī)制,將每個(gè)Token與其他所有Token進(jìn)行比較。

傳統(tǒng)機(jī)制雖然對(duì)于短篇文本有效,但隨著文本長(zhǎng)度的增加,這一過程會(huì)顯著變慢,并且計(jì)算成本變得非常高。

NSA是DeepSeek-R1「爆火出圈」后的第一篇論文,同時(shí)在NSA發(fā)布一周后,DeepSeek進(jìn)行了更廣為人知的「開源周」活動(dòng)分享。

圖片圖片

硬件對(duì)齊與原生可訓(xùn)練稀疏注意力

為什么要革新傳統(tǒng)的注意力機(jī)制?

長(zhǎng)文本處理能力是新一代語言模型的關(guān)鍵需求,但傳統(tǒng)注意力機(jī)制帶來的巨大計(jì)算開銷一直是一個(gè)棘手的問題。

在這種背景下,稀疏注意力機(jī)制展現(xiàn)出了提升計(jì)算效率同時(shí)又能保持模型性能的巨大潛力。

北大和DeepSeek提出名為NSA的創(chuàng)新性稀疏注意力機(jī)制,它能夠原生支持訓(xùn)練,通過將算法創(chuàng)新與硬件優(yōu)化相結(jié)合,實(shí)現(xiàn)了高效的長(zhǎng)文本處理。

NSA采用了動(dòng)態(tài)分層的稀疏策略:在保證全局信息獲取的同時(shí),還能夠精確捕捉局部細(xì)節(jié),這得益于其巧妙結(jié)合了粗粒度的令牌壓縮和細(xì)粒度的令牌選擇。

NSA架構(gòu)如下圖所示,通過三條并行的注意力分支來處理輸入序列。對(duì)于每一個(gè)查詢(query),前面的鍵(key)和值(value)會(huì)分別被處理成三種不同的注意力方式:

  • 壓縮注意力(Compressed Attention),用于捕捉粗粒度的整體模式;
  • 選擇性注意力(Selected Attention),專注于重要的詞塊;
  • 滑動(dòng)注意力(Sliding Attention),負(fù)責(zé)獲取局部上下文信息。

每條分支所生成的不同注意力模式。圖中的綠色區(qū)域表示需要計(jì)算注意力分?jǐn)?shù)的部分,而白色區(qū)域則是可以跳過、不計(jì)算的區(qū)域。

圖片圖片

NSA的主要?jiǎng)?chuàng)新點(diǎn)有兩個(gè):一是通過精心設(shè)計(jì)的算法平衡了計(jì)算密度,并針對(duì)現(xiàn)代硬件做了專門優(yōu)化,顯著提升了運(yùn)行速度;二是實(shí)現(xiàn)了端到端的訓(xùn)練模式,在確保模型性能的前提下大幅降低了預(yù)訓(xùn)練的計(jì)算量。

如圖1所示,實(shí)驗(yàn)結(jié)果顯示:采用NSA預(yù)訓(xùn)練的模型在通用基準(zhǔn)測(cè)試、長(zhǎng)文本處理和指令推理等多個(gè)任務(wù)上,性能均達(dá)到或超過了使用完整注意力機(jī)制的模型。

此外,在處理64k長(zhǎng)度序列時(shí),無論是decoding、前向傳播還是反向傳播,NSA都展現(xiàn)出了顯著的速度優(yōu)勢(shì),充分證明了它在模型全生命周期中的高效性。

圖片圖片

該論文第一作者為北京大學(xué)計(jì)算機(jī)學(xué)院碩士生袁境陽(北京大學(xué),導(dǎo)師為張銘教授),合作者包括高華佐(DeepSeek),代達(dá)勱(DeepSeek),羅鈞宇(北京大學(xué))、肖之屏(華盛頓大學(xué))等。

通訊作者為梁文鋒(DeepSeek),曾旺?。―eepSeek),張銘教授(北京大學(xué))。

圖片圖片

錄用論文一覽

除了NSA論文外,北京大學(xué)張銘教授團(tuán)隊(duì)的其他論文也同樣上榜。

圖片圖片

數(shù)據(jù)為中心視角下大模型的高效后訓(xùn)練

論文名: A Survey on Efficient LLM Training: From Data-centric Perspectives

這是首個(gè)從數(shù)據(jù)中心視角系統(tǒng)性剖析LLM高效后訓(xùn)練的綜述。

該文創(chuàng)新性地提出了一個(gè)涵蓋數(shù)據(jù)選擇、質(zhì)量增強(qiáng)、合成數(shù)據(jù)生成、數(shù)據(jù)蒸餾與壓縮及自演化數(shù)據(jù)生態(tài)的分類框架,深入總結(jié)了各領(lǐng)域代表性方法并展望未來研究方向,旨在為學(xué)界和業(yè)界探索大規(guī)模模型訓(xùn)練中數(shù)據(jù)利用的最大潛力提供關(guān)鍵啟示。

圖片圖片

該論文作者包含羅鈞宇(北京大學(xué),導(dǎo)師為張銘教授),吳伯涵(北京大學(xué)),羅霄(UCLA),肖之屏(華盛頓大學(xué)),靳軼喬(佐治亞理工),涂榮成(南洋理工大學(xué)),尹楠(HKUST),王一帆(對(duì)外經(jīng)貿(mào)),袁境陽(北京大學(xué)),琚瑋(四川大學(xué)),張銘(北京大學(xué),通訊作者)。

首個(gè)金融多模態(tài)評(píng)估數(shù)據(jù)集FinMME

論文名:FinMME: A Financial Multi-Modal Evaluation Dataset

為應(yīng)對(duì)金融領(lǐng)域多模態(tài)大模型評(píng)估的迫切需求,并提供高質(zhì)量的多模態(tài)推理驗(yàn)證數(shù)據(jù)集。

北京大學(xué)Dlib實(shí)驗(yàn)室聯(lián)合香港科技大學(xué)等重磅推出了首個(gè)大規(guī)模、高質(zhì)量的金融多模態(tài)評(píng)估數(shù)據(jù)集FinMME。

該數(shù)據(jù)集包含超過11,200個(gè)金融研究樣本,覆蓋18個(gè)核心金融領(lǐng)域和10種主要圖表類型,并引入獨(dú)創(chuàng)的FinScore評(píng)估系統(tǒng)。

實(shí)驗(yàn)結(jié)果表明,即便是頂尖模型如GPT-4o在FinMME上也面臨顯著挑戰(zhàn),凸顯了其在衡量金融多模態(tài)理解與推理能力方面的深度與價(jià)值。

圖片圖片

圖片圖片

論文作者包含羅鈞宇(北京大學(xué),導(dǎo)師為張銘教授),寇智卓(HKUST),楊禮銘(北京大學(xué)),羅霄(UCLA),黃進(jìn)晟(北京大學(xué)),肖之屏(華盛頓大學(xué)),彭靖姝(HKUST),劉程中(HKUST),吉嘉銘(HKUST),劉譞哲(北京大學(xué)),韓斯睿(HKUST),張銘(北京大學(xué),通訊作者),郭毅可(HKUST)。

大語言模型中的數(shù)學(xué)推理增強(qiáng)方法

該論文涉及大語言模型中的數(shù)學(xué)推理增強(qiáng)方法。思維鏈(CoT)提示已成為激發(fā)大語言模型(LLM)推理能力的核心方法,但其生成的推理步驟中存在難以檢測(cè)的「幻覺」。

現(xiàn)有的消除大語言模型幻覺的方法如過程獎(jiǎng)勵(lì)模型(Process Reward Model)或自一致性校驗(yàn)如同黑箱操作,難以提供可驗(yàn)證的證據(jù),制約了糾正幻覺的能力。

論文提出一種創(chuàng)新的Safe驗(yàn)證框架。區(qū)別于傳統(tǒng)模糊評(píng)分機(jī)制,Safe創(chuàng)新性地證明驗(yàn)證定理的正確性,從根本上識(shí)別并消除幻覺。實(shí)驗(yàn)表明,本論文提出的Safe驗(yàn)證框架在多個(gè)數(shù)學(xué)模型和數(shù)據(jù)集上實(shí)現(xiàn)顯著性能提升,實(shí)現(xiàn)神經(jīng)符號(hào)系統(tǒng)在數(shù)學(xué)推理中的有機(jī)融合。

本研究回歸了形式數(shù)學(xué)語言的初衷——為人類易錯(cuò)的證明過程提供堅(jiān)實(shí)保障。Safe框架為數(shù)學(xué)教育、代碼生成等高風(fēng)險(xiǎn)領(lǐng)域提供了可驗(yàn)證的推理解決方案。

該論文第一作者為數(shù)據(jù)科學(xué)與工程所博士生劉成武(北京大學(xué),導(dǎo)師為張銘教授),合作者包括袁野(北京大學(xué))、尹伊淳(華為諾亞方舟實(shí)驗(yàn)室)、許妍(華為諾亞方舟實(shí)驗(yàn)室)、許鑫(香港科技大學(xué))、陳造宇(香港理工大學(xué))、尚利峰(華為諾亞方舟實(shí)驗(yàn)室)、劉群(華為諾亞方舟實(shí)驗(yàn)室)、張銘(北京大學(xué),通訊作者)。

基于大語言模型的交通流量預(yù)測(cè)方法

論文名: Embracing Large Language Models in Traffic Flow Forecasting

交通流量預(yù)測(cè)旨在基于歷史交通狀況和路網(wǎng)結(jié)構(gòu),預(yù)測(cè)未來交通流量,這是智能交通系統(tǒng)中的關(guān)鍵問題。

現(xiàn)有方法主要聚焦于捕捉和利用時(shí)空依賴性來進(jìn)行流量預(yù)測(cè),盡管取得了一定進(jìn)展,但在面對(duì)測(cè)試時(shí)交通條件變化時(shí)表現(xiàn)不足。

針對(duì)這一挑戰(zhàn),本文提出了一種基于大語言模型(LLM)的新方法——LEAF (Large Language Model Enhanced Traffic Flow Predictor)。

與以往工作主要使用LLM的生成能力來直接生成未來交通流量序列不同,LEAF使用LLM的判別能力。

具體來說,LEAF采用雙分支結(jié)構(gòu),分別通過圖結(jié)構(gòu)和超圖結(jié)構(gòu)捕捉不同的時(shí)空關(guān)系。兩個(gè)分支在預(yù)訓(xùn)練階段獨(dú)立訓(xùn)練,并在測(cè)試時(shí)生成不同的預(yù)測(cè)結(jié)果。

隨后,利用大語言模型從這些預(yù)測(cè)中選擇最有可能的結(jié)果,并通過排序損失函數(shù)作為學(xué)習(xí)目標(biāo)來增強(qiáng)兩個(gè)分支的預(yù)測(cè)能力。在多個(gè)數(shù)據(jù)集上的廣泛實(shí)驗(yàn)驗(yàn)證了LEAF的有效性,證明其在流量預(yù)測(cè)任務(wù)中能夠更好地適應(yīng)測(cè)試環(huán)境變化。

圖片圖片

該論文第一作者為數(shù)據(jù)科學(xué)與工程所博士生趙禹昇(北京大學(xué),導(dǎo)師為張銘教授),合作者包括羅霄(加州大學(xué)洛杉磯分校)、溫浩珉(卡耐基梅隆大學(xué))、肖之屏(華盛頓大學(xué))、琚瑋(四川大學(xué)),張銘(北京大學(xué),通訊作者)。

作者介紹

袁境陽

圖片圖片

北京大學(xué)計(jì)算機(jī)學(xué)院研究生,導(dǎo)師為張銘教授。

主要研究方向是高效大語言模型和稀疏注意力機(jī)制,曾獲北京市優(yōu)秀畢業(yè)生、北京大學(xué)優(yōu)秀畢業(yè)生等稱號(hào)。

羅鈞宇

圖片圖片

北京大學(xué)計(jì)算機(jī)學(xué)院博士生,導(dǎo)師為張銘教授。

他的研究方向關(guān)注于高效的LLM、LLM后訓(xùn)練、自適應(yīng)學(xué)習(xí)等。

在ICML,CVPR,ACL,TPAMI等頂級(jí)刊物上以第一作者發(fā)表多篇文章。

趙禹昇

圖片圖片

北京大學(xué)計(jì)算機(jī)學(xué)院研究生,導(dǎo)師為張銘教授。

研究方向包括圖神經(jīng)網(wǎng)絡(luò)、時(shí)空預(yù)測(cè)、多模態(tài)等,關(guān)注測(cè)試數(shù)據(jù)的分布偏移問題。

劉成武

圖片圖片

北京大學(xué)計(jì)算機(jī)學(xué)院數(shù)據(jù)科學(xué)與工程所博士生,導(dǎo)師是DLIB實(shí)驗(yàn)室的張銘教授。

他的研究方向是自然語言處理、大語言模型的數(shù)學(xué)推理和自動(dòng)定理證明。

他在北京大學(xué)外國語學(xué)院獲得了文學(xué)學(xué)士學(xué)位,并修讀獲得了信息科學(xué)技術(shù)學(xué)院的計(jì)算機(jī)科學(xué)與技術(shù)雙學(xué)位。

張銘

圖片圖片

北京大學(xué)計(jì)算機(jī)學(xué)院二級(jí)教授,博士生導(dǎo)師,北大-安克大模型算法與應(yīng)用聯(lián)合實(shí)驗(yàn)室主任。2021年CCF杰出教育獎(jiǎng)獲得者。

張銘教授本碩博都畢業(yè)于北京大學(xué)計(jì)算機(jī)系,長(zhǎng)期致力于機(jī)器學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)、知識(shí)圖譜、文本挖掘、語言模型、推薦系統(tǒng)、教育大數(shù)據(jù)、科學(xué)智能等相關(guān)研究。

先后主持國家重點(diǎn)研發(fā)計(jì)劃課題、國家自然科學(xué)基金等前沿項(xiàng)目,發(fā)表科研論文 300 多篇,谷歌學(xué)術(shù)被引用21800余次。合作提出的LINE模型是圖機(jī)器學(xué)習(xí)領(lǐng)域著名的的基準(zhǔn)模型,目前單篇被引用 6700 余次。

獲得了機(jī)器學(xué)習(xí)頂級(jí)會(huì)議ICML 2014唯一的最佳論文獎(jiǎng),以及WWW 2016 最佳論文提名。

在近期利用率僅為20%左右的幾大頂會(huì)中,張銘教授的課題組的中概率都在50%以上。

其中,在ICML 2025中了4篇論文。

圖片圖片

AAAI 2025也是5篇上榜。

圖片圖片

還有ICLR 1篇,KDD 1篇,NAACL 1篇主會(huì) 2篇Finding。

參考資料:

https://luo-junyu.github.io 

https://pkudlib.github.io/

https://mp.weixin.qq.com/s/nvjSyUBR4DBBQgF1e1OwsQ

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-05-16 09:02:00

2025-02-19 09:18:04

2025-02-27 13:10:00

2025-02-19 15:01:09

2025-01-26 08:00:00

模型AI數(shù)據(jù)

2025-03-12 10:36:32

2025-02-27 12:06:45

2024-08-15 13:30:00

2025-02-19 15:47:48

2023-01-15 13:35:54

ChatGPT論文

2010-04-20 19:54:04

Check Point梁國賢

2024-12-04 12:10:40

2025-02-12 08:30:18

2025-02-11 09:29:07

2023-03-23 18:46:19

論文

2017-07-11 08:38:38

TiDB數(shù)據(jù)庫分布式

2023-12-11 13:41:23

2012-09-13 17:48:57

庫克

2020-05-22 23:33:11

騰訊AI人工智能

2025-02-25 14:50:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)