自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="mcebo"><rt id="mcebo"></rt></sup>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

北大DeepSeek論文或預(yù)定ACL Best Paper！梁文鋒署名

作者：新智元 2025-05-19 09:12:16

北大DeepSeek聯(lián)合發(fā)布的NSA論文，目前已被ACL 2025錄用并獲得了極高評(píng)分，甚至有望沖擊最佳論文獎(jiǎng)。該技術(shù)顛覆傳統(tǒng)注意力機(jī)制，實(shí)現(xiàn)算力效率飛躍，被譽(yù)為長(zhǎng)文本處理的革命性突破。

重磅驚喜！

北大與DeepSeek合作，并由梁文鋒親自提交到arXiv的論文，將有望斬獲ACL 2025最佳論文（ACL Best Paper）。

圖片

論文地址：https://arxiv.org/abs/2502.11089

要知道今年的ACL格外的卷，總投稿數(shù)高達(dá)8000多篇，創(chuàng)歷史之最，而ACL 2024總投稿數(shù)僅為4407，幾乎翻倍！

圖片

原生稀疏注意力（Native Sparse Attention，NSA）論文的Meta Review的OA分?jǐn)?shù)已經(jīng)確認(rèn)得到了4.5分，這是一個(gè)相當(dāng)高的分?jǐn)?shù)，滿分為5分。

圖片

圖片

按照ACL的OA評(píng)分標(biāo)準(zhǔn)，4.5分已經(jīng)獲得了Borderline Award，也就是說非常有望獲得ACL這屆的最佳論文。

圖片

這篇論文的發(fā)布在當(dāng)時(shí)引起廣泛的社區(qū)關(guān)注，NSA把AI行業(yè)的焦點(diǎn)從「模型規(guī)模競(jìng)賽」拉向「算力效率競(jìng)賽」，堪稱2025年上半年最具杠桿效應(yīng)的底層技術(shù)突破之一。

DeepSeek-R1的發(fā)布引發(fā)了AI行業(yè)的「價(jià)值重估」，DeepSeek用「低成本+同效能」的開源技術(shù)撼動(dòng)了當(dāng)時(shí)AI界人們固有的「有卡才行」的認(rèn)知。

圖片

而NSA技術(shù)進(jìn)一步實(shí)現(xiàn)了「長(zhǎng)下文的算力平權(quán)」，讓開源模型也能達(dá)到閉源模型（ChatGPT、Gemini等）才能滿足的上下文窗口。

NSA將長(zhǎng)文本處理速度提高了最多11倍，該方法結(jié)合了算法創(chuàng)新和改進(jìn)的硬件，提高效率而不用犧牲硬件性能。

NSA的出現(xiàn)，是對(duì)傳統(tǒng)注意力機(jī)制的一次革新，傳統(tǒng)模型依賴于全注意力機(jī)制，將每個(gè)Token與其他所有Token進(jìn)行比較。

傳統(tǒng)機(jī)制雖然對(duì)于短篇文本有效，但隨著文本長(zhǎng)度的增加，這一過程會(huì)顯著變慢，并且計(jì)算成本變得非常高。

NSA是DeepSeek-R1「爆火出圈」后的第一篇論文，同時(shí)在NSA發(fā)布一周后，DeepSeek進(jìn)行了更廣為人知的「開源周」活動(dòng)分享。

圖片

硬件對(duì)齊與原生可訓(xùn)練稀疏注意力

為什么要革新傳統(tǒng)的注意力機(jī)制？

長(zhǎng)文本處理能力是新一代語言模型的關(guān)鍵需求，但傳統(tǒng)注意力機(jī)制帶來的巨大計(jì)算開銷一直是一個(gè)棘手的問題。

在這種背景下，稀疏注意力機(jī)制展現(xiàn)出了提升計(jì)算效率同時(shí)又能保持模型性能的巨大潛力。

北大和DeepSeek提出名為NSA的創(chuàng)新性稀疏注意力機(jī)制，它能夠原生支持訓(xùn)練，通過將算法創(chuàng)新與硬件優(yōu)化相結(jié)合，實(shí)現(xiàn)了高效的長(zhǎng)文本處理。

NSA采用了動(dòng)態(tài)分層的稀疏策略：在保證全局信息獲取的同時(shí)，還能夠精確捕捉局部細(xì)節(jié)，這得益于其巧妙結(jié)合了粗粒度的令牌壓縮和細(xì)粒度的令牌選擇。

NSA架構(gòu)如下圖所示，通過三條并行的注意力分支來處理輸入序列。對(duì)于每一個(gè)查詢（query），前面的鍵（key）和值（value）會(huì)分別被處理成三種不同的注意力方式：

壓縮注意力（Compressed Attention），用于捕捉粗粒度的整體模式；
選擇性注意力（Selected Attention），專注于重要的詞塊；
滑動(dòng)注意力（Sliding Attention），負(fù)責(zé)獲取局部上下文信息。

每條分支所生成的不同注意力模式。圖中的綠色區(qū)域表示需要計(jì)算注意力分?jǐn)?shù)的部分，而白色區(qū)域則是可以跳過、不計(jì)算的區(qū)域。

圖片

NSA的主要?jiǎng)?chuàng)新點(diǎn)有兩個(gè)：一是通過精心設(shè)計(jì)的算法平衡了計(jì)算密度，并針對(duì)現(xiàn)代硬件做了專門優(yōu)化，顯著提升了運(yùn)行速度；二是實(shí)現(xiàn)了端到端的訓(xùn)練模式，在確保模型性能的前提下大幅降低了預(yù)訓(xùn)練的計(jì)算量。

如圖1所示，實(shí)驗(yàn)結(jié)果顯示：采用NSA預(yù)訓(xùn)練的模型在通用基準(zhǔn)測(cè)試、長(zhǎng)文本處理和指令推理等多個(gè)任務(wù)上，性能均達(dá)到或超過了使用完整注意力機(jī)制的模型。

此外，在處理64k長(zhǎng)度序列時(shí)，無論是decoding、前向傳播還是反向傳播，NSA都展現(xiàn)出了顯著的速度優(yōu)勢(shì)，充分證明了它在模型全生命周期中的高效性。

圖片

該論文第一作者為北京大學(xué)計(jì)算機(jī)學(xué)院碩士生袁境陽（北京大學(xué)，導(dǎo)師為張銘教授），合作者包括高華佐（DeepSeek），代達(dá)勱（DeepSeek），羅鈞宇（北京大學(xué)）、肖之屏（華盛頓大學(xué)）等。

通訊作者為梁文鋒（DeepSeek），曾旺?。―eepSeek），張銘教授（北京大學(xué)）。

圖片

錄用論文一覽

除了NSA論文外，北京大學(xué)張銘教授團(tuán)隊(duì)的其他論文也同樣上榜。

圖片

數(shù)據(jù)為中心視角下大模型的高效后訓(xùn)練

論文名: A Survey on Efficient LLM Training: From Data-centric Perspectives

這是首個(gè)從數(shù)據(jù)中心視角系統(tǒng)性剖析LLM高效后訓(xùn)練的綜述。

該文創(chuàng)新性地提出了一個(gè)涵蓋數(shù)據(jù)選擇、質(zhì)量增強(qiáng)、合成數(shù)據(jù)生成、數(shù)據(jù)蒸餾與壓縮及自演化數(shù)據(jù)生態(tài)的分類框架，深入總結(jié)了各領(lǐng)域代表性方法并展望未來研究方向，旨在為學(xué)界和業(yè)界探索大規(guī)模模型訓(xùn)練中數(shù)據(jù)利用的最大潛力提供關(guān)鍵啟示。

圖片

該論文作者包含羅鈞宇（北京大學(xué)，導(dǎo)師為張銘教授），吳伯涵（北京大學(xué)），羅霄（UCLA），肖之屏（華盛頓大學(xué)），靳軼喬（佐治亞理工），涂榮成（南洋理工大學(xué)），尹楠（HKUST），王一帆（對(duì)外經(jīng)貿(mào)），袁境陽（北京大學(xué)），琚瑋（四川大學(xué)），張銘（北京大學(xué)，通訊作者）。

首個(gè)金融多模態(tài)評(píng)估數(shù)據(jù)集FinMME

論文名：FinMME: A Financial Multi-Modal Evaluation Dataset

為應(yīng)對(duì)金融領(lǐng)域多模態(tài)大模型評(píng)估的迫切需求，并提供高質(zhì)量的多模態(tài)推理驗(yàn)證數(shù)據(jù)集。

北京大學(xué)Dlib實(shí)驗(yàn)室聯(lián)合香港科技大學(xué)等重磅推出了首個(gè)大規(guī)模、高質(zhì)量的金融多模態(tài)評(píng)估數(shù)據(jù)集FinMME。

該數(shù)據(jù)集包含超過11,200個(gè)金融研究樣本，覆蓋18個(gè)核心金融領(lǐng)域和10種主要圖表類型，并引入獨(dú)創(chuàng)的FinScore評(píng)估系統(tǒng)。

實(shí)驗(yàn)結(jié)果表明，即便是頂尖模型如GPT-4o在FinMME上也面臨顯著挑戰(zhàn)，凸顯了其在衡量金融多模態(tài)理解與推理能力方面的深度與價(jià)值。

圖片

圖片

論文作者包含羅鈞宇（北京大學(xué)，導(dǎo)師為張銘教授），寇智卓（HKUST），楊禮銘（北京大學(xué)），羅霄（UCLA），黃進(jìn)晟（北京大學(xué)），肖之屏（華盛頓大學(xué)），彭靖姝（HKUST），劉程中（HKUST），吉嘉銘（HKUST），劉譞哲（北京大學(xué)），韓斯睿（HKUST），張銘（北京大學(xué)，通訊作者），郭毅可（HKUST）。

大語言模型中的數(shù)學(xué)推理增強(qiáng)方法

該論文涉及大語言模型中的數(shù)學(xué)推理增強(qiáng)方法。思維鏈（CoT）提示已成為激發(fā)大語言模型（LLM）推理能力的核心方法，但其生成的推理步驟中存在難以檢測(cè)的「幻覺」。

現(xiàn)有的消除大語言模型幻覺的方法如過程獎(jiǎng)勵(lì)模型（Process Reward Model）或自一致性校驗(yàn)如同黑箱操作，難以提供可驗(yàn)證的證據(jù)，制約了糾正幻覺的能力。

論文提出一種創(chuàng)新的Safe驗(yàn)證框架。區(qū)別于傳統(tǒng)模糊評(píng)分機(jī)制，Safe創(chuàng)新性地證明驗(yàn)證定理的正確性，從根本上識(shí)別并消除幻覺。實(shí)驗(yàn)表明，本論文提出的Safe驗(yàn)證框架在多個(gè)數(shù)學(xué)模型和數(shù)據(jù)集上實(shí)現(xiàn)顯著性能提升，實(shí)現(xiàn)神經(jīng)符號(hào)系統(tǒng)在數(shù)學(xué)推理中的有機(jī)融合。

本研究回歸了形式數(shù)學(xué)語言的初衷——為人類易錯(cuò)的證明過程提供堅(jiān)實(shí)保障。Safe框架為數(shù)學(xué)教育、代碼生成等高風(fēng)險(xiǎn)領(lǐng)域提供了可驗(yàn)證的推理解決方案。

該論文第一作者為數(shù)據(jù)科學(xué)與工程所博士生劉成武（北京大學(xué)，導(dǎo)師為張銘教授），合作者包括袁野（北京大學(xué)）、尹伊淳（華為諾亞方舟實(shí)驗(yàn)室）、許妍（華為諾亞方舟實(shí)驗(yàn)室）、許鑫（香港科技大學(xué)）、陳造宇（香港理工大學(xué)）、尚利峰（華為諾亞方舟實(shí)驗(yàn)室）、劉群（華為諾亞方舟實(shí)驗(yàn)室）、張銘（北京大學(xué)，通訊作者）。

基于大語言模型的交通流量預(yù)測(cè)方法

論文名: Embracing Large Language Models in Traffic Flow Forecasting

交通流量預(yù)測(cè)旨在基于歷史交通狀況和路網(wǎng)結(jié)構(gòu)，預(yù)測(cè)未來交通流量，這是智能交通系統(tǒng)中的關(guān)鍵問題。

現(xiàn)有方法主要聚焦于捕捉和利用時(shí)空依賴性來進(jìn)行流量預(yù)測(cè)，盡管取得了一定進(jìn)展，但在面對(duì)測(cè)試時(shí)交通條件變化時(shí)表現(xiàn)不足。

針對(duì)這一挑戰(zhàn)，本文提出了一種基于大語言模型（LLM）的新方法——LEAF (Large Language Model Enhanced Traffic Flow Predictor)。

與以往工作主要使用LLM的生成能力來直接生成未來交通流量序列不同，LEAF使用LLM的判別能力。

具體來說，LEAF采用雙分支結(jié)構(gòu)，分別通過圖結(jié)構(gòu)和超圖結(jié)構(gòu)捕捉不同的時(shí)空關(guān)系。兩個(gè)分支在預(yù)訓(xùn)練階段獨(dú)立訓(xùn)練，并在測(cè)試時(shí)生成不同的預(yù)測(cè)結(jié)果。

隨后，利用大語言模型從這些預(yù)測(cè)中選擇最有可能的結(jié)果，并通過排序損失函數(shù)作為學(xué)習(xí)目標(biāo)來增強(qiáng)兩個(gè)分支的預(yù)測(cè)能力。在多個(gè)數(shù)據(jù)集上的廣泛實(shí)驗(yàn)驗(yàn)證了LEAF的有效性，證明其在流量預(yù)測(cè)任務(wù)中能夠更好地適應(yīng)測(cè)試環(huán)境變化。

圖片

該論文第一作者為數(shù)據(jù)科學(xué)與工程所博士生趙禹昇（北京大學(xué)，導(dǎo)師為張銘教授），合作者包括羅霄（加州大學(xué)洛杉磯分校）、溫浩珉（卡耐基梅隆大學(xué)）、肖之屏（華盛頓大學(xué)）、琚瑋（四川大學(xué)），張銘（北京大學(xué)，通訊作者）。

作者介紹

袁境陽

圖片

北京大學(xué)計(jì)算機(jī)學(xué)院研究生，導(dǎo)師為張銘教授。

主要研究方向是高效大語言模型和稀疏注意力機(jī)制，曾獲北京市優(yōu)秀畢業(yè)生、北京大學(xué)優(yōu)秀畢業(yè)生等稱號(hào)。

羅鈞宇

圖片

北京大學(xué)計(jì)算機(jī)學(xué)院博士生，導(dǎo)師為張銘教授。

他的研究方向關(guān)注于高效的LLM、LLM后訓(xùn)練、自適應(yīng)學(xué)習(xí)等。

在ICML，CVPR，ACL，TPAMI等頂級(jí)刊物上以第一作者發(fā)表多篇文章。

趙禹昇

圖片

北京大學(xué)計(jì)算機(jī)學(xué)院研究生，導(dǎo)師為張銘教授。

研究方向包括圖神經(jīng)網(wǎng)絡(luò)、時(shí)空預(yù)測(cè)、多模態(tài)等，關(guān)注測(cè)試數(shù)據(jù)的分布偏移問題。

劉成武

圖片

北京大學(xué)計(jì)算機(jī)學(xué)院數(shù)據(jù)科學(xué)與工程所博士生，導(dǎo)師是DLIB實(shí)驗(yàn)室的張銘教授。

他的研究方向是自然語言處理、大語言模型的數(shù)學(xué)推理和自動(dòng)定理證明。

他在北京大學(xué)外國語學(xué)院獲得了文學(xué)學(xué)士學(xué)位，并修讀獲得了信息科學(xué)技術(shù)學(xué)院的計(jì)算機(jī)科學(xué)與技術(shù)雙學(xué)位。

張銘

圖片

北京大學(xué)計(jì)算機(jī)學(xué)院二級(jí)教授，博士生導(dǎo)師，北大-安克大模型算法與應(yīng)用聯(lián)合實(shí)驗(yàn)室主任。2021年CCF杰出教育獎(jiǎng)獲得者。

張銘教授本碩博都畢業(yè)于北京大學(xué)計(jì)算機(jī)系，長(zhǎng)期致力于機(jī)器學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)、知識(shí)圖譜、文本挖掘、語言模型、推薦系統(tǒng)、教育大數(shù)據(jù)、科學(xué)智能等相關(guān)研究。

先后主持國家重點(diǎn)研發(fā)計(jì)劃課題、國家自然科學(xué)基金等前沿項(xiàng)目，發(fā)表科研論文 300 多篇，谷歌學(xué)術(shù)被引用21800余次。合作提出的LINE模型是圖機(jī)器學(xué)習(xí)領(lǐng)域著名的的基準(zhǔn)模型，目前單篇被引用 6700 余次。

獲得了機(jī)器學(xué)習(xí)頂級(jí)會(huì)議ICML 2014唯一的最佳論文獎(jiǎng)，以及WWW 2016 最佳論文提名。

在近期利用率僅為20%左右的幾大頂會(huì)中，張銘教授的課題組的中概率都在50%以上。

其中，在ICML 2025中了4篇論文。

圖片

AAAI 2025也是5篇上榜。

圖片

還有ICLR 1篇，KDD 1篇，NAACL 1篇主會(huì) 2篇Finding。

參考資料：

https://luo-junyu.github.io

https://pkudlib.github.io/

https://mp.weixin.qq.com/s/nvjSyUBR4DBBQgF1e1OwsQ

責(zé)任編輯：武曉燕來源：新智元

DeepSeek NSA ACL

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="asngs"></sub>