自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全球首次!2B復(fù)現(xiàn)DeepSeek-R1「啊哈時(shí)刻」,UCLA等用純RL實(shí)現(xiàn)多模態(tài)推理

人工智能
由UCLA等機(jī)構(gòu)共同組建的研究團(tuán)隊(duì),全球首次在20億參數(shù)非SFT模型上,成功實(shí)現(xiàn)了多模態(tài)推理的DeepSeek-R1「啊哈時(shí)刻」!

就在剛剛,我們在未經(jīng)監(jiān)督微調(diào)的2B模型上,見證了基于DeepSeek-R1-Zero方法的視覺推理「啊哈時(shí)刻」!

這一成就,再次讓AI社區(qū)轟動(dòng)。

圖片圖片

博客地址:https://turningpointai.notion.site/the-multimodal-aha-moment-on-2b-model

開源項(xiàng)目:https://github.com/turningpoint-ai/VisualThinker-R1-Zero

DeepSeek-R1的獨(dú)特推理能力,能成功擴(kuò)展到多模態(tài)推理領(lǐng)域嗎?

UCLA等機(jī)構(gòu)的研究者發(fā)現(xiàn),雖然目前已經(jīng)涌現(xiàn)出許多試圖復(fù)現(xiàn)DeepSeek-R1的研究,然而這些研究大多遭遇了這個(gè)難點(diǎn):很難復(fù)現(xiàn)出R1所表現(xiàn)出的回答長度增加和思考模式。

幸運(yùn)的是,他們成功了!如同DeepSeek-R1論文所描述的那樣,多模態(tài)的「啊哈時(shí)刻」出現(xiàn)了——模型回答中涌現(xiàn)出了自我反思能力。

他們不僅成為全球首個(gè)成功在多模態(tài)推理中產(chǎn)生了「啊哈時(shí)刻」涌現(xiàn)現(xiàn)象和回答長度增加的團(tuán)隊(duì),而且僅僅使用了一個(gè)未經(jīng)監(jiān)督微調(diào)的2B模型。

此外他們還發(fā)現(xiàn):更長的推理過程可以讓以視覺為中心的任務(wù)極大受益。

圖片圖片

圖1:VisualThinker-R1-Zero在Qwen2-VL基礎(chǔ)模型上的訓(xùn)練動(dòng)態(tài)變化

最初,研究者觀察到了回答長度下降,因?yàn)榛A(chǔ)模型傾向于生成HTML代碼。通過強(qiáng)化學(xué)習(xí),這種行為很快被抑制,隨后回答長度開始規(guī)律地增加。之后,多模態(tài)的「啊哈時(shí)刻」出現(xiàn)了。隨后,回答長度和基準(zhǔn)準(zhǔn)確率之間展現(xiàn)出一致的正相關(guān)關(guān)系。

具體來說,研究者從從Qwen2-VL-2B基礎(chǔ)模型開始,直接在SAT數(shù)據(jù)集上進(jìn)行強(qiáng)化學(xué)習(xí)。

沒有任何SFT的情況下,模型就在CVBench上達(dá)到了59.47%的準(zhǔn)確率,比基礎(chǔ)模型高出約30%,比經(jīng)過SFT的模型高出約2%。甚至,這個(gè)模型大幅超越了指令微調(diào)模型,而后者的訓(xùn)練數(shù)據(jù)明顯更多。

現(xiàn)在,研究者已經(jīng)在GitHub上開源了訓(xùn)練代碼和關(guān)于回答長度的發(fā)研究發(fā)現(xiàn),希望能加速AI社區(qū)未來對(duì)多模態(tài)推理的研究。

DeepSeek-R1的關(guān)鍵特征

DeepSeek-R1已經(jīng)證明,強(qiáng)化學(xué)習(xí)可以在沒有任何監(jiān)督推理數(shù)據(jù)的情況下增強(qiáng)模型的推理能力。

這種成功背后,究竟包含著哪些關(guān)鍵特征?

研究者認(rèn)真總結(jié)了這些特征,與自己的模型和其他多模態(tài)復(fù)現(xiàn)模型進(jìn)行了比較。

在此過程中,他們格外強(qiáng)調(diào)兩種顯著的現(xiàn)象:「啊哈時(shí)刻」和響應(yīng)長度的持續(xù)增長。

前者指的是模型在訓(xùn)練過程中,開始自主開發(fā)高級(jí)問題解決策略;后者則表明,模型在訓(xùn)練過程中自然學(xué)會(huì)了利用更長的思考時(shí)間來解決推理任務(wù)。

總之,如果復(fù)現(xiàn)模型并未展現(xiàn)出DeepSeek-R1的這些關(guān)鍵特征,那是否成功復(fù)現(xiàn),就值得存疑。

DeepSeek-R1與多模態(tài)復(fù)現(xiàn)模型的比較DeepSeek-R1與多模態(tài)復(fù)現(xiàn)模型的比較

多模態(tài)的「啊哈時(shí)刻」

在DeepSeek-R1-Zero訓(xùn)練過程中,觀察到的一個(gè)特別引人入勝的現(xiàn)象,就是「啊哈時(shí)刻」的出現(xiàn):

. . .
等等,等等。等一下。我在這里發(fā)現(xiàn)了一個(gè)啊哈時(shí)刻。
讓我們重新一步步評(píng)估,以確定正確的計(jì)算結(jié)果是否可以 · · ·
. . .

這個(gè)「啊哈時(shí)刻」表明,DeepSeek-R1-Zero能夠自發(fā)構(gòu)建推理策略,重新審視自己的初始方法,來提升自己的推理能力。

如下圖所示,研究者在對(duì)以視覺為中心的推理任務(wù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練期間,也觀察到了類似行為——

模型展現(xiàn)出一種涌現(xiàn)能力,能夠「重新審視」圖像并糾正自身錯(cuò)誤。

. . .
因此,帶有白色毯子的深棕色木床不在門口上方。讓我們重新一步步評(píng)估,但等等!我想到了其他可能。
也許它只是高于門口,但又略低于門框頂部。
. . .

這種多模態(tài)「啊哈時(shí)刻」,加上響應(yīng)長度的持續(xù)增長,證明了一個(gè)令人興奮的事實(shí):在視覺任務(wù)中,RL具有解鎖全新層次智能的巨大潛力!

圖片圖片

多模態(tài)大語言模型上的R1-Zero訓(xùn)練方法

所以,VisualThinker-R1-Zero究竟是怎樣通過直接對(duì)未經(jīng)SFT的基礎(chǔ)模型應(yīng)用RL訓(xùn)練,從而實(shí)現(xiàn)「啊哈時(shí)刻」的涌現(xiàn)的?

現(xiàn)有的將RL應(yīng)用于微調(diào)視覺模型的項(xiàng)目,都未能復(fù)制DeepSeek-R1的關(guān)鍵特征。

而這項(xiàng)工作的研究者卻獨(dú)辟蹊徑,發(fā)現(xiàn)了一種被忽視的方法——直接對(duì)未經(jīng)監(jiān)督微調(diào)的模型應(yīng)用強(qiáng)化學(xué)習(xí)。

這種訓(xùn)練設(shè)置,就成了在多模態(tài)推理中實(shí)現(xiàn)真正「啊哈時(shí)刻」的關(guān)鍵!

遵循DeepSeek-R1的做法,研究者們采取了一種簡潔優(yōu)雅的RL方法,避免使用獎(jiǎng)勵(lì)模型或類似于蒙特卡洛樹搜索(MCTS)的技術(shù)。

具體來說,他們采用GRPO算法,并使用基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),根據(jù)響應(yīng)的格式和正確性來評(píng)估:

  • 如果響應(yīng)提供最終答案且正確,模型獲得+1的準(zhǔn)確性獎(jiǎng)勵(lì)。
  • 如果響應(yīng)將思考過程封裝在<think></think>標(biāo)簽內(nèi),將最終答案封裝在<answer></answer>標(biāo)簽內(nèi),模型獲得+1的格式獎(jiǎng)勵(lì)。

團(tuán)隊(duì)的實(shí)現(xiàn)是基于DeepSeek-R1的報(bào)告,而初步實(shí)驗(yàn)表明,這種獎(jiǎng)勵(lì)函數(shù)有助于策略模型快速收斂,生成符合期望格式的響應(yīng)。

實(shí)驗(yàn)

在實(shí)驗(yàn)中,研究團(tuán)隊(duì)微調(diào)了Qwen2-VL-2B基礎(chǔ)模型,并在CV-Bench(一個(gè)以視覺為中心的基準(zhǔn)測試套件)上評(píng)估其性能。

訓(xùn)練過程使用了來自SAT訓(xùn)練數(shù)據(jù)集的約12,000個(gè)查詢,該數(shù)據(jù)集專注于空間推理問題。

與DeepSeek-R1-Zero類似,他們直接在基礎(chǔ)模型上應(yīng)用強(qiáng)化學(xué)習(xí),而不進(jìn)行任何監(jiān)督微調(diào)。

這種方法比Qwen2-VL-2B(基礎(chǔ)模型)提升了約30%的性能,比Qwen2-VL-2B-Instruct(指令微調(diào)模型)提升了約5%,比Qwen2-VL-2B SFT(基礎(chǔ)+監(jiān)督微調(diào)版)提升了約2%的基準(zhǔn)性能。

這表明:視覺推理同樣能從R1-Zero訓(xùn)練中獲益。強(qiáng)化學(xué)習(xí)對(duì)多樣化推理的探索,展現(xiàn)出了更具可擴(kuò)展性的訓(xùn)練方法。

如下圖2顯示主要結(jié)果:R1方法相比基礎(chǔ)模型和指令微調(diào)模型均取得了顯著性能提升。

圖2. 主要結(jié)果:該方法在基礎(chǔ)模型和指令微調(diào)模型上取得了顯著的改進(jìn)圖2. 主要結(jié)果:該方法在基礎(chǔ)模型和指令微調(diào)模型上取得了顯著的改進(jìn)

指令模型的早期實(shí)驗(yàn)與發(fā)現(xiàn)

很多研究者往往會(huì)傾向于直接對(duì)視覺指令模型應(yīng)用強(qiáng)化學(xué)習(xí),從而提升模型性能。

然而,研究團(tuán)隊(duì)在早期實(shí)驗(yàn)中卻發(fā)現(xiàn),盡管對(duì)指令模型應(yīng)用GRPO確實(shí)提高了性能,但這種方法并未復(fù)現(xiàn)DeepSeek-R1報(bào)告中的觀察結(jié)果和發(fā)現(xiàn)。

在此,他們也分享出了自己的失敗案例。

不過,這也并不意味著這些方法就無法構(gòu)建有效的視覺推理模型。

無實(shí)質(zhì)內(nèi)容的推理路徑

與先前研究類似,他們最初對(duì)指令微調(diào)模型應(yīng)用RL的嘗試雖然提高了性能,但同時(shí)導(dǎo)致模型響應(yīng)降級(jí)為無實(shí)質(zhì)內(nèi)容的表面推理與最終答案:

圖片圖片

問題:哪個(gè)物體距離拍攝這張照片的相機(jī)更近,盒子(紅框標(biāo)注)還是桌子(藍(lán)框標(biāo)注)?

模型:
<think>為了確定哪個(gè)物體距離相機(jī)更近,我將測量從相機(jī)到每個(gè)物體的距離。</think>
<answer>盒子</answer>

這就表明:模型可以通過GRPO提高性能,而不必真正發(fā)展出推理能力。

由此,就自然而然產(chǎn)生了這樣一個(gè)問題:針對(duì)視覺中心任務(wù)的強(qiáng)化學(xué)習(xí),是否主要改善了模型的視覺處理能力?

為了探究這一點(diǎn),研究者們在RL過程中固定視覺編碼器(不更新其參數(shù))以評(píng)估其影響。(注意:以下結(jié)果不能直接與他們的主要結(jié)果進(jìn)行比較,因?yàn)橹噶钅P鸵呀?jīng)在數(shù)量明顯更多的數(shù)據(jù)上進(jìn)行了微調(diào)):

圖片

不同微調(diào)設(shè)置下模型在RL訓(xùn)練期間在CV-Bench上的準(zhǔn)確率

下圖3所示為強(qiáng)化學(xué)習(xí)訓(xùn)練過程中不同微調(diào)設(shè)置下響應(yīng)長度的變化。橫軸代表訓(xùn)練步驟,縱軸表示響應(yīng)長度。圖中比較了三種不同微調(diào)配置的模型:凍結(jié)大語言模型(綠色)、凍結(jié)視覺編碼器(藍(lán)色)和全參數(shù)微調(diào)(紅色)。

可以看到,響應(yīng)長度在訓(xùn)練初期顯著下降,之后逐漸趨于穩(wěn)定。

然而,盡管這三種基于RL的指令模型微調(diào)方法都提高了準(zhǔn)確率,但卻并未真正增強(qiáng)模型的推理能力,因?yàn)槟P晚憫?yīng)仍然很簡單,且缺乏實(shí)質(zhì)內(nèi)容。

圖3. 強(qiáng)化學(xué)習(xí)過程中不同微調(diào)設(shè)置下的回復(fù)長度隨訓(xùn)練步驟變化的對(duì)比圖3. 強(qiáng)化學(xué)習(xí)過程中不同微調(diào)設(shè)置下的回復(fù)長度隨訓(xùn)練步驟變化的對(duì)比

有趣的是,在凍結(jié)視覺編碼器的條件下,訓(xùn)練多模態(tài)大語言模型反而提高了性能,這一結(jié)果與研究者最初的假設(shè)相反。

然而,模型的響應(yīng)依然簡短且缺乏意義:

凍結(jié)大語言模型的強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)凍結(jié)大語言模型的強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)

問題:請估計(jì)圖像中物體之間的實(shí)際距離。哪個(gè)物體與交通錐筒(紅框標(biāo)注)的距離更近,是摩托車(藍(lán)框標(biāo)注)還是公交車(綠框標(biāo)注)?

模型:
<think>為了確定哪個(gè)物體與交通錐筒距離更近,讓我們分析圖像中物體之間的距離。</think>
<answer>摩托車</answer>

凍結(jié)視覺編碼器的強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)凍結(jié)視覺編碼器的強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)

問題:請估計(jì)圖像中物體之間的實(shí)際距離。哪個(gè)物體與交通錐筒(紅框標(biāo)注)的距離更近,是摩托車(藍(lán)框標(biāo)注)還是公交車(綠框標(biāo)注)?

模型:
<think>為了確定哪個(gè)物體與交通錐筒(紅框標(biāo)注)距離更近,我們需要分析圖像中物體之間的距離。</think>
<answer>摩托車</answer>

這一現(xiàn)象表明,還需要進(jìn)行更深入的研究,來理解這種性能改進(jìn)的原因。

單純獎(jiǎng)勵(lì)更長回答,能否提高模型性能?

研究團(tuán)隊(duì)還探究了另一個(gè)問題:回答長度本身,是否是提升推理能力的關(guān)鍵因素?

為此,他們設(shè)計(jì)了一項(xiàng)實(shí)驗(yàn),評(píng)估簡單激勵(lì)模型生成更長回答是否能提升其推理能力。為此,他們對(duì)模型生成的每個(gè)額外token給予+0.001的獎(jiǎng)勵(lì)。

然而,實(shí)驗(yàn)結(jié)果表明,單純獎(jiǎng)勵(lì)回答長度并不能提高模型性能:

下圖4顯示了在指令微調(diào)模型上應(yīng)用長度獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的模型性能變化。

可以看到,雖然平均回答長度(紅線)顯著增長,但基準(zhǔn)測試準(zhǔn)確率(綠線)保持相對(duì)穩(wěn)定,這表明更長的回答并不必然帶來更強(qiáng)的推理能力。

圖片圖片

圖4. 在經(jīng)指令微調(diào)的模型上應(yīng)用基于長度獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的性能表現(xiàn)

很快,模型就學(xué)會(huì)了鉆長度獎(jiǎng)勵(lì)的空子,生成極長但毫無意義的錯(cuò)誤回答:

圖片圖片

問題:考慮圖像中長頸鹿(紅框標(biāo)注)和人物的相對(duì)位置,長頸鹿相對(duì)于人物處于什么位置?

模型:
<think>
- 長頸鹿(紅框標(biāo)注)位于圖像前景。
- 人物在背景中,站在長頸鹿后方。
- 長頸鹿比人物更靠近觀察者。
- 人物不在長頸鹿正上方。
- 人物不在長頸鹿正下方。
- 長頸鹿不在人物上方。
- 長頸鹿不在人物下方。
- 人物不在長頸鹿前面。
- 人物不在長頸鹿后面。
- 人物不在長頸鹿左側(cè)。
- 人物不在長頸鹿右側(cè)。
- [重復(fù)內(nèi)容直到達(dá)到最大token數(shù)限制]

這一結(jié)果表明,簡單基于長度的獎(jiǎng)勵(lì)機(jī)制并不能有效提高模型性能。

研究者建議,未來的研究可以探索設(shè)計(jì)更優(yōu)的長度獎(jiǎng)勵(lì)機(jī)制,以鼓勵(lì)模型生成有意義的推理步驟。

在后續(xù)研究中,他們將探索響應(yīng)長度與多模態(tài)推理之間的關(guān)系,泛化能力與記憶能力的對(duì)比,以及R1方法何時(shí)有效及其工作原理。

未來計(jì)劃

  1. 進(jìn)一步分析多模態(tài)推理中響應(yīng)長度的作用
  2. 利用經(jīng)人工篩選的R1-Zero推理路徑進(jìn)行監(jiān)督微調(diào)來復(fù)現(xiàn)R1方法

作者介紹

Hengguang Zhou

圖片圖片

Hengguang Zhou是加州大學(xué)洛杉磯分校(UCLA)一年級(jí)的研究生,同時(shí)也是TurningPoint AI項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目由Ruochen Wang和Cho-Jui Hsieh教授指導(dǎo)。

他的研究主要聚焦于多模態(tài)大型語言模型的安全性。在LLM時(shí)代之前,有從事3D計(jì)算機(jī)視覺、人機(jī)交互(HCI)和視覺豐富的文檔理解方面工作的經(jīng)驗(yàn)。

他在多倫多大學(xué)計(jì)算機(jī)科學(xué)獲得學(xué)士學(xué)位。

Xirui Li

圖片圖片

Xirui Li是加州大學(xué)洛杉磯分校(UCLA)的博士研究生。研究重點(diǎn)是可信AI,特別是基礎(chǔ)模型(LLMs/VLMs)的可控性和解釋性。

在大語言模型興起之前,他的研究方向是目標(biāo)檢測和視覺解釋技術(shù)。除學(xué)術(shù)研究外,也對(duì)創(chuàng)業(yè)機(jī)會(huì)有濃厚興趣。

目前,他是TurningPoint AI的成員,這是一個(gè)由多個(gè)實(shí)驗(yàn)室聯(lián)合組建的AIGC研究合作組織,專注于多模態(tài)AI智能體的研究,由Dr. Ruochen Wang和Cho-Jui Hsieh教授指導(dǎo)。

他在慕尼黑工業(yè)大學(xué)獲得電氣與計(jì)算機(jī)工程學(xué)士學(xué)位。期間,在Hao Shen和Tianming Qiu博士的指導(dǎo)下完成了關(guān)于Transformer目標(biāo)檢測可解釋性的論文。

Ruochen Wang

圖片圖片

Ruochen Wang在OpenAI從事多模態(tài)研究工作。目前對(duì)風(fēng)險(xiǎn)投資和創(chuàng)業(yè)有濃厚的興趣。

他在密歇根大學(xué)獲得計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)學(xué)士學(xué)位,并以最高榮譽(yù)畢業(yè)。在加州大學(xué)洛杉磯分校獲得計(jì)算機(jī)科學(xué)碩士學(xué)位。在加州大學(xué)洛杉磯分校獲得計(jì)算機(jī)科學(xué)博士學(xué)位,期間創(chuàng)立并領(lǐng)導(dǎo)了TurningPoint AI研究團(tuán)隊(duì)。

此外,他還與谷歌研究/DeepMind有合作關(guān)系。并以第一作者身份,獲得了ICLR優(yōu)秀論文獎(jiǎng)。

Minhao Cheng

圖片圖片

Minhao Cheng是賓夕法尼亞州立大學(xué)信息科學(xué)與技術(shù)學(xué)院助理教授。目前研究興趣主要在機(jī)器學(xué)習(xí)領(lǐng)域,重點(diǎn)關(guān)注可信機(jī)器學(xué)習(xí)和AutoML。

此前,他曾在香港科技大學(xué)擔(dān)任計(jì)算機(jī)科學(xué)與工程助理教授。

他在電子科技大學(xué)獲得計(jì)算機(jī)科學(xué)與技術(shù)學(xué)士學(xué)位,在加州大學(xué)洛杉磯分校計(jì)算機(jī)科學(xué)系獲得博士學(xué)位,導(dǎo)師是Cho-Jui Hsieh教授。

Tianyi Zhou

圖片圖片

Tianyi Zhou是馬里蘭大學(xué)帕克分校計(jì)算機(jī)科學(xué)、UMIACS和AIM的終身制助理教授。目前研究興趣在機(jī)器學(xué)習(xí)、優(yōu)化和自然語言處理。

2021-2022年間,他在擔(dān)任谷歌的訪問研究科學(xué)家,由Boqing Gong和Ming-Hsuan Yang教授指導(dǎo)。

他在華盛頓大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,是Jeff A. Bilmes教授領(lǐng)導(dǎo)的MELODI實(shí)驗(yàn)室成員。并曾在悉尼科技大學(xué)(UTS)和南洋理工大學(xué)擔(dān)任研究助理,與Dacheng Tao(陶大程)教授合作。

此外,他還曾在雅虎實(shí)驗(yàn)室擔(dān)任研究實(shí)習(xí)生,由Hua Ouyang博士(蘋果)和Yi Chang教授(吉林大學(xué))指導(dǎo),并曾在微軟研究院實(shí)習(xí),由Lin Xiao博士(Meta AI)指導(dǎo)。

Cho-Jui Hsieh

圖片圖片

Cho-Jui Hsieh是加州大學(xué)洛杉磯分校(UCLA)計(jì)算機(jī)科學(xué)系副教授。

他的研究興趣是開發(fā)用于大規(guī)模機(jī)器學(xué)習(xí)問題的新算法和優(yōu)化技術(shù)。目前,正在致力于開發(fā)新的機(jī)器學(xué)習(xí)模型,以及改進(jìn)(深度學(xué)習(xí))模型的大小、訓(xùn)練速度、預(yù)測速度和魯棒性。

此前,他曾在加州大學(xué)戴維斯分校(UC Davis)計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)系擔(dān)任助理教授三年,并自2018年夏起在谷歌公司擔(dān)任訪問學(xué)者。

他在德克薩斯大學(xué)奧斯汀分校獲得博士學(xué)位,導(dǎo)師是Inderjit Dhillon教授。在臺(tái)灣大學(xué)獲得碩士學(xué)位,導(dǎo)師是Chih-Jen Lin教授。

參考資料:

https://turningpointai.notion.site/the-multimodal-aha-moment-on-2b-model

https://github.com/turningpoint-ai/VisualThinker-R1-Zero

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-05-06 09:09:37

2025-02-10 09:31:29

2025-03-19 09:20:00

2025-01-26 13:03:35

2025-01-21 09:36:51

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2025-02-19 08:00:00

2025-02-13 08:51:23

DeepSeek大模型

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-14 11:59:29

訓(xùn)練模型數(shù)據(jù)

2025-02-08 09:44:11

DeepSeekAI模型

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-06 09:11:54

2025-04-21 08:42:00

模型開源AI

2025-03-06 17:29:21

2025-03-13 11:07:30

2025-02-20 15:32:28

2025-03-05 10:21:04

DeepSeekLVLM

2025-02-17 09:33:00

AI算法模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)