自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS 精華

發(fā)布于 2025-2-7 16:18

瀏覽

0收藏

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2502.03465
git鏈接：https://github.com/Nut-World/NutWorld

亮點(diǎn)直擊

首次提出了一個(gè)框架，可以通過(guò)單次前向傳播，將隨意拍攝的單目視頻中的世界動(dòng)態(tài)高效表示為動(dòng)態(tài)Gaussian Splatting（Dynamic Gaussian Splatting）。
NutWorld 框架結(jié)合了 STAG 表示、精心設(shè)計(jì)的前向重建網(wǎng)絡(luò)，以及用于從隨意視頻中實(shí)現(xiàn)空間和時(shí)間一致性恢復(fù)的有效正則化策略。
在視頻重建和多種下游任務(wù)上的大量實(shí)驗(yàn)，驗(yàn)證了 NutWorld 在時(shí)空一致性和多功能性方面的表現(xiàn)。

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

現(xiàn)有方法在表示隨意拍攝的單目視頻時(shí)，因缺乏時(shí)間一致性和顯式3D結(jié)構(gòu)，難以處理復(fù)雜運(yùn)動(dòng)、遮擋和幾何一致性。如何高效地以空間和時(shí)間一致的方式表示單目視頻，成為亟待解決的問(wèn)題。

提出的方案

提出了 NutWorld 框架，通過(guò)單次前向傳播，將單目視頻動(dòng)態(tài)高效地表示為動(dòng)態(tài)3D Gaussian Splatting（Dynamic Gaussian Splatting）。核心方案包括：

STAG（空間-時(shí)間對(duì)齊高斯）表示：無(wú)需優(yōu)化即可建模場(chǎng)景，提供高效的動(dòng)態(tài)表示。
深度與流正則化策略：增強(qiáng)空間和時(shí)間一致性。
精心設(shè)計(jì)的前向重建網(wǎng)絡(luò)：提升重建效率和質(zhì)量。

應(yīng)用的技術(shù)

時(shí)空連續(xù)的高斯原語(yǔ)流表示：以3D形式表示單目視頻，解決時(shí)間一致性問(wèn)題。
STAG 表示：引入結(jié)構(gòu)化的空間-時(shí)間對(duì)齊表示，提升建模效率。
正則化策略：通過(guò)深度和流正則化，增強(qiáng)幾何一致性和動(dòng)態(tài)場(chǎng)景的建模能力。
單次前向傳播：實(shí)現(xiàn)高效的視頻到動(dòng)態(tài)3D表示的轉(zhuǎn)換。

達(dá)到的效果

高保真視頻重建：在視頻重建質(zhì)量上表現(xiàn)卓越，解決復(fù)雜運(yùn)動(dòng)和遮擋問(wèn)題。
時(shí)空一致性：在空間和時(shí)間一致性方面顯著優(yōu)于現(xiàn)有方法。
多功能性支持：支持多種實(shí)時(shí)下游應(yīng)用，展現(xiàn)出強(qiáng)大的適應(yīng)能力和實(shí)用性。

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

方法

本文提出了一個(gè)框架，用于以前向傳播的方式高效地從單目視頻中表示世界動(dòng)態(tài)。如下圖3所示，首先介紹了時(shí)空對(duì)齊Gaussian Splatting（STAG） 表示。為了能夠通過(guò)單次前向傳播將視頻映射到STAG，詳細(xì)說(shuō)明了基于Transformer的網(wǎng)絡(luò)，該網(wǎng)絡(luò)結(jié)合了校準(zhǔn)的深度和光流先驗(yàn)。最后，討論了處理長(zhǎng)視頻片段的整體訓(xùn)練目標(biāo)和協(xié)議。

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

時(shí)空對(duì)齊高斯

規(guī)范化相機(jī)空間 給定一個(gè)未經(jīng)配準(zhǔn)的單目視頻，采用正交相機(jī)坐標(biāo)系統(tǒng)，而不是絕對(duì)的3D世界坐標(biāo)系統(tǒng)。這一選擇主要基于兩個(gè)關(guān)鍵挑戰(zhàn)：

在動(dòng)態(tài)場(chǎng)景中獲得一致的相機(jī)軌跡的困難；
前向3D重建模型中固有的尺度歧義問(wèn)題，其中透視投影將物體的尺度與其距離相機(jī)的遠(yuǎn)近耦合在一起。

通過(guò)采用沿z軸固定姿態(tài)的正交投影，消除了顯式相機(jī)姿態(tài)估計(jì)的必要性，同時(shí)在統(tǒng)一的規(guī)范化空間中無(wú)尺度歧義地建模相機(jī)和物體的運(yùn)動(dòng)。

結(jié)構(gòu)化動(dòng)態(tài)高斯 為了克服動(dòng)態(tài)高斯噴射中不結(jié)構(gòu)化的特性，并促進(jìn)神經(jīng)網(wǎng)絡(luò)的集成，在規(guī)范化相機(jī)空間中引入了時(shí)空對(duì)齊Gaussian Splatting（STAG）。與之前通過(guò)可變形場(chǎng)在正交時(shí)空中預(yù)測(cè)無(wú)約束高斯的方法不同，STAG將每個(gè)動(dòng)態(tài)高斯約束到特定的像素位置和時(shí)間戳。

對(duì)于一個(gè)輸入幀，其歸一化時(shí)間戳為，計(jì)算一個(gè)高斯特征圖，其中和表示空間維度，表示通道維度。每個(gè) 維像素被解碼為一個(gè)3D高斯及其相關(guān)的形變場(chǎng) ，以像素對(duì)齊的方式進(jìn)行。

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

在“Nutshell”中封裝動(dòng)態(tài)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

校準(zhǔn)的 2D 先驗(yàn)正則化

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

訓(xùn)練和推理

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

基于分段的長(zhǎng)視頻推理 為了處理包含數(shù)百幀的隨意拍攝視頻，在推理階段提出了一種簡(jiǎn)單但有效的基于分段的策略。輸入視頻被劃分為重疊的片段，相鄰片段共享一個(gè)幀。由于我們基于像素級(jí)的時(shí)空表示，高斯軌跡可以通過(guò)這些共享幀在片段之間無(wú)縫傳播，從而使 NutWorld 能夠在保持時(shí)空一致性的同時(shí)處理任意長(zhǎng)度的視頻。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

訓(xùn)練數(shù)據(jù)集 NutWorld 在 MiraData 和 RealEstate10K 數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。

MiraData 是一個(gè)高質(zhì)量的視頻數(shù)據(jù)集，主要由3D引擎生成的場(chǎng)景和電影片段組成，具有多樣的運(yùn)動(dòng)模式。RealEstate10K 數(shù)據(jù)集包含室內(nèi)房屋導(dǎo)覽視頻，展示了各種建筑場(chǎng)景和相機(jī)運(yùn)動(dòng)模式。

在預(yù)處理過(guò)程中，將原始視頻分割成視頻塊，每個(gè)視頻塊包含10幀連續(xù)幀，作為基本處理單元。

實(shí)現(xiàn)細(xì)節(jié) NutWorld 在 32 張 NVIDIA A100 (80GB) GPU 上進(jìn)行訓(xùn)練，批量大小為 256，訓(xùn)練時(shí)間約為 4 天。為了提高計(jì)算效率，集成了 Flash-Attention-v2、梯度檢查點(diǎn) 和 BF16的混合精度訓(xùn)練。

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

視頻重建

實(shí)驗(yàn)協(xié)議 在 RealEstate10K 和 MiraData 數(shù)據(jù)集上隨機(jī)選擇了 50 個(gè)測(cè)試視頻片段（默認(rèn)長(zhǎng)度為 90 幀），通過(guò)標(biāo)準(zhǔn)重建質(zhì)量指標(biāo)（PSNR、SSIM 和 LPIPS）評(píng)估 NutWorld 的視頻重建性能。由于目前沒(méi)有其他基于動(dòng)態(tài)高斯的前饋方法，我們與基于優(yōu)化的方法進(jìn)行了比較，包括 Splatter-a-Video (SaV)、4DGS、RoDynRF 和 CoDeF，這些方法是最相關(guān)的基線。為了公平比較，所有方法都結(jié)合了受限的標(biāo)準(zhǔn)空間、深度和光流監(jiān)督。對(duì)于大多數(shù)方法，我們使用了官方實(shí)現(xiàn)，而 SaV 是根據(jù)其論文中提供的實(shí)現(xiàn)細(xì)節(jié)重新實(shí)現(xiàn)的。

與基線方法的比較 通過(guò)定性和定量實(shí)驗(yàn)評(píng)估了 NutWorld 表示的有效性。在下圖4中可以看出，預(yù)訓(xùn)練的 NutWorld 能夠有效捕獲空間細(xì)節(jié)和時(shí)間動(dòng)態(tài)，在重建質(zhì)量上優(yōu)于基于高斯的 SaV和基于 NeRF 的 CoDeF。這種優(yōu)越性能歸因于 STAG 精心設(shè)計(jì)的可變形場(chǎng)和位置約束，與 SaV 的傅里葉級(jí)數(shù)和 CoDeF 的二維標(biāo)準(zhǔn)表示相比，提供了更具表現(xiàn)力和更魯棒的時(shí)間建模能力。

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

如下表1所示，NutWorld 在重建質(zhì)量和計(jì)算效率方面實(shí)現(xiàn)了兩者的最佳平衡。值得注意的是，NutWorld 在僅 1.8 秒內(nèi)就完成了 90 幀視頻的重建，相比基于優(yōu)化的方法實(shí)現(xiàn)了 1000 倍的加速。通過(guò)基于分段的推理策略限制每段的高斯數(shù)量，NutWorld 達(dá)到了 450 FPS 的渲染速度，顯著超過(guò)了 SaV 的 149 FPS，而后者需要大約個(gè)高斯來(lái)處理同一視頻。

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

視頻下游任務(wù)

經(jīng)過(guò)大規(guī)模預(yù)訓(xùn)練的 NutWorld 支持多種視頻應(yīng)用，包括目標(biāo)分割、幀插值、視頻編輯、新視角合成以及一致性的深度預(yù)測(cè)。在下圖5中展示了具有代表性的定性結(jié)果。

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

幀插值 通過(guò)校準(zhǔn)光流正則化學(xué)習(xí)到的 STAG 連續(xù)軌跡，NutWorld 能夠以任意 FPS 插值場(chǎng)景動(dòng)態(tài)。這些插值后的 STAG 具有平滑變化的動(dòng)態(tài)屬性，能夠支持中間幀的渲染，這種能力超出了逐幀方法的范圍。

一致性深度預(yù)測(cè) 校準(zhǔn)的深度正則化防止了深度坍縮，同時(shí)在場(chǎng)景幾何中保持了時(shí)間一致的空間配置。此外，NutWorld 展示了蒸餾其他圖像特征（如 SAM 和 CLIP）的潛力，我們認(rèn)為這是未來(lái)工作的一個(gè)有前途的方向。

視頻編輯 通過(guò)與 MLLM 指導(dǎo)的編輯模型集成，NutWorld 能夠通過(guò)優(yōu)化切片的 STAG 表示，實(shí)現(xiàn)精確的逐幀繪畫和風(fēng)格化。這些編輯在時(shí)間上可以傳播，同時(shí)保持視頻序列的視覺(jué)一致性。

新視角合成 通過(guò)結(jié)合深度先驗(yàn)以減輕空間歧義，NutWorld 在實(shí)際范圍內(nèi)實(shí)現(xiàn)了新視角合成。相機(jī)外參調(diào)整支持新視角渲染，而相機(jī)內(nèi)參調(diào)整則允許實(shí)現(xiàn)如推拉變焦（dolly zoom）等效果。

消融研究

通過(guò)對(duì)50個(gè)選定的視頻片段進(jìn)行消融研究，分析了NutWorld的設(shè)計(jì)選擇。如下表2所示，實(shí)驗(yàn)表明，從多組件流水線中移除任何一個(gè)組件都會(huì)導(dǎo)致顯著的性能下降。

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

關(guān)于流先驗(yàn)的消融實(shí)驗(yàn)。 為了評(píng)估流先驗(yàn)（Eq. 8），訓(xùn)練了一個(gè)沒(méi)有流監(jiān)督的NutWorld變體進(jìn)行對(duì)比。通過(guò)小提琴圖（如下圖 6(b)）可視化了跨越幀的形變場(chǎng)的分布。在沒(méi)有流監(jiān)督的情況下，模型表現(xiàn)出較大的形變值且方差較低，導(dǎo)致STAGs在非參考幀中偏離了Eq. 2中定義的標(biāo)準(zhǔn)空間。這表明，沒(méi)有流監(jiān)督的變體傾向于通過(guò)將每一幀表示為獨(dú)立的STAGs來(lái)學(xué)習(xí)一種不理想的捷徑，進(jìn)而導(dǎo)致時(shí)間不連續(xù)性。相比之下，在有流監(jiān)督的情況下，形變場(chǎng)的分布集中在接近零的位置，且具有適當(dāng)?shù)姆讲?，這表明NutWorld能夠通過(guò)流先驗(yàn)恢復(fù)時(shí)間運(yùn)動(dòng)，從而有效地防止這種捷徑行為。此外，上表2中的定量實(shí)驗(yàn)表明，時(shí)間不連續(xù)性會(huì)導(dǎo)致重建質(zhì)量下降，尤其是在處理復(fù)雜運(yùn)動(dòng)時(shí)表現(xiàn)尤為明顯。

1.8秒完成90幀視頻重建，相比加速1000 倍!顏水成團(tuán)隊(duì)提出NutWorld:渲染速度可達(dá)450FPS-AI.x社區(qū)

結(jié)論

本文提出了NutWorld，這是一種通過(guò)動(dòng)態(tài)高斯投影高效表示隨意單目視頻的新框架。通過(guò)引入結(jié)構(gòu)化的STAG表示并結(jié)合有效的深度和光流正則化，本文的方法成功解決了單目視頻表示中的多個(gè)基本挑戰(zhàn)，在無(wú)需逐場(chǎng)景優(yōu)化的情況下實(shí)現(xiàn)了空間和時(shí)間的一致性。全面的實(shí)驗(yàn)表明，NutWorld不僅能夠?qū)崟r(shí)實(shí)現(xiàn)高保真的視頻重建，還支持多種下游應(yīng)用。在未來(lái)，將豐富的視覺(jué)特征（例如，SAM、CLIP）蒸餾到STAG表示中，以及將表示范式適配于視頻生成任務(wù)，都是值得探索的方向。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/KHXn9rOY8-2SNXzU3QRtbw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

清華團(tuán)隊(duì)突破16秒長(zhǎng)視頻，懂多鏡頭語(yǔ)言，會(huì)模擬物理規(guī)律

輕薄滴假象 ? 2557瀏覽 ? 0回復(fù)
高效、可泛化的高斯重建框架，只需3張視圖即可快速推理，45秒便可完成優(yōu)化

輕薄滴假象 ? 2295瀏覽 ? 0回復(fù)
百倍提升7B模型推理能力！顏水成團(tuán)隊(duì)攜手新加坡南洋理工大學(xué)發(fā)布Q*算法

duhorse ? 2599瀏覽 ? 0回復(fù)
史上首個(gè)實(shí)時(shí)AI視頻生成技術(shù)：DiT通用，速度提升10.6倍

輕薄滴假象 ? 3085瀏覽 ? 0回復(fù)
Excp & FastPersist：數(shù)十倍 LLM Checkpoint 保存加速和壓縮

amei2000go ? 5440瀏覽 ? 0回復(fù)
渲染速度比ENeRF快30倍！4K4D:實(shí)時(shí)4K分辨率4D視圖合成

angel ? 2556瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成速度提升100倍！新加坡國(guó)立提出Video-Infinity：分布式長(zhǎng)視頻生成

angel ? 2910瀏覽 ? 0回復(fù)
英偉達(dá)開源新大模型：訓(xùn)練數(shù)據(jù)減少40倍，算力節(jié)省1.8倍

Aceryt ? 2872瀏覽 ? 0回復(fù)
LLM新巔峰||北大提出mllm-NPU,賦能1000字/秒的設(shè)備端LLM預(yù)填充

AI論文解讀 ? 2235瀏覽 ? 0回復(fù)
快手、北大開源，超高清10秒、24幀視頻模型

Aceryt ? 1994瀏覽 ? 0回復(fù)
清華大學(xué)提出1-Bit FQT：將全量化訓(xùn)練極限推到極致,訓(xùn)練速度提升5倍！

AI論文解讀 ? 2414瀏覽 ? 0回復(fù)
?顏水成團(tuán)隊(duì)新作:AI手機(jī)迎來(lái)重大技術(shù)進(jìn)展！Meissonic:讓移動(dòng)成像技術(shù)飛躍

angel ? 1710瀏覽 ? 0回復(fù)
成本降低1000倍！微軟將開源超強(qiáng)RAG— LazyGraphRAG

Aceryt ? 2306瀏覽 ? 0回復(fù)
16幀1024×1024視頻耗時(shí)僅16秒！64倍壓縮助力高效視頻生成：復(fù)旦&微軟發(fā)布Reducio-DiT

angel ? 2727瀏覽 ? 0回復(fù)
微軟即將推出超強(qiáng)RAG: LazyGraphRAG 效果更好，且成本能降低近1000倍！

AI博物院 ? 4138瀏覽 ? 0回復(fù)
賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大

angel ? 1977瀏覽 ? 0回復(fù)
Model2Vec：RAG 加速新引擎，模型瘦身15倍，速度提升500倍，最新emb benchmark

鴻煊的學(xué)習(xí)筆記 ? 2364瀏覽 ? 0回復(fù)
告別800秒魔咒！硬件級(jí)STA革新視頻DiT注意力，讓HunyuanVideo效率提升3.5倍!

angel ? 1742瀏覽 ? 0回復(fù)
比DeepSeek快8倍！智譜AI開源6款模型，推理速度200 tokens/秒碾壓競(jìng)品，價(jià)格僅1/30！

AI博物院 ? 1965瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：只需一步！上交&哈佛提出FluxSR：首個(gè)基于12B+大模型的單步擴(kuò)散真實(shí)世界超分模型

下一篇：僅128個(gè)token達(dá)到ImageNet生成SOTA性能！MAETok:有效的擴(kuò)散模型的關(guān)鍵是什么？(卡內(nèi)基梅隆&港大等)

社區(qū)精華內(nèi)容

目錄

<style id="zd988"><rp id="zd988"></rp></style>