自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="5bvrc"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

李飛飛、謝賽寧等探索MLLM「視覺空間智能」，網(wǎng)友：2025有盼頭了

作者：機器之心 2024-12-23 13:50:00

人工智能新聞

為了在視覺空間領(lǐng)域推進這種智能，來自紐約大學(xué)、耶魯大學(xué)、斯坦福大學(xué)的研究者引入了 VSI-Bench，這是一個基于視頻的基準測試，涵蓋了近 290 個真實室內(nèi)場景視頻，包含超過 5000 個問答對。

在購買家具時，我們會嘗試回憶起我們的客廳，以想象一個心儀的櫥柜是否合適。雖然估計距離是困難的，但即使只是看過一次，人類也能在腦海里重建空間，回憶起房間里的物體、它們的位置和大小。

我們生活在一個感官豐富的 3D 世界中，視覺信號圍繞著我們，讓我們能夠感知、理解和與之互動。

這是因為人類擁有視覺空間智能（visual-spatial intelligence），能夠通過連續(xù)的視覺觀察記住空間。然而，在百萬級視頻數(shù)據(jù)集上訓(xùn)練的多模態(tài)大語言模型 (MLLM) 是否也能通過視頻在空間中思考，即空間思維（Thinking in Space）？

為了在視覺空間領(lǐng)域推進這種智能，來自紐約大學(xué)、耶魯大學(xué)、斯坦福大學(xué)的研究者引入了 VSI-Bench，這是一個基于視頻的基準測試，涵蓋了近 290 個真實室內(nèi)場景視頻，包含超過 5000 個問答對。

其中，視頻數(shù)據(jù)是通過捕捉連續(xù)的、時間性的輸入來完成的，不僅與我們觀察世界的方式相似，而且比靜態(tài)圖像更能豐富空間理解和推理。在 VSI-Bench 上評估開源和閉源模型顯示，盡管模型與人類之間存在較大的性能差距，盡管 MLLM 面臨視頻理解、文本理解和空間推理的挑戰(zhàn)，但其仍展現(xiàn)出了新興的視覺空間智能。

為了對模型行為展開研究，本文受到雙重編碼理論的啟發(fā)（該理論認為語言處理和視覺處理既有區(qū)別又相互補充），他們提出了用于自我解釋（語言）和認知圖（視覺）的選擇模型（selected models）。

論文地址：https://arxiv.org/pdf/2412.14171v1
論文主頁：https://vision-x-nyu.github.io/thinking-in-space.github.io/
論文標題：Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

這篇論文作者有我們熟悉的斯坦福大學(xué)教授李飛飛，她提倡的「空間智能」最近正在引領(lǐng) AI 發(fā)展方向，還有紐約大學(xué)計算機科學(xué)助理教授謝賽寧等。

謝賽寧表示，「視頻理解是下一個研究前沿，但并非所有視頻都是一樣的。模型現(xiàn)在可以通過 youtube 片段和故事片進行推理，但是我們未來的 AI 助手在日?？臻g中導(dǎo)航和經(jīng)驗如何呢？空間思維正是為這一問題誕生的，我們的最新研究 VSI-Bench，可以探索多模態(tài) LLM 如何看待、記憶和回憶空間?！?/span>

「在視覺處理方面，我們通常處理空間問題，但很少進行推理；而多模態(tài)大語言模型（LLM）雖然能夠思考，但通常忽略了邏輯空間。然而，作為人類 —— 無論是做心理旋轉(zhuǎn)測試還是為新家定制家具 —— 我們依賴于空間和視覺思維。而這些思維并不總能很好地轉(zhuǎn)化為語言?！?/span>

「我們通過研究涵蓋各種視覺空間智能任務(wù)（關(guān)系和度量）的新基準來探索這一點?！?/span>

李飛飛也對這項研究進行了宣傳，她表示這項名為「Thinking in Space」的研究，是對 LLM（大部分都失敗了）在空間推理方面表現(xiàn)的評估，而空間推理對人類智能至關(guān)重要。2025 年還有更多值得期待的事情，以突破空間智能的界限！

在李飛飛的這條推文下，網(wǎng)友已經(jīng)開始期待即將到來的 2025 年。

在論文主頁給出的 Demo 中，作者提供了谷歌 Gemini 模型在視覺空間智能上的一些表現(xiàn)。（以下視頻均以 2 倍速播放。）

1：估計相對距離

問：如果我站在冰箱旁邊，面對著洗衣機，爐子是在我的左邊、右邊還是后面……

2：讓大模型數(shù)物體

問：房間里有幾把椅子？Gemini-1.5 Pro 給出了 2。

3：根據(jù)視頻猜測物體出現(xiàn)的順序

問：以下類別在視頻中第一次出現(xiàn)的順序是：毯子、垃圾桶、微波爐、植物？Gemini 給出 B 選項，正確答案是 C。

4：估計房間大小

問：這個房間有多大（平方米）？如果展示了多個房間，估計一下組合空間的大小。

VSI-Bench 介紹

VSI-Bench 是一個用于定量評估從第一視角視頻出發(fā)的 MLLM 視覺空間智能的工具。VSI-Bench 包含了超過 5000 個問答對，這些問答對來源于 288 個真實視頻。這些視頻包括居住空間、專業(yè)場所（例如，辦公室、實驗室）和工業(yè)場所（例如，工廠）—— 以及多個地理區(qū)域。VSI-Bench 的質(zhì)量很高，經(jīng)過迭代審查以最小化問題的歧義，并移除了從源數(shù)據(jù)集中傳播的錯誤注釋。

VSI-Bench 包括八項任務(wù)，如圖 3 所示，包括：物體計數(shù)、相對距離、出現(xiàn)的順序、相對方向、物體大小、絕對距離、房間面積、路徑規(guī)劃。

VSI-Bench 的任務(wù)演示。注意：為清晰簡潔起見，上述問題略作簡化。

數(shù)據(jù)集統(tǒng)計見圖 5。

此外，本文還開發(fā)了一個復(fù)雜的基準構(gòu)建流程，以有效地大規(guī)模生成高質(zhì)量問答（QA）對，如圖 4 所示。

評估

評估設(shè)置：本文對 15 個支持視頻的 MLLM 進行了基準測試。專有模型包括 Gemini-1.5 和 GPT-4o。開源模型包括 InternVL2、ViLA、LongViLA、LongVA、LLaVA-OneVision 和 LLaVA-NeXT-Video 。

主要結(jié)果：通過 5000 多個問答對，作者發(fā)現(xiàn) MLLM 表現(xiàn)出了有競爭性的視覺空間智能（盡管仍然低于人類）。Gemini Pro 表現(xiàn)最佳，但與人類的表現(xiàn)仍有差距。

具體而言，人類評估者的平均準確率達到 79%，比最佳模型高出 33%，在配置和時空任務(wù)上的表現(xiàn)接近完美（94%-100%）。

然而，在需要精確估計的測量任務(wù)上，差距縮小了，MLLM 在定量任務(wù)中表現(xiàn)出相對優(yōu)勢。

在專有模型中，Gemini-1.5 Pro 脫穎而出，盡管只在 2D 數(shù)字數(shù)據(jù)上進行訓(xùn)練，但它大大超過了機會基線，并在絕對距離和房間大小估計等任務(wù)中接近人類表現(xiàn)。

表現(xiàn)最佳的開源模型，如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B，取得了有競爭力的結(jié)果，僅落后 Gemini-1.5 Pro 4%-5%。然而，大多數(shù)開源模型（7/12）都低于機會基線，暴露出視覺空間智能的明顯缺陷。

為了更好地理解模型成功或失敗的時間和原因，并闡明它們所擁有的視覺空間智能的各個方面，本文研究了 MLLM 如何在空間語言中思考。

當被要求解釋自己時，LLM 表示空間推理（而不是物體識別或語言能力）是主要瓶頸。

在成功示例中，該模型展示了高級視頻理解能力，具有準確的時間戳描述和正確的逐步推理過程。全局坐標系的使用表明 MLLM 可以通過整合空間背景和推理來構(gòu)建隱式世界模型。

錯誤分析：對 VSI-Bench（tiny）上表現(xiàn)最佳的 MLLM 的錯誤進行分析，發(fā)現(xiàn)主要有四種錯誤類型：視覺感知、語言智能、關(guān)系推理和第一視角 - 他人視角轉(zhuǎn)換。圖 6 顯示，71% 的錯誤源于空間推理，特別是在理解距離、大小和方向方面。這表明空間推理仍然是提高 VSI-Bench 上 MLLM 性能的關(guān)鍵瓶頸。

此外，本文還有一些其他發(fā)現(xiàn)。

發(fā)現(xiàn) 1：空間推理是影響 MLLM 在 VSI-Bench 上的主要瓶頸。
發(fā)現(xiàn) 2：語言提示技術(shù)雖然在語言推理和一般視覺任務(wù)中有效，但對空間推理有害。
發(fā)現(xiàn) 3：在記憶空間時，MLLM 會根據(jù)給定的視頻在模型中形成一系列局部世界模型，而不是統(tǒng)一的全局模型。

語言提示技術(shù)在這種情況下是無效的 —— 像 CoT 或多數(shù)投票這樣的方法實際上對本文任務(wù)是非常有害的。

了解更多內(nèi)容，請參考原論文。

責任編輯：張燕妮來源：機器之心

數(shù)據(jù)訓(xùn)練模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tr id="7848y"><fieldset id="7848y"></fieldset></tr>

<xmp id="7848y"><cite id="7848y"><rp id="7848y"></rp></cite></xmp>