自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

LLM又曝致命缺陷：根本不會看時鐘！博士驚呆，準確率不及50%

2025-05-19 14:53:07

人工智能新聞

AI能寫論文、畫圖、考高分，但連「看表讀時間」「今天是星期幾」都錯得離譜？最新研究揭示了背后驚人的認知缺陷，提醒我們：AI很強大，但精確推理還離不開人類。

有些任務對人類來說輕而易舉，但AI頻頻出錯。

比如，單詞「strawberry」中有幾個字母「r」一度難倒一眾頂尖LLM。

最新的研究揭示：看鐘表或日歷，對AI來說也很難。

圖1：在測試實例中，6款大模型均無法正確讀取指針式時鐘，僅2款能理解日歷

來自英國愛丁堡大學等機構的研究者，揭示了這個令人深思的AI現(xiàn)象。

他們模擬了時鐘和年歷，系統(tǒng)考察了多模態(tài)語言大模型（MLLM）解讀時間與日期的能力。

結果令人失望：

AI系統(tǒng)讀取時鐘的準確率僅為38.7%，判斷日歷日期的準確率則只有26.3%。

在ICLR 2025的LLM推理與規(guī)劃研討會（ICLR 2025 Workshop on Reasoning and Planning for LLMs）上，他們展示了這些LLM出人意料的缺陷。

論文鏈接：https://arxiv.org/abs/2502.05092

為了探究MLLMs處理時間任務的能力，他們我們構建了精確定制的測試集，包含兩個子集：ClockQA和CalendarQA。

ClockQA涵蓋了六類模擬時鐘圖像（含羅馬數(shù)字、缺失秒針及不同表盤顏色等變體）及其對應的時間問題；

CalendarQA包含了十年的年歷圖像，問題設置從簡單到復雜：

元旦是星期幾？

3月15日是星期幾？

當年的第153天是哪天？

圖2：DateTimeReasoning任務概覽及其兩個主要子集：ClockQA和CalendarQA

雖然數(shù)據(jù)集規(guī)模較小，但它的設計能有效探測時間推理、視覺解析和日期/時間推斷的核心維度。

初步發(fā)現(xiàn)表明：盡管某些模型在時鐘讀時或日歷問答中展現(xiàn)潛力，但根本問題依然存在。

其中，在時鐘讀時中，Gemini-2.0的時分針誤差較低；在日歷問答中，o1模型的準確率最高。

詳細結果

表1總結了各模型在兩個任務中的表現(xiàn)。

在ClockQA任務中，Gemini-2.0取得了最高的精確匹配（Exact Match， EM）分數(shù)（22.58%）和最小的小時/分鐘誤差，顯示出其在理解時鐘方面相較其他模型更具優(yōu)勢。

然而，整體的EM分數(shù)仍然偏低，說明多模態(tài)大語言模型（MLLMs）在讀表任務上依舊存在明顯困難。

相比之下，GPT-o1在CalendarQA任務中表現(xiàn)突出，準確率達到80%，展現(xiàn)出其在日期運算和邏輯推理方面的強大能力。其他模型則明顯落后，表明日期計算和結構化布局解析仍然是AI面臨的難點。

整體而言，除了GPT-o1在CalendarQA中的高表現(xiàn)外，其余模型在ClockQA和CalendarQA兩個任務中的總體表現(xiàn)都不理想。

表1：各模型在時鐘任務（左）和日歷任務（右）中的表現(xiàn)?！硎緮?shù)值越高越好；↓表示數(shù)值越低越好

鐘表讀時任務仍容易出錯。

在ClockQA子集中，模型的表現(xiàn)明顯不如日歷類問題（見表1）。

圖4a和圖3a顯示，即使是在標準表盤下，模型的表現(xiàn)仍較差，有些模型甚至傾向于給出某個「默認」時間。

使用羅馬數(shù)字或風格化的指針會進一步增加錯誤率。

而去掉秒針后，并沒有簡化模型的推理過程，說明模型在識別指針和理解角度方面存在根本性的問題。

日歷推理分析稍好。

與之相比，部分模型在日歷類任務和某些題型上表現(xiàn)更佳。

GPT-o1在CalendarQA子集中表現(xiàn)尤為突出，總體準確率高達80%（見表1和圖3b）。

圖3：ClockQA與CalendarQA的錯誤分析

圖3（a）中的點表示模型預測的時間（縱軸）與真實時間（橫軸）之間的關系。黑色虛線（y=x）代表理想情況下模型預測完全正確的情況。

圖3（b）展示了各模型按年份的準確率表現(xiàn)?？瞻字硎驹撃Ｐ驮趯攴莸臏蚀_率為0%。

像GPT-o1和Claude-3.5等閉源模型，在處理常見節(jié)假日的問題上優(yōu)于開源模型。

這可能是因為訓練數(shù)據(jù)中包含了這些節(jié)日的記憶模式（見圖4b）。

然而，對于一些不太知名或需要復雜計算的問題（例如「第153天」），模型的準確率大幅下降，這說明偏移類推理能力難以遷移。

在這類問題上的表現(xiàn)，小型或開源模型（如MiniCPM、Qwen2-VL-7B和Llama3.2-Vision）幾乎是隨機的，這一點尤為明顯。

圖4：基于問題類型與類別的ClockQA及CalendarQA分析

研究還揭示了另一個問題：當AI在訓練時接觸到的數(shù)據(jù)有限，特別是面對像閏年或復雜日歷計算這樣的少見現(xiàn)象時，它的表現(xiàn)就會明顯下滑。

盡管大語言模型（LLM）在訓練中接觸過大量關于「閏年」概念的解釋，但這并不意味著它們能夠完成涉及視覺判斷的相關任務所需的推理。

這項研究強調了兩個方面的改進需求：

一是需要在訓練數(shù)據(jù)中加入更多有針對性的示例；

二是需要重新思考AI如何處理邏輯推理與空間感知相結合的任務，尤其是那些它們平時接觸不多的任務。

盡信AI，不如無AI

AI系統(tǒng)正確讀取時鐘的準確率僅為38.7%，判斷日歷日期的準確率則只有26.3%。

早期的系統(tǒng)通過標注樣本進行訓練，但讀取時鐘需要的是另一種能力——空間推理。

這可能是AI這次表現(xiàn)不佳的原因，論文作者、愛丁堡大學研究人員Rohit Saxena解釋道：

模型必須識別指針重疊、測量角度，還要適應各種不同的表盤設計，比如羅馬數(shù)字或藝術化的刻度。

AI要認出「這是個鐘表」相對容易，但真正讀出時間就難多了。

日期判斷同樣令人頭疼。

當被問到日期推理問題時，AI的錯誤率也很高。比如，「今年的第153天是星期幾？」這類問題。

這個缺陷也令人意外，因為算術本應是計算機的基本能力之一。

但正如Saxena所解釋的那樣，AI處理算術的方式和傳統(tǒng)計算機不同：

算術對傳統(tǒng)計算機來說很簡單，但對大語言模型就不是這樣了。AI并不是運行數(shù)學算法，而是根據(jù)訓練數(shù)據(jù)中學到的模式來預測答案。

所以它有時可以答對算術問題，但推理過程既不一致也不基于規(guī)則，而我們的研究正是揭示了這個差距。

這項研究是近年來不斷增長的一個研究方向的一部分，聚焦于AI的「理解」方式與人類理解方式之間的差異。

AI模型是通過識別熟悉的模式來得出答案的，當訓練數(shù)據(jù)中有足夠的示例時，它們表現(xiàn)優(yōu)秀，但在需要泛化或進行抽象推理時就會失敗。

最重要的是，研究再次提醒我們，過度依賴AI的輸出可能帶來風險。

Saxena表示：「AI的確很強大，但當任務既涉及感知又需要精確推理時，我們仍然需要進行嚴格測試、設置備用邏輯，很多情況下還必須有人類介入?！?/span>

另一名作者、愛丁堡大學博士生Aryo Pradipta Gema，則表示如今的AI研究往往強調復雜的推理任務，但具有諷刺意味的是，很多系統(tǒng)在應對更簡單的日常任務時仍顯吃力。

我們的研究發(fā)現(xiàn)表明，現(xiàn)在已經(jīng)到了必須解決這些基礎能力缺陷的時候了。否則，AI在那些對時間敏感的現(xiàn)實應用中，可能始終難以真正落地。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="0inuu"><rt id="0inuu"></rt></blockquote>