LLM又曝致命缺陷:根本不會看時鐘!博士驚呆,準確率不及50%
有些任務對人類來說輕而易舉,但AI頻頻出錯。
比如,單詞「strawberry」中有幾個字母「r」一度難倒一眾頂尖LLM。
最新的研究揭示:看鐘表或日歷,對AI來說也很難。
圖1:在測試實例中,6款大模型均無法正確讀取指針式時鐘,僅2款能理解日歷
來自英國愛丁堡大學等機構的研究者,揭示了這個令人深思的AI現(xiàn)象。
他們模擬了時鐘和年歷,系統(tǒng)考察了多模態(tài)語言大模型(MLLM)解讀時間與日期的能力。
結果令人失望:
AI系統(tǒng)讀取時鐘的準確率僅為38.7%,判斷日歷日期的準確率則只有26.3%。
在ICLR 2025的LLM推理與規(guī)劃研討會(ICLR 2025 Workshop on Reasoning and Planning for LLMs)上,他們展示了這些LLM出人意料的缺陷。
論文鏈接:https://arxiv.org/abs/2502.05092
為了探究MLLMs處理時間任務的能力,他們我們構建了精確定制的測試集,包含兩個子集:ClockQA和CalendarQA。
ClockQA涵蓋了六類模擬時鐘圖像(含羅馬數(shù)字、缺失秒針及不同表盤顏色等變體)及其對應的時間問題;
CalendarQA包含了十年的年歷圖像,問題設置從簡單到復雜:
元旦是星期幾?
3月15日是星期幾?
當年的第153天是哪天?
圖2:DateTimeReasoning任務概覽及其兩個主要子集:ClockQA和CalendarQA
雖然數(shù)據(jù)集規(guī)模較小,但它的設計能有效探測時間推理、視覺解析和日期/時間推斷的核心維度。
初步發(fā)現(xiàn)表明:盡管某些模型在時鐘讀時或日歷問答中展現(xiàn)潛力,但根本問題依然存在。
其中,在時鐘讀時中,Gemini-2.0的時分針誤差較低;在日歷問答中,o1模型的準確率最高。
詳細結果
表1總結了各模型在兩個任務中的表現(xiàn)。
在ClockQA任務中,Gemini-2.0取得了最高的精確匹配(Exact Match, EM)分數(shù)(22.58%)和最小的小時/分鐘誤差,顯示出其在理解時鐘方面相較其他模型更具優(yōu)勢。
然而,整體的EM分數(shù)仍然偏低,說明多模態(tài)大語言模型(MLLMs)在讀表任務上依舊存在明顯困難。
相比之下,GPT-o1在CalendarQA任務中表現(xiàn)突出,準確率達到80%,展現(xiàn)出其在日期運算和邏輯推理方面的強大能力。其他模型則明顯落后,表明日期計算和結構化布局解析仍然是AI面臨的難點。
整體而言,除了GPT-o1在CalendarQA中的高表現(xiàn)外,其余模型在ClockQA和CalendarQA兩個任務中的總體表現(xiàn)都不理想。
表1:各模型在時鐘任務(左)和日歷任務(右)中的表現(xiàn)?!硎緮?shù)值越高越好;↓表示數(shù)值越低越好
鐘表讀時任務仍容易出錯。
在ClockQA子集中,模型的表現(xiàn)明顯不如日歷類問題(見表1)。
圖4a和圖3a顯示,即使是在標準表盤下,模型的表現(xiàn)仍較差,有些模型甚至傾向于給出某個「默認」時間。
使用羅馬數(shù)字或風格化的指針會進一步增加錯誤率。
而去掉秒針后,并沒有簡化模型的推理過程,說明模型在識別指針和理解角度方面存在根本性的問題。
日歷推理分析稍好。
與之相比,部分模型在日歷類任務和某些題型上表現(xiàn)更佳。
GPT-o1在CalendarQA子集中表現(xiàn)尤為突出,總體準確率高達80%(見表1和圖3b)。
圖3:ClockQA與CalendarQA的錯誤分析
圖3(a)中的點表示模型預測的時間(縱軸)與真實時間(橫軸)之間的關系。黑色虛線(y=x)代表理想情況下模型預測完全正確的情況。
圖3(b)展示了各模型按年份的準確率表現(xiàn)??瞻字硎驹撃P驮趯攴莸臏蚀_率為0%。
像GPT-o1和Claude-3.5等閉源模型,在處理常見節(jié)假日的問題上優(yōu)于開源模型。
這可能是因為訓練數(shù)據(jù)中包含了這些節(jié)日的記憶模式(見圖4b)。
然而,對于一些不太知名或需要復雜計算的問題(例如「第153天」),模型的準確率大幅下降,這說明偏移類推理能力難以遷移。
在這類問題上的表現(xiàn),小型或開源模型(如MiniCPM、Qwen2-VL-7B和Llama3.2-Vision)幾乎是隨機的,這一點尤為明顯。
圖4:基于問題類型與類別的ClockQA及CalendarQA分析
研究還揭示了另一個問題:當AI在訓練時接觸到的數(shù)據(jù)有限,特別是面對像閏年或復雜日歷計算這樣的少見現(xiàn)象時,它的表現(xiàn)就會明顯下滑。
盡管大語言模型(LLM)在訓練中接觸過大量關于「閏年」概念的解釋,但這并不意味著它們能夠完成涉及視覺判斷的相關任務所需的推理。
這項研究強調了兩個方面的改進需求:
一是需要在訓練數(shù)據(jù)中加入更多有針對性的示例;
二是需要重新思考AI如何處理邏輯推理與空間感知相結合的任務,尤其是那些它們平時接觸不多的任務。
盡信AI,不如無AI
AI系統(tǒng)正確讀取時鐘的準確率僅為38.7%,判斷日歷日期的準確率則只有26.3%。
早期的系統(tǒng)通過標注樣本進行訓練,但讀取時鐘需要的是另一種能力——空間推理。
這可能是AI這次表現(xiàn)不佳的原因,論文作者、愛丁堡大學研究人員Rohit Saxena解釋道:
模型必須識別指針重疊、測量角度,還要適應各種不同的表盤設計,比如羅馬數(shù)字或藝術化的刻度。
AI要認出「這是個鐘表」相對容易,但真正讀出時間就難多了。
日期判斷同樣令人頭疼。
當被問到日期推理問題時,AI的錯誤率也很高。比如, 「今年的第153天是星期幾?」這類問題。
這個缺陷也令人意外,因為算術本應是計算機的基本能力之一。
但正如Saxena所解釋的那樣,AI處理算術的方式和傳統(tǒng)計算機不同:
算術對傳統(tǒng)計算機來說很簡單,但對大語言模型就不是這樣了。AI并不是運行數(shù)學算法,而是根據(jù)訓練數(shù)據(jù)中學到的模式來預測答案。
所以它有時可以答對算術問題,但推理過程既不一致也不基于規(guī)則,而我們的研究正是揭示了這個差距。
這項研究是近年來不斷增長的一個研究方向的一部分,聚焦于AI的「理解」方式與人類理解方式之間的差異。
AI模型是通過識別熟悉的模式來得出答案的,當訓練數(shù)據(jù)中有足夠的示例時,它們表現(xiàn)優(yōu)秀,但在需要泛化或進行抽象推理時就會失敗。
最重要的是,研究再次提醒我們,過度依賴AI的輸出可能帶來風險。
Saxena表示:「AI的確很強大,但當任務既涉及感知又需要精確推理時,我們仍然需要進行嚴格測試、設置備用邏輯,很多情況下還必須有人類介入?!?/span>
另一名作者、愛丁堡大學博士生Aryo Pradipta Gema,則表示如今的AI研究往往強調復雜的推理任務,但具有諷刺意味的是,很多系統(tǒng)在應對更簡單的日常任務時仍顯吃力。
我們的研究發(fā)現(xiàn)表明,現(xiàn)在已經(jīng)到了必須解決這些基礎能力缺陷的時候了。否則,AI在那些對時間敏感的現(xiàn)實應用中,可能始終難以真正落地。