自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM又曝致命缺陷:根本不會看時鐘!博士驚呆,準確率不及50%

人工智能 新聞
AI能寫論文、畫圖、考高分,但連「看表讀時間」「今天是星期幾」都錯得離譜?最新研究揭示了背后驚人的認知缺陷,提醒我們:AI很強大,但精確推理還離不開人類。

有些任務對人類來說輕而易舉,但AI頻頻出錯。

比如,單詞「strawberry」中有幾個字母「r」一度難倒一眾頂尖LLM。

最新的研究揭示:看鐘表或日歷,對AI來說也很難。

圖片

圖1:在測試實例中,6款大模型均無法正確讀取指針式時鐘,僅2款能理解日歷

來自英國愛丁堡大學等機構的研究者,揭示了這個令人深思的AI現(xiàn)象。

他們模擬了時鐘和年歷,系統(tǒng)考察了多模態(tài)語言大模型(MLLM)解讀時間與日期的能力。

結果令人失望:

AI系統(tǒng)讀取時鐘的準確率僅為38.7%,判斷日歷日期的準確率則只有26.3%。

在ICLR 2025的LLM推理與規(guī)劃研討會(ICLR 2025 Workshop on  Reasoning and Planning for LLMs)上,他們展示了這些LLM出人意料的缺陷。

圖片

論文鏈接:https://arxiv.org/abs/2502.05092

為了探究MLLMs處理時間任務的能力,他們我們構建了精確定制的測試集,包含兩個子集:ClockQA和CalendarQA。

ClockQA涵蓋了六類模擬時鐘圖像(含羅馬數(shù)字、缺失秒針及不同表盤顏色等變體)及其對應的時間問題;

CalendarQA包含了十年的年歷圖像,問題設置從簡單到復雜:

元旦是星期幾?  

3月15日是星期幾?  

當年的第153天是哪天?

圖片

圖2:DateTimeReasoning任務概覽及其兩個主要子集:ClockQA和CalendarQA

雖然數(shù)據(jù)集規(guī)模較小,但它的設計能有效探測時間推理、視覺解析和日期/時間推斷的核心維度。

初步發(fā)現(xiàn)表明:盡管某些模型在時鐘讀時或日歷問答中展現(xiàn)潛力,但根本問題依然存在。

其中,在時鐘讀時中,Gemini-2.0的時分針誤差較低;在日歷問答中,o1模型的準確率最高。

詳細結果

表1總結了各模型在兩個任務中的表現(xiàn)。

ClockQA任務中,Gemini-2.0取得了最高的精確匹配(Exact Match, EM)分數(shù)(22.58%)和最小的小時/分鐘誤差,顯示出其在理解時鐘方面相較其他模型更具優(yōu)勢。

然而,整體的EM分數(shù)仍然偏低,說明多模態(tài)大語言模型(MLLMs)在讀表任務上依舊存在明顯困難。

相比之下,GPT-o1CalendarQA任務中表現(xiàn)突出,準確率達到80%,展現(xiàn)出其在日期運算和邏輯推理方面的強大能力。其他模型則明顯落后,表明日期計算和結構化布局解析仍然是AI面臨的難點。

整體而言,除了GPT-o1在CalendarQA中的高表現(xiàn)外,其余模型在ClockQA和CalendarQA兩個任務中的總體表現(xiàn)都不理想

表1:各模型在時鐘任務(左)和日歷任務(右)中的表現(xiàn)?!硎緮?shù)值越高越好;↓表示數(shù)值越低越好

鐘表讀時任務仍容易出錯。

在ClockQA子集中,模型的表現(xiàn)明顯不如日歷類問題(見表1)。

圖4a和圖3a顯示,即使是在標準表盤下,模型的表現(xiàn)仍較差,有些模型甚至傾向于給出某個「默認」時間。

使用羅馬數(shù)字或風格化的指針會進一步增加錯誤率。

而去掉秒針后,并沒有簡化模型的推理過程,說明模型在識別指針和理解角度方面存在根本性的問題。

日歷推理分析稍好。

與之相比,部分模型在日歷類任務和某些題型上表現(xiàn)更佳。

GPT-o1在CalendarQA子集中表現(xiàn)尤為突出,總體準確率高達80%(見表1和圖3b)。

圖3:ClockQA與CalendarQA的錯誤分析

圖3(a)中的點表示模型預測的時間(縱軸)與真實時間(橫軸)之間的關系。黑色虛線(y=x)代表理想情況下模型預測完全正確的情況。

圖3(b)展示了各模型按年份的準確率表現(xiàn)??瞻字硎驹撃P驮趯攴莸臏蚀_率為0%。

像GPT-o1和Claude-3.5等閉源模型,在處理常見節(jié)假日的問題上優(yōu)于開源模型。

這可能是因為訓練數(shù)據(jù)中包含了這些節(jié)日的記憶模式(見圖4b)。

然而,對于一些不太知名或需要復雜計算的問題(例如「第153天」),模型的準確率大幅下降,這說明偏移類推理能力難以遷移。

在這類問題上的表現(xiàn),小型或開源模型(如MiniCPM、Qwen2-VL-7B和Llama3.2-Vision)幾乎是隨機的,這一點尤為明顯。

圖4:基于問題類型與類別的ClockQA及CalendarQA分析

研究還揭示了另一個問題:當AI在訓練時接觸到的數(shù)據(jù)有限,特別是面對像閏年或復雜日歷計算這樣的少見現(xiàn)象時,它的表現(xiàn)就會明顯下滑。

盡管大語言模型(LLM)在訓練中接觸過大量關于「閏年」概念的解釋,但這并不意味著它們能夠完成涉及視覺判斷的相關任務所需的推理。

這項研究強調了兩個方面的改進需求:

一是需要在訓練數(shù)據(jù)中加入更多有針對性的示例;

二是需要重新思考AI如何處理邏輯推理與空間感知相結合的任務,尤其是那些它們平時接觸不多的任務。

盡信AI,不如無AI

AI系統(tǒng)正確讀取時鐘的準確率僅為38.7%,判斷日歷日期的準確率則只有26.3%。

早期的系統(tǒng)通過標注樣本進行訓練,但讀取時鐘需要的是另一種能力——空間推理。

這可能是AI這次表現(xiàn)不佳的原因,論文作者、愛丁堡大學研究人員Rohit Saxena解釋道:

模型必須識別指針重疊、測量角度,還要適應各種不同的表盤設計,比如羅馬數(shù)字或藝術化的刻度。

AI要認出「這是個鐘表」相對容易,但真正讀出時間就難多了。

日期判斷同樣令人頭疼。

當被問到日期推理問題時,AI的錯誤率也很高。比如, 「今年的第153天是星期幾?」這類問題。

這個缺陷也令人意外,因為算術本應是計算機的基本能力之一。

但正如Saxena所解釋的那樣,AI處理算術的方式和傳統(tǒng)計算機不同:

算術對傳統(tǒng)計算機來說很簡單,但對大語言模型就不是這樣了。AI并不是運行數(shù)學算法,而是根據(jù)訓練數(shù)據(jù)中學到的模式來預測答案。

所以它有時可以答對算術問題,但推理過程既不一致也不基于規(guī)則,而我們的研究正是揭示了這個差距。

這項研究是近年來不斷增長的一個研究方向的一部分,聚焦于AI的「理解」方式與人類理解方式之間的差異。

AI模型是通過識別熟悉的模式來得出答案的,當訓練數(shù)據(jù)中有足夠的示例時,它們表現(xiàn)優(yōu)秀,但在需要泛化或進行抽象推理時就會失敗。

最重要的是,研究再次提醒我們,過度依賴AI的輸出可能帶來風險。

Saxena表示:「AI的確很強大,但當任務既涉及感知又需要精確推理時,我們仍然需要進行嚴格測試、設置備用邏輯,很多情況下還必須有人類介入?!?/span>

另一名作者、愛丁堡大學博士生Aryo Pradipta Gema,則表示如今的AI研究往往強調復雜的推理任務,但具有諷刺意味的是,很多系統(tǒng)在應對更簡單的日常任務時仍顯吃力。

我們的研究發(fā)現(xiàn)表明,現(xiàn)在已經(jīng)到了必須解決這些基礎能力缺陷的時候了。否則,AI在那些對時間敏感的現(xiàn)實應用中,可能始終難以真正落地。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-11-18 09:30:00

2023-11-20 21:56:04

AI推理

2021-05-23 09:51:29

代碼開發(fā)Facebook

2024-04-15 11:48:09

2023-10-28 13:36:48

模型ChatGPT

2024-10-21 14:16:36

2023-12-01 10:20:00

谷歌技術

2023-11-24 17:01:30

模型推理

2024-06-06 10:08:32

2020-10-18 12:27:35

人工智能人臉識別技術

2023-03-03 18:31:23

網(wǎng)絡承運商路由

2018-11-14 10:01:30

谷歌開源機器學習

2019-01-29 10:27:27

量子計算機芯片超算

2016-11-10 20:50:20

微軟開源

2023-11-01 13:47:12

模型研究

2023-12-08 12:45:39

2023-10-26 08:40:15

模型隱私推理

2011-05-23 09:21:42

2020-10-09 08:31:00

AI

2022-12-01 17:17:09

React開發(fā)
點贊
收藏

51CTO技術棧公眾號