AI遭遇靈魂拷問!這道題所有模型集體翻車,網(wǎng)友:我也不會啊
拷打AI的難度還在升級?這不,圖像推理又出現(xiàn)了新難題。
該問題在Reddit上引起熱議:目前沒有任何AI能真正解決復雜推理問題。
圖片
問題定義其實非常簡單——在下圖中還需要添加多少個小立方體能形成一個完整的大立方體?
圖片
針對這一難題,國內(nèi)外支持圖像輸入的大模型紛紛給出了不同的答案。
其中,o3給出的答案是45個,Gemini 2.5Pro給出的答案僅有10個。
圖片
而國內(nèi)大模型,如DeepSeek、Qwen3的答案分別為14和9。
圖片
圖片
出現(xiàn)這些不同答案的原因是什么呢?請往下看。
為什么會出現(xiàn)不同的答案
核心原因:大模型對組成的大立方體的規(guī)格理解不同。
o3將最終組成的大立方體的規(guī)格理解為5x5x5,但它對于缺失的小立方體的數(shù)目仍舊給出了錯誤答案,用人類視覺來看,要形成5x5x5的大立方體需要125個小立方體,而圖中已經(jīng)給出了46個,所以答案應(yīng)該為79。
而AI的錯誤源于它對圖片中小立方體的結(jié)構(gòu)和數(shù)目的分析錯誤。
圖片
Gemini 2.5 Pro將最終組成的大立方體的規(guī)格理解為4x4x4。
圖片
而DeepSeek和Qwen都將最終的大立方體規(guī)格設(shè)定為了3x3x3。
圖片
圖片
對于最終要組成的大立方體的規(guī)模理解不同,各大模型自然而然就會給出不同的答案。
不過,結(jié)合提示多次嘗試,也有大模型能夠漸漸找準方向。
網(wǎng)友針對這些錯誤答案提供了一些解決辦法:
例如用o3進行測試,在前兩次嘗試時給出一些小提示,雖然這樣也得到錯誤答案,但第三次,即使沒有提示也得到了正確的結(jié)果。
圖片
網(wǎng)友認為是由于ChatGPT的長期記憶功能,讓它記住了前兩次嘗試的提示(比如考慮最長運行中有多少個立方體,專注于嚴格計數(shù)而不是估計),考慮到了失敗的經(jīng)驗,并將它們?nèi)空显谝黄稹?/span>
因此,可以說o3會通過記憶來學習。而這道難題也會成為未來的訓練數(shù)據(jù)。
網(wǎng)友:人類也會困惑
有人說,這根本就不是一個推理問題,而是一個視覺理解問題。
出現(xiàn)作者認為的錯誤答案是由于問題表述不清楚導致AI的分析過程出現(xiàn)了偏差。
甚至人類面對這種問題也會出現(xiàn)類似的困惑,比如題目的要求到底是以原來的排列結(jié)構(gòu)為基礎(chǔ)還是可以打亂結(jié)構(gòu)重新排列?
圖片
圖片
并且,如果能夠更清晰地為AI解釋圖片內(nèi)容(告知其圖片中小立方體的排列結(jié)構(gòu)):
圖片
那么o3得到的答案也是正確的:
圖片
無論是3x3x3、4x4x4還是5x5x5,或者是NxNxN,人類自己都無法統(tǒng)一答案的問題,對AI來說是不是太難了點!
網(wǎng)友:
圖片
AI:或許我需要一個更科學的訓練方式!