自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NLP模型超越人類水平?你可能碰到了大忽悠

開發(fā) 開發(fā)工具 深度學(xué)習(xí)
要明確的是,這也不是說像BERT這樣的大型模型或深度學(xué)習(xí)都是無用的。但是,對于深度學(xué)習(xí)模型在高級自然語言理解任務(wù)中表現(xiàn)出的近乎人類表現(xiàn)的報告,我們應(yīng)該持懷疑態(tài)度。

[[276457]]

大數(shù)據(jù)文摘出品

來源:thegradient

編譯:張睿毅、武帥、錢天培

一個軍方訓(xùn)練的神經(jīng)網(wǎng)絡(luò)聲稱可以分類圖像中的坦克,但實際上,它只是學(xué)會了識別不同的亮度,因為一種類型的坦克僅出現(xiàn)在明亮的圖片中,而另一種類型僅出現(xiàn)在較暗的圖片中。

一個游戲AI在學(xué)會了在第一關(guān)的最后故意死去,而不是在更難的第二關(guān)的開局死去,因為這樣可以得到更高的分?jǐn)?shù)。

AI通過某種讓人啼笑皆非的奇怪方式嘗試騙過人類,并達(dá)到自己的目的,這樣的案例之前文摘菌總結(jié)過一大批。

模型通過學(xué)習(xí)“錯誤”的信息來解決任務(wù)的問題已經(jīng)存在很長時間了,并被稱之為“聰明漢斯效應(yīng)(Clever Hans effect)”。

[[276458]]

該效應(yīng)說的是,一匹名為漢斯的馬看似能完成一些簡單的智力任務(wù),但實際上只是依賴于人們給出的無意識線索。

“聰明漢斯效應(yīng)(Clever Hans effect)”在圖像檢測領(lǐng)域早已有之,但最近,在一篇最新論文中,來自臺灣國立成功大學(xué)的Niven和Kao指出,這一現(xiàn)象也正在NLP領(lǐng)域大受關(guān)注。脫去它的影響后,BERT也許沒有我們想得那么神奇。

先附上論文鏈接,再一起看看這個論證過程:https://www.aclweb.org/anthology/P19-1459/

Niven和Kao采用了一個論證理解數(shù)據(jù)集。隨機(jī)選擇的準(zhǔn)確率為50%;之前表現(xiàn)最好的模型的準(zhǔn)確率為71%;然后他們選擇了BERT,僅僅微調(diào)后,便達(dá)到了驚人的77%的準(zhǔn)確率。

如此看來,BERT似乎確實名不虛傳。

但是,作者對這一看似很成功的“微調(diào)”產(chǎn)生了懷疑,并嘗試對此進(jìn)行論證。

NLP迎來“聰明的漢斯”時刻

論證理解是一項相當(dāng)困難的任務(wù),需要世界知識和常識推理。雖然BERT毫無疑問是目前為止最好的語言模型之一,其遷移學(xué)習(xí)正是“NLP的Imagenet時刻”,但鮮有證據(jù)表明,語言模型已經(jīng)習(xí)得高級自然語言理解這一技能。

給定一個論點和一個原因,我們需要找出使得該推理成立的論據(jù)。

 

舉個例子,假設(shè)論點是“谷歌不存在壟斷”,原因是“人們可以選擇不使用谷歌”。這一推理成立背后需要一個論據(jù),即“其他搜索引擎并沒有導(dǎo)向谷歌”。但是如果說“其他搜索引擎都導(dǎo)向了谷歌”,那么論點就不能成立了。

作者也對BERT模型進(jìn)行了三項分析。

首先,他們在可能的答案(即論點)中計算了一元文法(unigrams)和二元文法(bigrams),并觀察到像not,is,or之類的單個一元文法相較于隨機(jī)概率而言,能夠更好地預(yù)測出正確的論點。這表明這些線索是有用的,并且也可能為模型所利用。

接著,為了檢查模型是否確實利用了這些線索,作者只給模型提供了部分輸入,這使得模型不可能推出正確答案。例如,如果沒有給出論點或原因,就不可能推斷出“其他搜索引擎沒有重定向到谷歌”或“其他搜索引擎全都重定向到了谷歌”這兩個論據(jù)哪一個是正確的。然而,模型并不理會這一不可能性,并以71%的準(zhǔn)確率識別出了正確的論點。

在試驗完其他兩項類似的任務(wù)之后(僅論點和論據(jù);僅原因和論據(jù)),作者總結(jié)到,數(shù)據(jù)集中包含著統(tǒng)計線索,而BERT的良好表現(xiàn)完全歸功于對這些線索的利用。

為了說明這一點,在他們的第三個實驗中,作者構(gòu)建了一個數(shù)據(jù)集,其中的線索不再提供信息,發(fā)現(xiàn)BERT性能下降到隨機(jī)概率水平。

相信大多數(shù)人會同意,一個基于大量的如not,is,do之類的一元文法做出預(yù)測的模型是不可能真正理解論證的。

因而,作者聲明他們的SOTA結(jié)果毫無意義。

這讓人聯(lián)想到最近兩個臭名昭著的案例。一個是圖像分類器,聲稱能夠區(qū)分罪犯的面孔和守法公民的面孔,但實際上只是在檢測微笑;另一個是所謂的“性取向檢測器”,實則是在檢測眼鏡,胡須和眼影。

[[276459]]

如果NLP跟隨計算機(jī)視覺的腳步,似乎也注定要重蹈它的覆轍。

回到論文中,作者指出,最近大量的工作顯示NLP數(shù)據(jù)集中的“聰明漢斯效應(yīng)”。

要明確的是,這也不是說像BERT這樣的大型模型或深度學(xué)習(xí)都是無用的。但是,對于深度學(xué)習(xí)模型在高級自然語言理解任務(wù)中表現(xiàn)出的近乎人類表現(xiàn)的報告,我們應(yīng)該持懷疑態(tài)度。

模型表現(xiàn)超好?別急著開心,試試能不能騙過它!

發(fā)現(xiàn)聰明漢斯效應(yīng)案例的論文越來越多,這為NLP研究提出了重要的新議題。最明顯的一個議題就是,如何預(yù)防這種影響。

當(dāng)數(shù)據(jù)集中的模式與手頭任務(wù)的目標(biāo)一致時,那么能夠識別、記住并概括這些模式的模型就是可取的。 如果不是的話,那模型就很可能在不理解任務(wù)的情況下依然表現(xiàn)良好。

為了防止聰明漢斯效應(yīng),我們需要更好的數(shù)據(jù)集,并且對模型進(jìn)行嚴(yán)格的魯棒性分析。

提出一個模型、并對其進(jìn)行改進(jìn)可以讓你在開發(fā)過程中獲得即時的滿足感。此外,在公共數(shù)據(jù)集上的SOTA也可以確保論文被接收。

然而,創(chuàng)建數(shù)據(jù)集所獲得的的滿足感更加滯后且不確定。據(jù)說,ACL會議評審人員對提出獲取SOTA的新模型的論文的默認(rèn)立場是“接受”,而引入新數(shù)據(jù)集的論文則很可能因為“本文只引入新數(shù)據(jù)集”而拒絕。他們認(rèn)為,創(chuàng)建數(shù)據(jù)集的人沒有做真正的科學(xué)研究。

移除模型的一部分(ablation)并觀察其對性能的影響是驗證某部件是否有用的常用方法。 如果性能沒有下降,那么該部件就是無用的,應(yīng)該被消除。

這也應(yīng)該成為執(zhí)行數(shù)據(jù)集消除任務(wù)的常見做法,例如:

  • 僅提供不完整的輸入(如前文所述):這將驗證是否需要完整輸。如果不需要,則說明數(shù)據(jù)集包含著一些可以采取捷徑的線索。
  • 打亂輸入:這可以驗證單詞(或句子)順序的重要性。 如果分?jǐn)?shù)沒有太大變化,那說明模型并沒有理解輸入的順序信息。
  • 分配隨機(jī)標(biāo)簽:如果10%的實例被隨機(jī)重新標(biāo)記,性能會下降多少呢?所有實例重新標(biāo)記呢?如果分?jǐn)?shù)沒有太大變化,那么模型可能沒有學(xué)到任何有趣的東西。
  • 隨機(jī)替換內(nèi)容詞:如果所有名詞短語或動詞短語都被隨機(jī)名詞短語和動詞替換,性能會下降多少?如果不多,則數(shù)據(jù)集可能提供了預(yù)料之外的非內(nèi)容提示,例如句子長度或功能詞的分布。

再舉個例子。如果在輸入中添加一個不相關(guān)的句子會導(dǎo)致問答模型給出不同的答案(見下圖),就說明該模型并不能真正理解問題。

除了創(chuàng)建更好的數(shù)據(jù)集外,模型的創(chuàng)建者也應(yīng)該有“建造它,破壞它”(Build It,Break It)的心態(tài)。模型不僅要在特定數(shù)據(jù)集上獲得高分,也要有足夠的魯棒性。

如果你的模型表現(xiàn)優(yōu)良,先別急著開心!嘗試改變你的輸入,看看你是否能能夠騙過你的模型。

如果你挖空心思也無法騙過你的模型,大概這時你才創(chuàng)造出了一個真正的好模型!

相關(guān)報道:

https://thegradient.pub/nlps-clever-hans-moment-has-arrived/?nsukey=zGUM%2BitIg2PGgczL9OmBgiXDHkdeWy4hJYQG33fkllynu9PqhCkmZecP%2Bjrltr7xEB14BaM3FGFlyRWfJj9geFWr9cIsH%2FXosh%2B1kWc8%2BYCti2mUogfGmD8YTXENuU9X2slPjqbQOkYURwZHDx%2FnRv68UyeFpeWbEu6YIyOjk2eonxejiqu8sWZT%2B8FWxdUSAEOqQ%2Bwr6iGpCV8y3AgrAA%3D%3D

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文 

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2022-12-01 15:22:02

AI阿里騰訊

2012-07-06 10:15:55

大數(shù)據(jù)

2024-02-02 21:42:41

2020-06-30 08:25:14

人工智能深度學(xué)習(xí)技術(shù)

2023-10-17 12:33:27

AI模型

2017-05-09 09:21:00

2020-07-30 13:31:39

AI 數(shù)據(jù)人工智能

2023-08-10 13:57:50

模型AI

2011-06-28 09:16:11

切克簽到

2016-03-14 14:45:18

中華網(wǎng)

2024-09-05 15:48:21

2023-10-26 19:05:57

AI模型

2020-08-26 13:18:19

AI 數(shù)據(jù)人工智能

2019-04-05 10:10:22

AI機(jī)器學(xué)習(xí)安全

2024-01-23 10:35:09

ChatGPT人工智能

2024-08-07 09:30:00

2023-05-03 21:03:42

2024-10-28 09:47:53

2011-05-16 14:45:47

項目經(jīng)理超越
點贊
收藏

51CTO技術(shù)棧公眾號