自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

難以捉摸?機器學習模型的可解釋性初探

開發(fā) 開發(fā)工具
在機器學習中,可解釋性的概念既重要又難以捉摸。我們能相信模型嗎?它在部署過程中會起作用嗎?

[[374622]]

引子:在機器學習中,可解釋性的概念既重要又難以捉摸。我們能相信模型嗎?它在部署過程中會起作用嗎?關于這個世界,模型還能告訴我們什么?模型不僅應該是好的,而且應該是可以解釋的,然而,可解釋性似乎沒有具體的說明和定義。本文編譯自 Zachary C. Lipton 的一篇文章https://queue.acm.org/detail.cfm?id=3241340,希望對模型的可解釋性能夠有所認知。

有監(jiān)督的機器學習模型往往具有顯著的預測能力,很多學術文獻為解釋性提供了多樣的、有時是稍有矛盾的描述,并提供了很多的技術來呈現(xiàn)可解釋的模型。可解釋性的定義并不明確,但是,人們還是都宣稱他們的模型是可解釋,盡管沒有進一步的論據(jù)。問題在于,我們目前還不清楚這些關于模型可解釋性技術的共同特性到底是什么。

本文試圖定義可解釋性。通過了解以前文章中對可解釋性的描述,發(fā)現(xiàn)這些描述是多樣的,有時候甚至存在著部分的矛盾。然后,探討了模型的性質(zhì)和技術思想,以明確可解釋性,進而確定對人類的透明度和事后解釋是有競爭的概念。在整個過程中,討論了關于可解釋性不同概念的可行性和可取性。從而可以看到,“線性模型是可解釋的,而深層神經(jīng)網(wǎng)絡模型不是”這一論斷可能是有問題的。

關于解釋

在現(xiàn)實中,如果我們申請貸款,一個銀行的工作人員可能決定了成敗與否。如果去醫(yī)院就醫(yī),一個醫(yī)生會試圖對我們的病患分類,并建議治療。對于這樣的結果性決策,我們可能會要求銀行的工作人員或者醫(yī)生作出解釋。在社會背景下,做出決定的原因往往很重要。例如,在司法中,故意殺人與過失殺人是不同的犯罪。然而,今天的預測模型基本上不具備推理能力。

在過去的20年里,機器學習的快速發(fā)展導致了自動決策過程的部署。在實際應用中,大多數(shù)基于最大似然法的決策過程是這樣的: 對最大似然算法進行訓練,以獲取一些輸入并預測相應的輸出。例如,給定一組描述金融交易的屬性,機器學習算法可以預測長期投資回報。給定 CT 掃描的圖像,算法可以給出圖像中可能存在癌腫瘤的概率。機器學習算法吸收了大量成對的輸入輸出,并輸出一個模型,該模型可以預測之前未見的輸入所對應的輸出。形式上,這種問題稱為監(jiān)督式學習。然后,為了完全自動化決策,我們將模型的輸出輸入到一些決策規(guī)則中。例如,垃圾郵件過濾器以編程方式丟棄電子郵件,因為那些郵件被預測為垃圾郵件的置信度超過了某個閾值。

因此,基于機器學習的系統(tǒng)不知道為什么給定的輸入應該接收某個標簽,只知道某些輸入與該標簽相關。例如,對于一個給定的數(shù)據(jù)集,籃球是其中唯一的橙色物體,圖像分類器通過學習后可能會所有橙色物體分類為籃球。這個模型即使在圖像糟糕的情況下也能達到很高的精確度,盡管它沒有抓住真正起作用的區(qū)別。

隨著機器學習滲透到諸如醫(yī)學、刑事司法系統(tǒng)和金融市場等關鍵領域,人們無法理解這些模型似乎是個問題。有些人建議將模型的可解釋性作為一種補救辦法,但在文獻中,很少有作者明確闡述可解釋性意味著什么,或者提出的模型究竟如何有用。

盡管缺乏定義,但越來越多的文獻提出了據(jù)稱是可解釋的算法。至此,可以得出兩種結論: (1)可解釋性的定義是普遍一致的,只是沒有人費心把它寫下來; 或者(2)可解釋性的定義并不明確,關于模型可解釋性的看法可能并不科學。遺憾的是,現(xiàn)實屬于后者。研究模型可解釋性的文獻所提出的目標和方法是多樣的,這表明可解釋性不是一個單一的概念。

本文關注的是監(jiān)督式學習,而不是如強化等其他的機器學習范式,主要是監(jiān)督式學習在現(xiàn)實世界中的應用地位,以及對所謂“線性模型是可解釋的而深層神經(jīng)網(wǎng)絡是不可解釋的”這一說法的興趣。

有人認為,可解釋的模型是可取的,因為它可能有助于揭示觀測數(shù)據(jù)的因果結構。有時候,可解釋性的目標可能僅僅是從模型中獲得更多有用的信息。許多人都提出可解釋性是產(chǎn)生信任的一種手段。這導致了一個同樣令人煩惱的認識論問題: 什么是信任?這是否意味著一個可信任的模型會有很好的表現(xiàn)?或者可解釋性僅僅意味著對模型的低層次機械理解?信任是主觀定義的嗎?

雖然可解釋性的目標是多種多樣的,但通常指的是標準的機器學習公式,例如,訓練數(shù)據(jù)完全代表的一組數(shù)據(jù)的最大準確度與它們要解決的復雜現(xiàn)實任務并不能不完全匹配。考慮有縱向數(shù)據(jù)的醫(yī)學研究而言,真正的目標可能是發(fā)現(xiàn)潛在的因果關系,用于指導干預,就像吸煙與癌癥那樣。然而,大多數(shù)監(jiān)督式學習模型的優(yōu)化目標是簡單地減少錯誤。這種不匹配的另一個例子是,可用的訓練數(shù)據(jù)不能完全代表可能的部署環(huán)境,真實的環(huán)境往往具有不斷變化的動態(tài)。想象一下為一個在線商店訓練一個產(chǎn)品推薦系統(tǒng),在這個系統(tǒng)中新產(chǎn)品會定期推出,顧客的偏好會隨著時間的推移而改變。在更極端的情況下,來自基于機器學習系統(tǒng)的操作可能會改變環(huán)境,使未來的預測失效。

一些論文將可解釋性等同于易懂性或可理解性(即可以掌握模型是如何工作的)。在這些論文中,可理解的模型有時被稱為透明模型,而不可理解的模型被稱為黑盒子。但是什么是透明度呢?看看算法身: 它會收斂嗎?它是否產(chǎn)生了一個唯一的解決方案?或者可以看看它的參數(shù): 知道每一個代表什么嗎?再或者,可以考慮模型的復雜性: 它是否足夠簡單,可以由人們一次性進行完全部的檢查?

事后解釋可能解釋了預測,卻沒有闡明模型工作的機制,例如,人們的口頭解釋或用于分析深層神經(jīng)網(wǎng)絡的顯著圖。因此,盡管人腦具有黑盒子性質(zhì),但人類的決策可能承認事后可解釋性,這揭示了兩種流行的可解釋性概念之間的矛盾。

為什么需要可解釋性?

當監(jiān)督式學習的正式目標(測試集的預測性能)與生產(chǎn)環(huán)境中的實際結果之間出現(xiàn)不匹配時,對可解釋性的需求就會出現(xiàn)。

通常,評估指標只需要預測結果和真實的數(shù)據(jù)。當涉眾另外要求可解釋性時,可能要推斷出目標的存在,而這些目標卻不能以這種方式捕獲。大多數(shù)常用的監(jiān)督式學習評估指標只需要預測,再加上基本事實,就能得出一個分數(shù)。因此,有時僅僅根據(jù)預測和計算的指標不足以描述模型的特征。

通常,現(xiàn)實世界的目標很難用簡單的數(shù)學函數(shù)進行編碼。否則,它們可能只是被納入到目標函數(shù)中,問題就被認為已經(jīng)解決了。例如,雇傭決策的算法應該同時優(yōu)化生產(chǎn)力、道德和合法性。但是,如何寫一個衡量道德或法律的函數(shù)呢?當希望對訓練和生產(chǎn)環(huán)境之間的動態(tài)變化具有魯棒性時,也可能會出現(xiàn)這個問題。

信任

一些人認為解釋性是信任的先決條件。什么是信任呢?僅僅是因為相信一個模型會有好的表現(xiàn)嗎?如果是這樣的話,一個足夠精確的模型應該被證明是值得信賴的,而可解釋性也沒有任何意義。信任也可以從主觀上定義。例如,一個人可能會對一個理解透徹的模型感到更自在,即使這種理解沒有任何明顯的目的。另外,當訓練和生產(chǎn)目標不一致時,信任可能表示相信模型將在實際目標和場景方面表現(xiàn)良好。

例如,考慮到越來越多地使用機器學習模型來預測犯罪率,以便分配警官。這個模型可以做出準確的預測,但是不能考慮訓練數(shù)據(jù)中的種族偏見,也不能考慮模型自身的影響,即過度監(jiān)管某些社區(qū)。

在另一種意義上,如果最終用戶愿意放棄對ML模型的控制,那么他們可能會被認為信任這個機器學習模型。通過這個透鏡,人們可能不僅關心一個模型的正確頻率,而且還關心它對哪些例子是正確的。如果模型傾向于只在人類也會犯錯誤的輸入上犯錯誤,因此當人類是準確的時候通常也是準確的,那么人們可能會相信這個模型,因為沒有任何放棄控制的預期成本。然而,如果一個模型傾向于在人類精確分類的輸入上犯錯誤,那么維持人類對算法的監(jiān)督可能總是有好處的。

因果關系

盡管監(jiān)督式學習模型只是為了建立聯(lián)系而進行優(yōu)化,人們?nèi)匀唤?jīng)常使用它們來推斷自然世界的屬性。例如,一個簡單的回歸模型可能會用來揭示吸煙與肺癌之間的密切聯(lián)系。

通過監(jiān)督式學習算法學習到的關聯(lián)關系并不能保證反映的是因果關系。對于這兩個相關的變量,總是有一些未被觀察到的其他因素。然而,人們可能希望通過解釋監(jiān)督式的學習模型,可以生成可以檢驗的假設。例如,某些人強調(diào)回歸樹和貝葉斯神經(jīng)網(wǎng)絡,認為這些模型是可解釋的,因此能夠更好地提供生理信號和情感狀態(tài)之間因果關系的線索。從觀測數(shù)據(jù)推斷因果關系的任務得到了廣泛的研究。然而,因果推斷方法往往依賴于強有力的假設,特別是在大型且復雜的數(shù)據(jù)集上,并沒有被從業(yè)人員廣泛的使用。

可傳遞性

通常,訓練和測試數(shù)據(jù)是通過從相同的分布中隨機分割樣本示例來選擇的。然后根據(jù)模型在訓練和測試數(shù)據(jù)上的表現(xiàn)差距來判斷模型的泛化誤差。然而,人類能夠表現(xiàn)出更豐富的概括能力,將學到的技能轉移到不熟悉的環(huán)境中。機器學習算法也已經(jīng)在這些情況下得到了應用,比如當環(huán)境是非平穩(wěn)的時候。模型還可能部署在其可能改變環(huán)境、使其未來預測失效的環(huán)境中。

更糟糕的是,在一些情況下,比如為了安全而進行的機器學習,環(huán)境可能會變得非常不利,例如CNN的敏感性。CNN 對那些不知不覺受到干擾的圖像進行了錯誤的分類。當然,這在傳統(tǒng)意義上并不合適。該模型在訓練數(shù)據(jù)上取得了較好的結果,并且用于對測試數(shù)據(jù)進行分類時能夠進行得很好。關鍵的區(qū)別在于,這些圖像被改變了,雖然對人類觀察者來說很微妙,但在模型訓練中從未遇到過。然而,這些是人類不會犯的錯誤。如今,監(jiān)督式學習模型經(jīng)常受到這種對抗性的挑戰(zhàn)。

另一個例子是用于生成信用評級的模型——得分越高意味著個人償還貸款的概率越高。有人使用 Logit模型模型來訓練信用模型,并把可解釋性作為選擇模型的動機。特征包括賬戶平均年齡、債務比率、逾期付款的數(shù)量以及信譽良好賬戶的數(shù)量。這其中的幾個因素可以被請求信貸的人隨意操縱。例如,一個人可以簡單地請求增加定期信貸額度,同時保持消費模式不變,就可以改變債務比率。事實上,銀行一般都承認信用評級是可以被操縱的,甚至還提出了改善信用評級的建議。這些提高評級的策略可能會從根本上改變一個人償還債務的能力。個人的信息狀態(tài)和評級系統(tǒng)的博弈可能會使其預測能力失效。

信息量

有時候,將決策理論應用于監(jiān)督模型的輸出,以便于在現(xiàn)實世界中采取行動。然而,在另一種常見的使用范式中,監(jiān)督模型被用來向人類決策者提供信息。雖然機器學習的目標可能是減少錯誤,但現(xiàn)實世界的目的是提供有用的信息。模型傳遞信息最明顯的方式是通過其輸出,但也可能通過某些程序向人類決策者傳遞額外的信息。

即使不闡明模型的內(nèi)部工作原理,一個模型也可能被證明是有用的。例如,診斷模型可以通過指出相似的案例來支持診斷決策,從而為人類決策者提供直覺。在某些情況下,當真正的任務更接近于監(jiān)督式學習的時候,會訓練一個非監(jiān)督式的學習模型。真正的目標可能是探索數(shù)據(jù)的底層結構,而目標的標注只起到弱監(jiān)督的作用。

公平合理的決策

目前,政客、記者和研究人員都表示擔心,必須通過解釋來評估算法自動生成的決定是否符合道德標準。怎么能確定預測中沒有基于種族的歧視呢?傳統(tǒng)的評估指標,如準確性或 AUC (曲線下面積),很少保證基于ML的決策行為是可接受的。因此,對公平的要求往往導致對可解釋模型的要求。

可解釋性的透明度概念

為了賦予可解釋性,我們需要探討模型所涉及的技術和模型屬性。它們大致可分為兩類。第一個與透明度有關(例如,模型是如何工作的?),第二種是事后的解釋(例如,模型還能告訴我什么?)

非正式地說,透明度是不透明或“黑盒子”的反義詞,它意味著對模型工作機制的某種理解。這里在整個模型級別(可模擬性)、單個組件級別(如參數(shù)級別,可分解性)和訓練算法級別(算法透明性)上考慮透明性。

可模擬性

從嚴格的意義來講,如果一個人能夠同時考量整個模型,那么這個模型可以被稱為透明模型。這個定義表明,可解釋的模型是一個簡單的模型。例如,為了充分了解一個模型,人們應該能夠將輸入數(shù)據(jù)與模型的參數(shù)一起考量,在合理的時間步長內(nèi)完成生成預測所需的每一次計算。這符合通常的說法,即稀疏線性模型,表明可解釋性模型是一種“可以很容易地用視覺或文本組件呈現(xiàn)給用戶”的模型。

為了應用單一預測,模型大小和計算之間的權衡因模型而異。例如,在某些模型(如決策樹)中,與執(zhí)行推理所需的時間(從根到葉的傳遞長度)相比,模型的大小(節(jié)點總數(shù))可能會變得相當大。這表明,可模擬性可能包含兩個子類型: 一個基于模型的大小,另一個基于執(zhí)行推理所需的計算。

在確定可模擬性的概念時,用“合理”表示的量是主觀的。然而,很明顯,由于人類認知能力有限,這種模糊性可能會跨越幾個數(shù)量級。在這種情況下,無論是線性模型、基于規(guī)則的系統(tǒng),還是決策樹,本質(zhì)上都是不可解釋的。高維的模型、笨重的規(guī)則列表和深度的決策樹都可以被認為不如相對緊湊的神經(jīng)網(wǎng)絡透明。

可分解性

關于透明度的第二個概念可能是,模型的每個部分都是什么?輸入,參數(shù),計算需要有一個直觀的解釋。例如,決策樹中的每個節(jié)點可能對應于一個簡單的文本描述。類似地,線性模型的參數(shù)可以描述為表示每個特征和標簽之間關聯(lián)的強度。

請注意,這種可解釋性的概念要求輸入本身是可以單獨解釋的,會使一些具有高度工程化或匿名特征的模型無效。雖然這種觀點很流行,但不應盲目地接受。線性模型的權重看起來似乎很直觀,但是在特征選擇和預處理方面可能是脆弱的。例如,與流感風險和疫苗接種之間的聯(lián)系相應的系數(shù)可能是正的或負的,這取決于特征集合是否包括老年、嬰兒或免疫缺陷的指標。

算法透明度

最后一個關于透明度的概念是機器學習算法的本身。在線性模型的情況下,可以理解誤差曲面的形狀。即使是對于以前沒有見過的數(shù)據(jù)集,我們也可以證明訓練將收斂到一個唯一的解決方案。這可能會提供一些信心,即模型將在需要對以前看不到的數(shù)據(jù)進行重新訓練的在線設置中運行。另一方面,現(xiàn)代的深度學習方法缺乏這種算法的透明度。雖然神經(jīng)網(wǎng)絡的啟發(fā)式優(yōu)化程序顯然是強大的,但我們不知道它們是如何工作的,目前也不能保證它們能夠先驗地工作在新的問題上。

事后解釋

事后解釋性是從學習模型中提取信息的一種獨特方法。雖然事后解釋通常不能精確地闡明一個模型是如何工作的,但是它們可能為機器學習的實踐者和最終用戶提供有用的信息。一些常見的事后解釋方法包括自然語言解釋、學習表征或模型的可視化,以及通過例子解釋(例如,這個腫瘤被歸類為惡性腫瘤,因為在模型中它看起來與其他的惡性腫瘤很相似)。

在某種程度上,我們可能認為人類是可以解釋的,這是一種適用的可解釋性。就我們所知,人類做決定的過程和解釋決定的過程可能是截然不同的。這種可解釋性概念的一個優(yōu)點是,不透明的模型可以在事后解釋,而不犧牲預測的效果。

文字解釋

人類經(jīng)??陬^上為自己的決定辯護。類似地,一個模型可能被訓練來產(chǎn)生預測,另一個單獨的模型,如遞歸神經(jīng)網(wǎng)絡語言模型,來產(chǎn)生解釋。這樣的系統(tǒng)一般是,其中一個模型(強化學習)選擇行動,以優(yōu)化累積收益;另一個模型將模型的狀態(tài)表示映射到對策略的口頭解釋上。這些解釋被訓練來最大限度地從人類那里得到先前觀察到的真實性解釋的可能性,并且可能不會忠實地描述代理人的決定。這種方法與最近的神經(jīng)圖像字幕研究存在一定的聯(lián)系。在這種神經(jīng)圖像字幕研究中,區(qū)分性的 CNN (圖像分類訓練)所學習的表征被第二個模型所吸收,從而生成字幕。這些字幕可以被看作是伴隨分類的解釋。

在推薦系統(tǒng)的研究中,使用文本來解釋潛在因素的模型決策。方法包括同時訓練評級預測的潛在因素模型和產(chǎn)品評論的主題模型。在訓練期間,在減少評分預測的平方差和增加評論文本的可能性之間交替。這些模型之所以連接在一起,是因為它們使用規(guī)范化的潛在因子作為主題分布。也就是說,潛在因素被正則化,因此它們也能很好地解釋評論文本中的話題分布。然后,通過檢查主題中與其潛在因子的匹配成分相對應的頂部詞匯來解釋用戶項的兼容性。注意,通過顯示頂部詞匯來解釋主題模型的做法本身就是一種特殊的解釋技術,已經(jīng)引起了進一步的關注。此外,在這里只討論了解釋的形式因素(包含自然語言) ,但是并沒有討論正確性的確切含義。到目前為止,很多文獻已經(jīng)回避了正確性的問題,有時通過擁抱對問題的主觀觀點,詢問人們他們更喜歡什么來回避這個問題。

可視化

事后解釋的另一種常見方法是可視化,以希望定性地確定一個模型學到了什么。一種流行的方法是利用 t-SNE (t 分布隨機鄰域嵌入)對高維分布表示進行可視化,這是一種使鄰近數(shù)據(jù)點可能緊密地出現(xiàn)在一起的二維可視化技術。

在計算機視覺領域,通過改變圖像分類網(wǎng)絡的輸入梯度下降法來增強從隱藏層中選擇的特定節(jié)點的激活,從而解釋圖像分類網(wǎng)絡學到了什么,檢查受到干擾的輸入可以提供模型所學到的線索。類似的方法已經(jīng)開始被探索,以研究在神經(jīng)網(wǎng)絡的不同層次上保留了哪些信息。例如,通過一個有區(qū)別的 CNN 傳遞一個圖像來生成一個表示。然后,原始圖像可以恢復高保真度,即使從合理的高級別表示(例如6層的 AlexNet)通過執(zhí)行梯度下降法的隨機初始化像素。和前面的文本解釋一樣,關于可視化的討論主要集中在形式因素和興趣點上,但是我們?nèi)匀蝗狈栏竦恼_性標準。

局部解釋

雖然簡潔地描述神經(jīng)網(wǎng)絡學習到的完整映射可能是很困難的,但是一些文獻集中于解釋神經(jīng)網(wǎng)絡依賴于局部的哪些因素。深層神經(jīng)網(wǎng)絡的一個流行的方法是計算顯著性映射。通常,它們采用與給定輸入向量相對應的正確分類的輸出梯度。對于圖像,這個漸變可以作為蒙板,突出顯示輸入?yún)^(qū)域,如果改變,將最大程度地影響輸出。需要注意的是,這些關于模型關注點的解釋可能會產(chǎn)生誤導。顯著性圖只是一個局部解釋。一旦移動了一個像素,可能會得到一個非常不同的顯著性圖像。這與線性模型相反,線性模型模擬了輸入和輸出之間的全局關系。

通過學習一個單獨的稀疏線性模型來解釋第一個模型的決策,從而解釋在特定點附近的局部區(qū)域中任何模型的決策。奇怪的是,盡管該方法對顯著性映射的興趣點在于它能夠為不可微的模型提供了解釋,但是它更常用于需要解釋的模型實際上是可微的情況。在這種情況下,除了對梯度進行噪聲估計外,還能提供什么信息尚不清楚。是否比普通的漸變信息更多,可能在很大程度上取決于如何選擇超像素。此外,如果沒有一個嚴格定義的目標,誰能說哪些超參數(shù)是正確的呢?

例證式的可解釋性

一個解釋模型所確定的特別機制可能是報告哪些其他的例子與模型最相似,訓練一個深層的神經(jīng)網(wǎng)絡或潛變量模型,不僅可以預測一個有區(qū)別的任務,而且還可以學習表示。然后,對于任何示例,除了生成預測之外,還可以使用隱藏層的激活來根據(jù)模型所學空間的鄰近程度識別 k近鄰。這種例證式的解釋在人類如何通過類比來證明行為的合理性方面有先例。例如,醫(yī)生經(jīng)常引用個案研究來支持計劃的治療方案。

在神經(jīng)網(wǎng)絡文獻中,有人使用這種方法來檢驗word2vec 模型訓練后的學習表征。在訓練模型進行skip-gram預測的同時,為了檢驗模型學習到的關系,模型根據(jù)潛在空間中計算的距離,列舉了詞的最近鄰。

主要結論

可解釋性的概念顯得既重要又難以捉摸。前面分析了解釋性的動機和學者們賦予它的一些嘗試。現(xiàn)在讓我們考慮一下這個分析的含義,并提供幾個要點。

  • 嚴格來說,線性模型并不比深層神經(jīng)網(wǎng)絡更具可解釋性。盡管這一說法流行已久,其價值取決于可解釋性中的哪一個概念正在使用。關于算法透明度,這一說法似乎沒有爭議,但對于高維或大量的工程特征,線性模型分別失去了可模擬性或可分解性。

在線性模型和深度模型之間進行選擇時,我們必須經(jīng)常在算法透明性和可分解性之間進行權衡。這是因為深層神經(jīng)網(wǎng)絡傾向于對原始或輕微處理的特征進行操作。因此,如果沒有其他事情,這些特征直觀上是有意義的,而事后推理是合理的。然而,為了獲得可比的性能,線性模型通常必須在大量手工設計的特征上運行。在這種情況下,線性模型只能以可分解性為代價來逼近遞歸神經(jīng)網(wǎng)絡(RNN)的性能。

  • 對于某些類型的事后解釋,深層神經(jīng)網(wǎng)絡顯示出明顯的優(yōu)勢??紤]到可解釋性的要求,線性模型似乎在研究自然世界方面有更好的記錄,但是似乎沒有理論上的原因說明為什么必須如此??梢韵胂螅陬愃频那闆r下,事后解釋可能證明是有用的。
  • 關于可解釋性的說法必須加以限定。可解釋性并不是一個單一的概念。為了有意義,任何關于可解釋性的斷言都應該先確定一個特定的定義。如果模型滿足了某種形式的透明性,則可以直接顯示這一點。對于事后的可解釋性,應確定一個明確的目標,并證明所提供的解釋形式實現(xiàn)了這一目標。

在某些情況下,透明度可能與通用人工智能的目標相悖。一些反對黑盒算法的論點似乎排除了任何能夠在復雜任務上匹配或超越人類能力的模型。一個具體的例子是,通過提高透明度與醫(yī)生建立信任的短期目標可能與改善保健的長期目標相沖突。在放棄預測能力時要小心,因為透明度的要求是合理的,而不是簡單地向反對新方法的機制讓步。

事后解釋可能會產(chǎn)生誤導,謹防盲目地擁抱特定的可解釋性概念,尤其是在通過優(yōu)化以安撫主觀需求的時候。在這種情況下,優(yōu)化算法可能會提出似是而非的解釋。一些記者和社會學家已經(jīng)證明,由于諸如領導力或原創(chuàng)力等美德而作出的決定往往掩蓋了種族或性別的歧視。

關于模型可解釋性的未來

首先,對于某些問題,現(xiàn)實生活和機器學習目標之間的差異可以通過開發(fā)更豐富的損失函數(shù)和性能指標來緩解。這一方向的典型例子包括了稀疏導致的正則化和代價敏感的研究。其次,這種分析可以擴展到其他的機器學習范例,比如強化學習。強化學習可以直接建模模型和環(huán)境之間的交互,從而實現(xiàn)可解釋性研究的部分(但不是全部)目標。然而,這種能力可能會以允許模型在現(xiàn)實世界中進行實驗為代價,從而產(chǎn)生真正的后果。

值得注意的是,強化學習能夠學習自己行為和現(xiàn)實世界的影響之間的因果關系。然而,像監(jiān)督式學習一樣,強化學習依賴于一個定義良好的度量目標。對于像公平這樣的問題,我們盡力用語言表達可解釋性的精確定義,機器學習范式的轉變不太可能消除可解釋性面臨的問題。

 

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2019-08-29 18:07:51

機器學習人工智能

2024-05-28 08:00:00

人工智能機器學習

2010-01-22 17:21:32

C++語言

2023-03-07 16:48:54

算法可解釋性

2025-01-13 08:13:18

2024-09-18 05:25:00

可解釋性人工智能AI

2024-11-04 14:33:04

機器學習SHAP黑盒模型

2025-01-23 08:23:12

2018-05-23 10:23:18

數(shù)據(jù)系統(tǒng)機器學習

2019-03-28 09:26:26

數(shù)據(jù)科學模型機器學習

2022-06-14 14:48:09

AI圖像GAN

2020-08-19 09:20:00

機器學習人工智能Python

2023-05-04 07:23:04

因果推斷貝葉斯因果網(wǎng)絡

2021-12-30 20:20:46

機器學習銷售語言

2019-10-22 10:12:45

機器學習模型人工智能

2020-08-25 10:30:59

TensorFlow數(shù)據(jù)機器學習

2025-03-10 08:34:39

2024-05-21 09:45:40

機器學習人工智能XAI

2023-09-20 11:42:44

人工智能AI

2021-01-25 21:41:59

人工智能深度學習自動駕駛
點贊
收藏

51CTO技術棧公眾號