在《神經(jīng)網(wǎng)絡(luò)中常見(jiàn)的激活函數(shù)》一文中對(duì)激活函數(shù)進(jìn)行了回顧,下圖是激活函數(shù)的一個(gè)子集——
而在神經(jīng)網(wǎng)絡(luò)領(lǐng)域中的另一類(lèi)重要的函數(shù)就是損失函數(shù),那么,什么是損失函數(shù)呢?
損失函數(shù)是將隨機(jī)事件或其有關(guān)隨機(jī)變量的取值映射為非負(fù)實(shí)數(shù)以表示該隨機(jī)事件的“風(fēng)險(xiǎn)”或“損失”的函數(shù),用于衡量預(yù)測(cè)值與實(shí)際值的偏離程度。在機(jī)器學(xué)習(xí)中,損失函數(shù)是代價(jià)函數(shù)的一部分,而代價(jià)函數(shù)是目標(biāo)函數(shù)的一種類(lèi)型。在應(yīng)用中,損失函數(shù)通常作為學(xué)習(xí)準(zhǔn)則與優(yōu)化問(wèn)題相聯(lián)系,即通過(guò)最小化損失函數(shù)求解和評(píng)估模型。
這里簡(jiǎn)要回顧一些常見(jiàn)的損失函數(shù)及其簡(jiǎn)明用例。為了便于理解,將損失函數(shù)分為兩類(lèi):面向分類(lèi)的損失函數(shù)和面向回歸的損失函數(shù)。 為了便于不同損失函數(shù)的比較,常將其表示為單變量的函數(shù),在回歸問(wèn)題中這個(gè)變量為y?f(x),在分類(lèi)問(wèn)題中則為yf(x)。
面向分類(lèi)的損失函數(shù)
對(duì)于二分類(lèi)問(wèn)題,y∈{?1,+1},損失函數(shù)常表示為關(guān)于yf(x)的單調(diào)遞減形式。yf(x)被稱(chēng)為margin,最小化損失函數(shù)也可以看作是最大化 margin 的過(guò)程,任何合格的分類(lèi)損失函數(shù)都應(yīng)該對(duì) margin<0 的樣本施以較大的懲罰。
Cross Entropy Loss 損失函數(shù)
物理學(xué)上的熵表示一個(gè)熱力學(xué)系統(tǒng)的無(wú)序程度。為了解決對(duì)信息的量化度量問(wèn)題,香農(nóng)在1948年提出了“信息熵”的概念,使用對(duì)數(shù)函數(shù)表示對(duì)不確定性的測(cè)量。熵越高,表示能傳輸?shù)男畔⒃蕉?,熵越少,表示傳輸?shù)男畔⒃缴?,可以直接將熵理解為信息量?/p>
交叉熵(cross-entropy,CE)刻畫(huà)了兩個(gè)概率分布之間的距離,更適合用在分類(lèi)問(wèn)題上,因?yàn)榻徊骒乇磉_(dá)預(yù)測(cè)輸入樣本屬于某一類(lèi)的概率。
Cross Entropy loss損失函數(shù),或負(fù)對(duì)數(shù)損失,衡量輸出為0到1之間的概率值的分類(lèi)模型的性能,常用于二分類(lèi)和多分類(lèi)問(wèn)題中。交叉熵?fù)p失隨著預(yù)測(cè)的概率值遠(yuǎn)離實(shí)際標(biāo)簽而增加。一個(gè)完美的模型將會(huì)是0損失,因?yàn)轭A(yù)測(cè)的值將會(huì)匹配實(shí)際的值。
對(duì)二分類(lèi),交叉熵?fù)p失的公式如下:
在多分類(lèi)任務(wù)中,經(jīng)常采用 softmax 激活函數(shù)+交叉熵?fù)p失函數(shù),因?yàn)榻徊骒孛枋隽藘蓚€(gè)概率分布的差異,然而神經(jīng)網(wǎng)絡(luò)輸出的是向量,并不是概率分布的形式。所以需要 softmax激活函數(shù)將一個(gè)向量進(jìn)行“歸一化”成概率分布的形式,再采用交叉熵?fù)p失函數(shù)計(jì)算 loss。
對(duì)于多分類(lèi),交叉熵?fù)p失的公式如下:
Focal Loss 損失函數(shù)
Focal loss 損失函數(shù)是為了解決 one-stage 目標(biāo)檢測(cè)中正負(fù)樣本極度不平衡的問(wèn)題,是一個(gè)密集目標(biāo)檢測(cè)的損失函數(shù)。在訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)解決目標(biāo)檢測(cè)和分類(lèi)問(wèn)題時(shí),這是最常見(jiàn)的選擇之一。
Focal loss損失函數(shù)是基于二分類(lèi)交叉熵的,通過(guò)一個(gè)動(dòng)態(tài)縮放因子,可以動(dòng)態(tài)降低訓(xùn)練過(guò)程中易區(qū)分樣本的權(quán)重,從而將重心快速聚焦在那些難區(qū)分的樣本。那些樣本有可能是正樣本,也有可能是負(fù)樣本,但都是對(duì)訓(xùn)練網(wǎng)絡(luò)有幫助的樣本。
Focal loss損失函數(shù)計(jì)算一個(gè)動(dòng)態(tài)縮放的交叉熵?fù)p失,如果其中的比例因子衰減為零,作為正確的類(lèi)的置信度增加。
Polyloss 損失函數(shù)
Cross-entropy loss損失函數(shù)和 focal loss損失函數(shù)是深層神經(jīng)網(wǎng)絡(luò)分類(lèi)問(wèn)題訓(xùn)練中最常用的選擇。然而,一般來(lái)說(shuō),一個(gè)好的損失函數(shù)可以采取更加靈活的形式,應(yīng)該為不同的任務(wù)和數(shù)據(jù)集量身定制。
可以將損失函數(shù)視為多項(xiàng)式函數(shù)的線性組合,并通過(guò)泰勒展開(kāi)來(lái)近似函數(shù)。在多項(xiàng)式展開(kāi)下,F(xiàn)ocal Loss是多項(xiàng)式系數(shù)相對(duì)于Cross-entropy loss的水平位移。如果垂直修改多項(xiàng)式系數(shù),則得到了Polyloss的計(jì)算公式:
Polyloss是Cross-entropy loss損失函數(shù)的一種廣義形式。
Hinge Loss 損失函數(shù)
Hinge loss損失函數(shù)通常適用于二分類(lèi)的場(chǎng)景中,可以用來(lái)解決間隔最大化的問(wèn)題,常應(yīng)用于著名的SVM算法中。
Hinge 損失函數(shù)是一個(gè)凸函數(shù),擅長(zhǎng)“最大余量”分類(lèi),因此許多機(jī)器學(xué)習(xí)中常用的凸優(yōu)化器都可以利用它。
Hinge 損失函數(shù)將與分類(lèi)邊界之間的差值或距離納入成本計(jì)算。即使新的觀察結(jié)果被正確分類(lèi),如果決策邊界的差距不夠大,它們也會(huì)受到懲罰,損失呈線性增加。
Generalized End-to-End Loss 損失函數(shù)
Generalized End-to-End 損失函數(shù)(簡(jiǎn)稱(chēng)GE2E)用于說(shuō)話人驗(yàn)證的廣義端到端損失函數(shù)。
說(shuō)話人驗(yàn)證是指驗(yàn)證輸入的一段語(yǔ)音是否屬于一個(gè)特定音箱的任務(wù),這里有兩個(gè)概念:enrollment utterance和verification utterance,前者可以理解為預(yù)留的“聲紋”,而后者則是用于驗(yàn)證的語(yǔ)音。進(jìn)一步細(xì)分為兩種任務(wù):text-dependent speaker verification (TD-SV)和text-independent verification (TI-SV)。TD-SV對(duì)用于驗(yàn)證的語(yǔ)音的內(nèi)容有一定的限制,一個(gè)比較常見(jiàn)的例子是Siri,這個(gè)時(shí)候需要說(shuō)出一個(gè)固定的句子“Hey, siri”。相反,TI-SV則不對(duì)語(yǔ)音的內(nèi)容有任何限制。
GE2E 使說(shuō)話人驗(yàn)證模型的訓(xùn)練比tuple-based end-to-end (TE2E) loss 損失函數(shù)更有效率,具有收斂速度快、實(shí)現(xiàn)簡(jiǎn)單等優(yōu)點(diǎn)。
GE2E會(huì)使得網(wǎng)絡(luò)在更新參數(shù)的時(shí)候注重于那些不容易被區(qū)分開(kāi)的數(shù)據(jù),且不需要在訓(xùn)練之前進(jìn)行示例選擇。此外,GE2E Loss不需要初始階段的示例選擇。
Additive Angular Margin Loss 損失函數(shù)
Additive Angular Margin Loss(AAM)主要用于人臉識(shí)別,但也在語(yǔ)音識(shí)別等其他領(lǐng)域得到了應(yīng)用。
利用深層卷積神經(jīng)網(wǎng)絡(luò)(DCNN)進(jìn)行大規(guī)模人臉識(shí)別的特征學(xué)習(xí)面臨的主要挑戰(zhàn)之一是如何設(shè)計(jì)合適的損失函數(shù)來(lái)提高識(shí)別能力。中心損失懲罰了深部特征與其在歐氏空間中相應(yīng)的類(lèi)中心之間的距離,以實(shí)現(xiàn)類(lèi)內(nèi)緊湊性。假設(shè)最后一個(gè)完全連通層中的線性映射矩陣可以用來(lái)表示角度空間中的類(lèi)中心,并以乘法的方式懲罰深層特征及其相應(yīng)權(quán)重之間的角度。一個(gè)流行的研究方向是將預(yù)留邊緣納入已建立的損失函數(shù),以最大限度地提高人臉的可分性。
AAM Loss(ArcFace)由于與超球面上的測(cè)地距離精確對(duì)應(yīng),獲得了具有清晰幾何解釋(優(yōu)于其他損失函數(shù))的高度區(qū)分特征。ArcFace 的性能始終優(yōu)于最先進(jìn)的技術(shù),并且可以輕松實(shí)現(xiàn),計(jì)算開(kāi)銷(xiāo)可以忽略不計(jì)。
具體來(lái)說(shuō),提出的弧面 cos (θ + m)基于 L2歸一化權(quán)重和特征,直接最大化角(弧)空間的決策邊界。
Triplet Loss 損失函數(shù)
Triplet Loss最初用于學(xué)習(xí)同一人在不同姿勢(shì)和角度下的人臉識(shí)別。Triplet Loss是機(jī)器學(xué)習(xí)算法的一種損失函數(shù),其中一個(gè)參考輸入(稱(chēng)為錨)與一個(gè)匹配輸入(稱(chēng)為正值)和一個(gè)非匹配輸入(稱(chēng)為負(fù)值)進(jìn)行比較。
考慮訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別人臉的任務(wù)(例如進(jìn)入高安全區(qū)域)。每當(dāng)一個(gè)新的人加入到人臉數(shù)據(jù)庫(kù)時(shí),訓(xùn)練有素的分類(lèi)器就必須重新訓(xùn)練。這可以通過(guò)將問(wèn)題作為一個(gè)相似性學(xué)習(xí)問(wèn)題而不是一個(gè)分類(lèi)問(wèn)題來(lái)避免。這里,網(wǎng)絡(luò)被訓(xùn)練(使用對(duì)比度損失)輸出一個(gè)距離,如果圖像屬于一個(gè)已知的人,這個(gè)距離是小的,如果圖像屬于一個(gè)未知的人,這個(gè)距離是大的。但是,如果我們想輸出最接近給定圖像的圖像,我們希望了解一個(gè)排名,而不僅僅是相似性。在這種情況下使用了三重?fù)p失。
其中d 表示距離函數(shù),一般指在Embedding下的歐式距離計(jì)算。很顯然,Triplet-Loss是希望讓a和p的距離盡可能小,而a和n的距離盡可能大。
在訓(xùn)練中使用Triplet loss的一個(gè)重要選擇就是我們需要對(duì)負(fù)樣本進(jìn)行挑選,稱(chēng)之為負(fù)樣本選擇或者三元組采集。選擇的策略會(huì)對(duì)訓(xùn)練效率和最終性能結(jié)果有著重要的影響。一個(gè)明顯的策略就是:簡(jiǎn)單的三元組應(yīng)該盡可能被避免采樣到,因?yàn)槠鋖oss為0,對(duì)優(yōu)化并沒(méi)有任何幫助。
InfoNCE Loss 損失函數(shù)
InfoNCE Loss損失函數(shù)是基于對(duì)比度的一個(gè)損失函數(shù),是由NCE Loss損失函數(shù)演變而來(lái)的。
NCE是基于采樣的方法,將多分類(lèi)問(wèn)題轉(zhuǎn)為二分類(lèi)問(wèn)題。以語(yǔ)言模型為例,利用NCE可將從詞表中預(yù)測(cè)某個(gè)詞的多分類(lèi)問(wèn)題,轉(zhuǎn)為從噪音詞中區(qū)分出目標(biāo)詞的二分類(lèi)問(wèn)題,一個(gè)類(lèi)是數(shù)據(jù)類(lèi)別 data sample,另一個(gè)類(lèi)是噪聲類(lèi)別 noisy sample,通過(guò)學(xué)習(xí)數(shù)據(jù)樣本和噪聲樣本之間的區(qū)別,將數(shù)據(jù)樣本去和噪聲樣本做對(duì)比,也就是“噪聲對(duì)比(noise contrastive)”,從而發(fā)現(xiàn)數(shù)據(jù)中的一些特性。
Info NCE loss是NCE的一個(gè)簡(jiǎn)單變體,它認(rèn)為如果你只把問(wèn)題看作是一個(gè)二分類(lèi),只有數(shù)據(jù)樣本和噪聲樣本的話,可能對(duì)模型學(xué)習(xí)不友好,因?yàn)楹芏嘣肼晿颖究赡鼙揪筒皇且粋€(gè)類(lèi),因此還是把它看成一個(gè)多分類(lèi)問(wèn)題比較合理。
InfoNCE 代表噪聲對(duì)比估計(jì),是一種用于自我監(jiān)督學(xué)習(xí)的對(duì)比損失函數(shù),使用分類(lèi)交叉熵?fù)p失來(lái)識(shí)別一組不相關(guān)的噪聲樣本中的正樣本。InfoNCE Loss是為了將N個(gè)樣本分到K個(gè)類(lèi)中,而不是NCE Loss的二分類(lèi)或者交叉熵?fù)p失函數(shù)的完全分類(lèi)。
Dice Loss 損失函數(shù)
Dice 損失函數(shù)來(lái)源于 S?rensen-Dice系數(shù),這是一個(gè)發(fā)展于1940年代的統(tǒng)計(jì)方法,用來(lái)衡量?jī)蓚€(gè)樣本之間的相似性。Dice系數(shù)的值越大意味著這兩個(gè)樣本越相似。
Dice Loss常用于語(yǔ)義分割問(wèn)題中,對(duì)于二分類(lèi)分割問(wèn)題,真實(shí)分割標(biāo)簽只有0,1兩個(gè)值。對(duì)于多分類(lèi)分割問(wèn)題,Dice Loss是直接優(yōu)化F1 score而來(lái)的,是對(duì)F1 score的高度抽象。
2016年,Milletari 等人將其引入計(jì)算機(jī)視覺(jué)社區(qū),用于三維醫(yī)療圖像分割。為了防止分母項(xiàng)為0,一般我們會(huì)在分子和分母處同時(shí)加入一個(gè)很小的數(shù)作為平滑系數(shù),也稱(chēng)為拉普拉斯平滑項(xiàng)。Dice Loss有以下主要特性:
- 有益于正負(fù)樣本不均衡的情況,側(cè)重于對(duì)前景的挖掘;
- 訓(xùn)練過(guò)程中,在有較多小目標(biāo)的情況下容易出現(xiàn)振蕩;
- 極端情況下會(huì)出現(xiàn)梯度飽和的情況。
從集合論的角度來(lái)看,DSC是兩個(gè)集合之間重疊的度量。例如,如果兩個(gè)集合 A 和 B 完全重疊,Dice系數(shù) 的最大值為1。否則,Dice系數(shù)開(kāi)始減小,如果兩個(gè)集合完全不重疊,則 Dice系數(shù)的最小值為0。
因此,DSC 的范圍在0-1之間,越大越好。因此,我們可以使用1-DSC 作為骰子損失,以最大限度地提高兩個(gè)集之間的重疊。
Margin Ranking Loss 損失函數(shù)
顧名思義,Margin Ranking Loss損失函數(shù)主要用于排名問(wèn)題,也應(yīng)用于對(duì)抗網(wǎng)絡(luò)中。Margin Ranking Loss計(jì)算輸入為 X1、 X2以及包含1或 -1的標(biāo)簽張量 y 的損失。當(dāng) y 的值為1時(shí),第一個(gè)輸入將被假設(shè)為較大的值,并將排名高于第二個(gè)輸入。類(lèi)似地,如果 y =-1,第二個(gè)輸入將被排序得更高。
Margin Ranking Loss 計(jì)算一個(gè)標(biāo)準(zhǔn)來(lái)預(yù)測(cè)輸入之間的相對(duì)距離。這不同于其他損失函數(shù),例如 MSE 或交叉熵,它們學(xué)習(xí)直接從一組給定的輸入進(jìn)行預(yù)測(cè)。
Contrastive Loss 損失函數(shù)
鑒于學(xué)習(xí)不變映射的降維需求,對(duì)比損失是一個(gè)交叉熵的替代損失函數(shù),它可以更有效地利用標(biāo)簽信息。
在孿生神經(jīng)網(wǎng)絡(luò)(siamese network)中,其采用的損失函數(shù)是contrastive loss,這種損失函數(shù)可以有效的處理孿生神經(jīng)網(wǎng)絡(luò)中的paired data的關(guān)系,形式上并不一定是兩個(gè)Net,也可以是一個(gè)Net兩個(gè)Out。
在嵌入空間中,同一類(lèi)的點(diǎn)簇被拉在一起,同時(shí)推開(kāi)不同類(lèi)的樣本簇。Contrastive以網(wǎng)絡(luò)的輸出為正樣本,計(jì)算網(wǎng)絡(luò)到同類(lèi)實(shí)例的距離,并與網(wǎng)絡(luò)到負(fù)類(lèi)實(shí)例的距離進(jìn)行對(duì)比。對(duì)比損失計(jì)算正例(同類(lèi)的例子)和負(fù)例(不同類(lèi)的例子)之間的距離。因此,如果正面例子被編碼(在這個(gè)嵌入空間中)到相似的例子中,而負(fù)面例子被進(jìn)一步編碼到不同的表示中,那么損失可以預(yù)期是低的。
Multiple Negative Ranking Loss 損失函數(shù)
句表示領(lǐng)域中的核心其實(shí)是隱性的規(guī)定負(fù)例,例如只有錨定語(yǔ)句和一個(gè)正例,同一批次中的其他語(yǔ)句則為負(fù)例,或者指定一組錨定語(yǔ)句、正例、困難負(fù)例,同一批次的其他語(yǔ)句皆為負(fù)例等,使用的損失函數(shù)主要是Multiple Negative Ranking Loss,數(shù)學(xué)上的表達(dá)式為:
這個(gè)丟失函數(shù)可以很好地訓(xùn)練嵌入,以便在檢索設(shè)置中使用正對(duì)(例如 query,relevant _ doc) ,因?yàn)樗鼘⒃诿颗?n-1負(fù)文檔中隨機(jī)抽樣。性能通常隨著批量的增加而提高。
在高效句子嵌入問(wèn)題中,使用Multiple Negative Ranking Loss 損失函數(shù)訓(xùn)練的模型具有一定的優(yōu)勢(shì)。
面向回歸的損失函數(shù)
回歸問(wèn)題中y和f(x)皆為實(shí)數(shù)∈R,因此用殘差 y?f(x)來(lái)度量二者的不一致程度。殘差 (的絕對(duì)值) 越大,則損失函數(shù)越大,學(xué)習(xí)出來(lái)的模型效果就越差(這里不考慮正則化問(wèn)題)。
MAE 或 L1 Loss 損失函數(shù)
顧名思義,平均絕對(duì)誤差(Mean Average Error,MAE) 取實(shí)際值和預(yù)測(cè)值之間絕對(duì)差的平均和,也叫做“L1 損失函數(shù)”。它在一組預(yù)測(cè)中衡量誤差的平均大小,而不考慮誤差的方向。如果也考慮方向,那將被稱(chēng)為平均偏差(Mean Bias Error,MBE),它是殘差或誤差之和,其損失范圍也是0到∞。
由于存在異常值(與其他數(shù)據(jù)非常不同的值) ,回歸問(wèn)題可能有本質(zhì)上不是嚴(yán)格高斯的變量。在這種情況下,平均絕對(duì)誤差將是一個(gè)理想的選擇,因?yàn)樗鼪](méi)有考慮到異常值的方向(不切實(shí)際的高正值或負(fù)值)。
L1損失函數(shù)用于最小化誤差,是以絕對(duì)誤差作為距離。L1不受離群值的影響,因此,如果數(shù)據(jù)集包含離群值,則 L1更可取。另外,其收斂速度快,能夠?qū)μ荻冉o予合適的懲罰權(quán)重,而不是“一視同仁”,使梯度更新的方向可以更加精確。
MSE 或 L2 Loss 損失函數(shù)
均方差(Mean Squared Error,MSE)是實(shí)際值和預(yù)測(cè)值之間的平方差的平均值,是最常用的回歸損失函數(shù),也叫做“L2 損失函數(shù)”。MSE是目標(biāo)變量與預(yù)測(cè)值之間距離平方之和。
L2損失函數(shù)用來(lái)最小化誤差,也是比 L1更優(yōu)先的損失函數(shù)。但是,當(dāng)數(shù)據(jù)集中存在異常值時(shí),L2的性能不會(huì)很好,因?yàn)槠椒讲顣?huì)導(dǎo)致更大的錯(cuò)誤。
簡(jiǎn)而言之,使用L2更容易求解,但使用L1對(duì)離群點(diǎn)更加魯棒。
Huber Loss 損失函數(shù)
Huber Loss 是一種將 MSE 與 MAE 結(jié)合起來(lái),取兩者優(yōu)點(diǎn)的損失函數(shù),也被稱(chēng)作 Smooth Mean Absolute Error Loss(Smooth L1 損失)。Huber Loss 也是回歸中使用的一種損失函數(shù),它對(duì)數(shù)據(jù)中的異常值不如誤差平方損失那么敏感。它具有對(duì)異常點(diǎn)不敏感和極小可微的特點(diǎn),使得損失函數(shù)具有良好的性質(zhì)。
當(dāng)誤差較小時(shí),利用 Huber Loss的 MSE 部分,當(dāng)誤差較大時(shí),利用 Huber 損失的 MAE 部分。引入了一種新的超參數(shù) δ,它告訴損失函數(shù)從 MSE 到 MAE 的切換位置。在損失函數(shù)中引入 δ 項(xiàng),使 MSE 向 MAE 的轉(zhuǎn)變趨于平滑。Huber 損失函數(shù)描述了由估算過(guò)程產(chǎn)生的損失 F Huber 損失分段定義損失函數(shù):
這個(gè)函數(shù)是二次函數(shù),具有相等的值和斜率的不同部分在兩個(gè)點(diǎn) ‖ a ‖ = δ 變量 a 通常指的是殘差,即觀測(cè)值和預(yù)測(cè)值之間的差值 A = y-f (x) 因此,前者可以擴(kuò)展到:
總之,Huber Loss 增強(qiáng)了MSE的離群點(diǎn)魯棒性,減小了對(duì)離群點(diǎn)的敏感度問(wèn)題。當(dāng)誤差較大時(shí) ,使用MAE可降低異常值影響,使得訓(xùn)練更加健壯。其下降速度介于MAE與MSE之間,彌補(bǔ)了MAE在Loss下降速度慢的問(wèn)題,而更接近MSE。
小結(jié)
在神經(jīng)網(wǎng)絡(luò)中,損失函數(shù)是神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)輸出與實(shí)際輸出之間差異的度量,計(jì)算當(dāng)前輸出和預(yù)期輸出之間的距離。這是一種評(píng)估如何建模數(shù)據(jù)的方法,提供了神經(jīng)網(wǎng)絡(luò)表現(xiàn)如何的度量,并被用作訓(xùn)練期間優(yōu)化的目標(biāo)。損失函數(shù)越小,一般就代表模型的魯棒性越好,正是損失函數(shù)指導(dǎo)了模型的學(xué)習(xí)。
【參考資料與關(guān)聯(lián)閱讀】
- PolyLoss: A Polynomial Expansion Perspective of Classification Loss Functions ,https://arxiv.org/abs/2204.12511
- Focal Loss for Dense Object Detection ,https://arxiv.org/abs/1708.02002
- Generalized End-to-End Loss for Speaker Verification ,https://arxiv.org/abs/1710.10467
- ArcFace: Additive Angular Margin Loss for Deep Face Recognition ,https://arxiv.org/abs/1801.07698
- FaceNet: A Unified Embedding for Face Recognition and Clustering,https://arxiv.org/abs/1503.03832
- Contrastive Predictive Coding,https://arxiv.org/pdf/1807.03748v2.pdf
- Rethinking Dice Loss for Medical Image Segmentation,https://ieeexplore.ieee.org/document/9338261
- Adaptive Margin Ranking Loss for Knowledge Graph Embeddings via a Correntropy Objective Function,https://arxiv.org/pdf/1907.05336.pdf
- Multiple Negative Ranking Loss,https://arxiv.org/pdf/1705.00652.pdf
- Contrastive Loss,http://yann.lecun.com/exdb/publis/pdf/hadsell-chopra-lecun-06.pdf