自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼

發(fā)布于 2024-3-28 14:23
瀏覽
0收藏
人類的語言是一種對復(fù)雜世界的高度簡潔的編碼,特別是語言中顏色的概念,成功地將原本極大的色彩空間(如256三次方真色彩空間)壓縮至5到10種顏色。受此啟發(fā),來自上海交大,日本理化學(xué)研究所,東京大學(xué) 的研究人員,提出全新的基于視覺任務(wù)的色彩量化(colour quantisation)技術(shù),利用深度學(xué)習(xí)重現(xiàn)人類數(shù)萬年的顏色概念的演化。這項技術(shù)不但能推進(jìn)文化人類學(xué)的研究,更是為網(wǎng)絡(luò)量化(neural network quantisation)以及多模態(tài)大語言模型提供堅實的研究基礎(chǔ)。目前大語言模型依賴于英語,中文等實際的語言,本工作通過模仿人類語言自然演化,為設(shè)計大預(yù)言模型-人類同步理解的人造語言打下了基礎(chǔ)。

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼-AI.x社區(qū)

論文題目: 

Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer 

論文鏈接: 

??https://arxiv.org/abs/2212.03434?

項目主頁:

???https://github.com/ryeocthiv/CQFormer???

?一、研究背景

本工作旨在從機(jī)器學(xué)習(xí)的角度探討人工智能能否擁有類似人類的的顏色命名分類機(jī)制。人類對顏色的感知來自于光譜與眼睛中的錐細(xì)胞相互作用時,視神經(jīng)接收到的光刺激。通過定義像RGB,HSV等顏色空間,顏色被可量化成一些具體的如數(shù)值。與純生理性色調(diào)分類相比,顏色命名(colour naming)或顏色分類(colour categorisation)的復(fù)雜現(xiàn)象涉及多個學(xué)科。

從認(rèn)知科學(xué)到人類學(xué),研究發(fā)現(xiàn),人類語言不斷演變以獲取新的顏色名稱,導(dǎo)致顏色命名系統(tǒng)越來越精細(xì)化。比如來自加納西北部的納凡拉語,1978年的時候只有如圖1.a所示的三種顏色(淺色(fiNge')、暗色(wOO')和溫暖或紅色(`nyiE')),但是到了2018年,該語言演化出了如圖1.b所示的另外七種顏色。

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖1. 來自The evolution of color naming reflects pressure for efficiency: Evidence from the recent past Zaslavsky et al. Journal of Language Evolution, 2022

如圖2左圖所示,現(xiàn)有的研究認(rèn)為這個演化過程來自于溝通效率(Communication efficiency)和知覺結(jié)構(gòu)(perceptual structure) 的雙重演化壓力。溝通效率要求通過盡可能少量的詞匯來準(zhǔn)確傳達(dá)共享的顏色劃分。顏色知覺結(jié)構(gòu)與人類的顏色感知相關(guān)。例如,相鄰顏色之間的顏色空間距離應(yīng)與它們的知覺差異相對應(yīng)。

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖2 左圖 - 人類語言的演化模型;右圖 - 我們實現(xiàn)的語言演化模型colour quantisation負(fù)責(zé)壓縮colour size, 后端任務(wù)負(fù)責(zé)提高溝通的準(zhǔn)確性

在圖2右圖里,本項工作通過用檢測,分類等視覺任務(wù)的性能來定義溝通效率的方法,提出了一套基于QFormer全新的顏色量化(colour quantisation)算法。這個算法不但能整合人類和機(jī)器視覺的不同需求,更是一種人工顏色命名系統(tǒng)。

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖3 (a) - 理論上的人類語言溝通準(zhǔn)確率隨著顏色數(shù)量增加而逐漸提高直至飽和,圖中為各個文化中真實的顏色系統(tǒng)。(b) - 我們生成的顏色系統(tǒng)以及實際的分類準(zhǔn)確率。

圖3(a)顯示了不同種類的真實人類語言的理論溝通效率隨著顏色名稱數(shù)量的提升而提高。令人驚訝的是,如圖3(b)所顯示,人工發(fā)現(xiàn)的顏色命名系統(tǒng)中,隨著顏色數(shù)量的增加,識別準(zhǔn)確性也在提高。

CQFormer的方法如圖4所示,使用perceptual structure loss來定量控制來自perceptual structure的演化壓力。而用machine-centred loss 來表示Communication efficiency的壓力。

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖4

二、本文方法

具體的方法如圖5所示,包括兩個分支:注釋分支和調(diào)色板分支。

注釋分支在將索引映射到對應(yīng)的顏色調(diào)色板之前,為輸入的RGB圖像的每個像素注釋合適的量化顏色索引。通過一個新穎的調(diào)色板分支在整個RGB顏色空間中定位顏色調(diào)色板,該分支使用變換器的顯式注意力查詢檢測關(guān)鍵點。

在訓(xùn)練階段,如圖5的紅線和黑線所示,調(diào)色板分支與輸入圖像和參考調(diào)色板查詢進(jìn)行交互,通過減少感知結(jié)構(gòu)損失來維持知覺結(jié)構(gòu)。這種以感知為中心的設(shè)計將相似的顏色分組,并確保顏色調(diào)色板充分表示由世界顏色調(diào)查(WCS)顏色命名刺激網(wǎng)格定義的顏色命名系統(tǒng)。如圖5.(b)所示,調(diào)色板中的每個項目(用星號標(biāo)注)位于WCS顏色命名概率圖中對應(yīng)顏色分布的中間位置。最后,量化圖像傳遞給高級識別模塊進(jìn)行機(jī)器準(zhǔn)確性任務(wù),如分類和檢測。通過CQFormer和隨后的高級模塊的聯(lián)合優(yōu)化,所提出的方法可以平衡感知和機(jī)器的需求。

除了自動發(fā)現(xiàn)顏色命名系統(tǒng)外, CQFormer還為極端壓縮圖像存儲提供了有效解決方案,同時在高級識別任務(wù)中保持高性能。例如,CQFormer在只有1位顏色空間(即,兩種顏色)的情況下,在CIFAR100數(shù)據(jù)集上實現(xiàn)了50.6%的top-1準(zhǔn)確率。這種極低比特量化可以用于neural network quantisation研究,實現(xiàn)從圖像到權(quán)重和激活的端到端優(yōu)化。

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖5 模型的網(wǎng)絡(luò)結(jié)構(gòu)

三、網(wǎng)絡(luò)結(jié)構(gòu)

具體來說,(1) 注釋分支,負(fù)責(zé)為輸入的RGB圖像的每個像素分配一個量化的顏色索引;(2) 調(diào)色板分支,負(fù)責(zé)生成一個合適的顏色調(diào)色板。CQFormer的注釋分支以原始圖像  作為輸入,其中  和  分別是圖像的高度和寬度。在訓(xùn)練階段,它生成一個概率圖  ,其中  是量化顏色的數(shù)量,  是Softmax函數(shù)的溫度參數(shù)。

在測試階段,它生成一個獨熱顏色索引圖

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼-AI.x社區(qū)

其中圖像的每個像素被分配為C個量化顏色中的一個單一顏色索引。

CQFormer的調(diào)色板分支接收原始圖像  和參考調(diào)色板查詢  作為輸入。這些查詢由  個可學(xué)習(xí)的維度為  的向量組成,每個向量表示一個自動挖掘的顏色。查詢  與從輸入圖像  生成的鍵 和值  進(jìn)行交互,以生成顏色調(diào)色板  。這個調(diào)色板由 C 個三元組  組成,每個三元組表示機(jī)器發(fā)現(xiàn)的 C 種顏色中的一種。

最后,在訓(xùn)練階段,CQFormer通過對  和  進(jìn)行矩陣乘法來生成量化圖像。在測試階段,量化圖像由  和  得到。然后,將量化圖像饋送到高級識別模塊進(jìn)行高級的視覺任務(wù)。

特別得注意的是,正如圖5中紅色線所示,由于arg max函數(shù)不可微分,訓(xùn)練階段使用Softmax函數(shù)作為替代。為了防止過擬合,溫度參數(shù)  被納入Softmax函數(shù)中,將概率分布推向一個獨熱向量。

四、顏色演化

通過CQFormer,本工作探索了基于分類任務(wù)的顏色演化,包括兩個連續(xù)階段,使用不同的損失函數(shù)。由于CQFormer最初沒有與相應(yīng)的人類語言相關(guān)聯(lián)的顏色命名系統(tǒng)的先驗知識,第一個嵌入階段旨在將某種語言的顏色感知知識嵌入到CQFormer的潛在表示中。

例如,CQFormer首先通過強(qiáng)制CQFormer輸出與Nafaanra對應(yīng)的相似的WCS顏色概率圖來學(xué)習(xí)和匹配1978年的Nafaanra三色系統(tǒng)。如圖6所示,這里設(shè)計了兩個嵌入解決方案和損失函數(shù),即LFull-Embedding和LCentral-Embedding,以將完整的顏色概率圖嵌入或僅將代表性顏色提煉到CQFormer中。

第二個演化階段讓CQFormer演化更多顏色,即在準(zhǔn)確性和感知結(jié)構(gòu)的壓力下從學(xué)到的三色系統(tǒng)中分離出第四種顏色。

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖6

五、實驗

本研究在主流的目標(biāo)檢測任務(wù)和圖像分類任務(wù)的基準(zhǔn)數(shù)據(jù)集上評估了CQFormer。此外,還專門設(shè)計了一個顏色演化實驗以展示CQFormer如何自動演化以增加細(xì)粒度的顏色。

表格1顯示了在MS COCO數(shù)據(jù)集上使用Sparse-RCNN檢測器進(jìn)行目標(biāo)檢測的結(jié)果。CQFormer在所有顏色量化級別(從1位到6位)下的AP值性能方面均優(yōu)于所有其他方法。這一顯著的改進(jìn)表明了CQFormer在目標(biāo)檢測任務(wù)中的有效性。

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖7對四個數(shù)據(jù)集上的最新方法進(jìn)行了比較。CQFormer(實線藍(lán)色線)在極低比特顏色空間(小于3位)上與所有其他方法相比都有持續(xù)明顯的改進(jìn)。此外, CQFormer在從1位到6位的所有顏色量化級別下都比以任務(wù)為中心的方法ColorCNN表現(xiàn)更優(yōu)秀。

ICCV 2023 Oral | 人類語言演化中學(xué)習(xí)最優(yōu)圖像顏色編碼-AI.x社區(qū)

六、展望

雖然如圖3所示,機(jī)器發(fā)現(xiàn)的顏色概念的復(fù)雜性-準(zhǔn)確性權(quán)衡與人類語言的分類對應(yīng)的理論溝通效率極限非常相似,但當(dāng)前的工作仍處于初步階段。新發(fā)現(xiàn)的WCS顏色概率圖與人類的顏色概率圖仍然存在很大差異。更準(zhǔn)確的語言演化復(fù)制需要考慮更復(fù)雜的變量,如環(huán)境特異性、文化特殊性、功能需求、技術(shù)成熟度、學(xué)習(xí)經(jīng)驗和跨文化交流。

這次提出的 工作除了對技術(shù)領(lǐng)域,也有望為人類學(xué)語言學(xué)領(lǐng)域里的普遍主義-相對主義(linguistic determinism vs relativity)爭論做出自己的貢獻(xiàn)。盡管沒有完全排除顏色方案的文化特異性,但這里機(jī)器的發(fā)現(xiàn)強(qiáng)烈支持了一種先天的、生理學(xué)原則對不同文化傳統(tǒng)社區(qū)的基本顏色術(shù)語的演化順序和分布可能性。從原始的“暗-亮-紅”顏色,人工智能獨立地發(fā)現(xiàn)了“綠-黃”類別,指向了神經(jīng)算法與人類認(rèn)知的一致性,并為通過機(jī)器模擬在社會科學(xué)中測試有爭議的假設(shè)拓展了新的前沿。

目前大語言模型依賴于英語,中文等實際的語言,本工作期望跳出特定語言的藩籬,而是從人類語言自然演化本身出發(fā),為設(shè)計大預(yù)言模型-人類同步理解的人造語言打下基礎(chǔ)。

Illustration From IconScout By Delesign Graphics

本文轉(zhuǎn)載自??將門創(chuàng)投??,作者:讓創(chuàng)新獲得認(rèn)可 ????

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦