清華天眸芯登Nature封面!世界首個類腦互補(bǔ)視覺芯片問世,或開辟AGI新路
就在剛剛,清華團(tuán)隊發(fā)布世界首款類腦互補(bǔ)視覺芯片——「天眸芯」。
這是一種基于視覺原語的互補(bǔ)雙通路類腦視覺感知新范式,標(biāo)志著我國在類腦計算和類腦感知兩個重要方向,取得的重大突破!
研究《面向開放世界感知具有互補(bǔ)通路的視覺芯片》(A Vision Chip with Complementary Pathways for Open-world Sensing)一經(jīng)發(fā)布,即登上Nature封面。
團(tuán)隊由清華大學(xué)施路平教授領(lǐng)銜,依托清華精密儀器系的類腦計算研究中心。
論文地址:?https://www.nature.com/articles/s41586-024-07358-4??
而且,這已經(jīng)是該團(tuán)隊第二次登上Nature雜志封面了。上一次登上Nature的,是異構(gòu)融合類腦計算「天機(jī)芯」。
「天眸芯」的成功研制,意味著智能感知芯片領(lǐng)域的一個重大突破。
它不僅為智能革命的發(fā)展提供了強(qiáng)大的技術(shù)支持,還為自動駕駛、具身智能等重要應(yīng)用,開辟了新的道路。
「天眸芯」的重大意義,在于它突破了視覺感知的瓶頸。
在復(fù)雜多變、不可預(yù)測的環(huán)境中,實現(xiàn)高效、精確、魯棒的視覺感知,挑戰(zhàn)非常間艱巨。傳統(tǒng)的視覺感知芯片因為「功耗墻」「帶寬墻」,應(yīng)對極端場景時往往會失真、失效、高延遲。
而施路平教授團(tuán)隊提出的新范式,借鑒了人類視覺系統(tǒng)的基本原理,形成了兩條優(yōu)勢互補(bǔ)、信息完備的視覺感知通路。
而「天眸芯」,在極低的帶寬(相對傳統(tǒng)高速成像技術(shù)降低90%)和功耗代價下,只需單個芯片即可實現(xiàn)每秒10000幀的高速、10bit的高精度、130dB的高動態(tài)范圍的視覺信息采集!
結(jié)合團(tuán)隊在「天機(jī)芯」、類腦軟件工具鏈、類腦機(jī)器人等方面已有的落地技術(shù)積累,從此類腦智能生態(tài)將進(jìn)一步完善,有力推動人工通用智能的發(fā)展。
「人類視覺系統(tǒng)」啟發(fā)全新范式
隨著AI加速發(fā)展,無人駕駛、具身智能等「無人系統(tǒng)」在現(xiàn)實中的應(yīng)用更加廣泛,并引領(lǐng)著新一輪科技產(chǎn)業(yè)革命。
在這些智能系統(tǒng)中,視覺感知作為獲取信息的核心途徑,發(fā)揮著至關(guān)重要的作用。
就以自動駕駛舉例,在真實的開放世界中,系統(tǒng)不僅需要處理龐大的數(shù)據(jù),還需要應(yīng)對各種極端事件。
比如,惡劣天氣環(huán)境、駕駛中突發(fā)的危險,夜間強(qiáng)閃光干擾等各種長尾問題,為AI系統(tǒng)帶來了極大的挑戰(zhàn)。
這時,如果采用傳統(tǒng)的視覺感知芯片,會受到「功耗墻」和「帶寬墻」的限制,無法同時應(yīng)對以上駕駛中出現(xiàn)的邊緣情況。
更進(jìn)一步說,傳統(tǒng)視覺芯片在面對這些場景時,往往會出現(xiàn)失真、失效或高延遲的問題,嚴(yán)重影響了系統(tǒng)的穩(wěn)定性和安全性。
為了克服這些挑戰(zhàn),清華團(tuán)隊聚焦類腦視覺感知芯片技術(shù),提出了一種全新的范式——
基于視覺原語的互補(bǔ)雙通路類腦視覺感知范式。
這一范式借鑒了人類視覺系統(tǒng)(HVS)的基本原理。因為與現(xiàn)有的圖像傳感器相比,HVS在開放世界中更具優(yōu)勢。
人類視覺系統(tǒng)(HVS)的互補(bǔ)性。視網(wǎng)膜由桿狀細(xì)胞和錐狀細(xì)胞組成,它們以相反的方式運作以擴(kuò)大感知范圍。在下一個層——外膝體(LGN)中,M通路和P通路以互補(bǔ)的方式編碼信息。LGN輸出的信息由在初級視覺皮層V1被重新組織成一系列視覺原語,包括顏色、方向、深度和運動方向等。最后,這些「視覺原語」被分別傳輸?shù)礁箓?cè)通路和背側(cè)通路,以促進(jìn)物體識別和視覺引導(dǎo)行為。
具體講,新范式包括了「基于視覺原語的表征」,以及「兩條互補(bǔ)視覺通路」(CVP)。
在這一范式中,借鑒人視覺系統(tǒng)中的視覺原語的概念,它將開放世界的視覺信息拆解為「視覺原語」。這些視覺原語各自描述了視覺信息的一種基本要素。
然后通過有機(jī)組合這些原語,借鑒人視覺系統(tǒng)的特征,形成兩條優(yōu)勢互補(bǔ)、信息完備的視覺感知通路,如下圖所示。
其中,視覺原語包括但不僅限于顏色、數(shù)據(jù)精度、靈敏度、空間分辨率、速度、絕對強(qiáng)度、空間差(SD)和時間差(TD)。
CVP包括兩條不同的通路:認(rèn)知導(dǎo)向通路(COP)和行動導(dǎo)向通路(AOP)。與HVS中的腹側(cè)通路(Ventral stream)和背側(cè)通路(Dorsal stream)相類似。
「認(rèn)知導(dǎo)向通路」使用顏色、強(qiáng)度、高空間分辨率和高精度等視覺原語,來實現(xiàn)精確認(rèn)知,最大限度地減少空間混疊和量化誤差。
相比之下,「行動導(dǎo)向通路」使用SD、TD、速度等視覺原語,來實現(xiàn)魯棒、高稀疏的快速反應(yīng),從而解決數(shù)據(jù)冗余和延遲問題。
這兩種方法在構(gòu)建正常情況,以及邊緣情況的表征時相互補(bǔ)充,從而實現(xiàn)了高動態(tài)范圍,并緩解了語義錯位和分布外物體檢測問題。
首款類腦互補(bǔ)視覺芯片誕生
互補(bǔ)視覺芯片設(shè)計
基于這個范式,清華團(tuán)隊設(shè)計出世界第一款名為「天眸芯」(Tianmouc)的類腦互補(bǔ)視覺芯片。
那么,這款芯片的設(shè)計架構(gòu)是怎樣的?
使用傳統(tǒng)圖像傳感器架構(gòu)實現(xiàn)互補(bǔ)傳感范式,將面臨諸多挑戰(zhàn)。
首先,設(shè)計像素陣列時,需確保其能夠在同一焦平面(focal plane)上,同時進(jìn)行光電信息轉(zhuǎn)換。
此外,兩條讀出路徑的架構(gòu),必須包含能夠處理不同數(shù)據(jù)分布和模態(tài)的異構(gòu)模塊。
如上圖a所示,「天眸芯」采用90納米背照式CMOS(Back-illuminated sensor)技術(shù)制造,包含了兩個核心部分:
一是,用于將光學(xué)信息轉(zhuǎn)換為電信號的混合像素陣列;另一個是,用于構(gòu)建兩個CVP的并行和異構(gòu)讀出架構(gòu)。
背照式混合像素陣列的像素結(jié)構(gòu)示意圖
受感光細(xì)胞(photoreceptor cell)啟發(fā),混合像素陣列由錐體啟發(fā),以及桿體啟發(fā)的像素組成,具有不同的特性,如顏色、響應(yīng)模式、分辨率和靈敏度。
這些像素可以將視覺信息,解析為特定的顏色(紅、綠、藍(lán)),以及白色光譜,以作為顏色對立視覺原語。
它們還可以通過,高或低的電荷到電壓轉(zhuǎn)換增益,調(diào)整為四種不同的靈敏度,從而利用高增益模式的低噪聲和低增益模式的高飽和容量,以實現(xiàn)高動態(tài)范圍。
受錐體啟發(fā)的像素,設(shè)計為4微米精細(xì)間距,用于絕對強(qiáng)度感應(yīng)。
視錐細(xì)胞和視桿細(xì)胞的像素示意圖
而視桿細(xì)胞啟發(fā)的像素則有兩個較大的感受野,分別為8微米和16微米,用于感應(yīng)TD和SD。
時空連續(xù)像素架構(gòu),通過使用高密度像素內(nèi)存,進(jìn)而實現(xiàn)TD和SD計算。
具體而言,視桿細(xì)胞啟發(fā)的像素以乒乓操作(ping-pong behaviour)緩沖歷史電壓信號,以便在AOP讀出中連續(xù)計算TD。
對于跨塊的視桿細(xì)胞啟發(fā)像素中相同的內(nèi)存,可以重新組織以計算SD,如下圖b中的操作階段所示。
總而言之,完整的混合像素陣列包括320×320個視錐細(xì)胞啟發(fā)像素和160×160個視桿細(xì)胞啟發(fā)像素。
此外,沿兩條路徑傳輸?shù)碾娦盘枙憩F(xiàn)出不同的特性,包括數(shù)據(jù)分布和稀疏性的差異。
這就要求,采用不同方法以適當(dāng)速度和精度,將信號編碼為數(shù)字?jǐn)?shù)據(jù)。
為了解決這一挑戰(zhàn),「天眸芯」便采用了并行和異構(gòu)讀出架構(gòu)。
對于認(rèn)知導(dǎo)向通路(COP),絕對強(qiáng)度信號到密集矩陣的準(zhǔn)確轉(zhuǎn)換至關(guān)重要。這是通過單斜率模數(shù)(single-slope analog-to-digital)架構(gòu)實現(xiàn)的。
相比之下,行動導(dǎo)向通路(AOP)需要,對具有對稱拉普拉斯分布和稀疏性特征的「時空差異信號」快速編碼。
因此,研究人員特意采用了專門的讀出架構(gòu)(如下圖c)。
其中,可編程閾值濾波器用于最小化計算的TD和SD信號中的冗余和噪聲,同時保留關(guān)鍵信息。
隨后,這些信號使用具有可配置精度的,快速極性自適應(yīng)「數(shù)模轉(zhuǎn)換器」進(jìn)行量化。
此外,數(shù)據(jù)打包器用于實現(xiàn)稀疏可變精度TD和SD信號的無損壓縮,并采用統(tǒng)一協(xié)議(如圖d所示——顯示了「天眸芯」整體布局的光學(xué)顯微照片)。
這種方法提供了自適應(yīng)能力,以減少帶寬并進(jìn)一步提高AOP的操作速度。
「天眸芯」測試結(jié)果
研究者對「天眸芯」的性能指標(biāo),包括量子效率、動態(tài)范圍、響應(yīng)速度、功耗和帶寬等,進(jìn)行了全面評估。
a.配備芯片的測試板;b.處理芯片輸出數(shù)據(jù)的完整系統(tǒng)
在COP和AOP中,它都表現(xiàn)出高量子效率,在530nm時AOP達(dá)到最大72%,COP達(dá)到最大69%。
通過結(jié)合互補(bǔ)的COP和AOP中不同增益模式的動態(tài)范圍,它實現(xiàn)了高動態(tài)范圍。
測試芯片特征的實驗裝置如下。
a.基于EMVA1288的芯片評估實驗裝置;b.光學(xué)裝置的照片;c.芯片評估系統(tǒng),包括芯片測試板、FPGA板、主機(jī)、高速ADC采集卡;d.動態(tài)范圍測量的光學(xué)裝置;e.用于動態(tài)范圍測量的光學(xué)裝置照片。
如上圖b所示,通過檢測最低功率密度2.71×10^?3 μW/cm^2,和最高功率密度8.04×10^3 μW/cm^2,總動態(tài)范圍達(dá)到130dB,這就符合了一個公認(rèn)的標(biāo)準(zhǔn)。
而「天眸芯」的互補(bǔ)路徑,實現(xiàn)了高空間分辨率和精度。
并且,它在不可預(yù)測的環(huán)境中具有高魯棒性。
為了消除AOP引起的空間混疊和量化誤差,「天眸芯」互補(bǔ)地使用了空間分辨率和精度。
可以看到,盡管上圖c中由AOP-SD捕獲的標(biāo)準(zhǔn)西門子星圖,可能因其低分辨率而顯得失真,但COP準(zhǔn)確地記錄了它。
如上圖d所示,在一個有水平快速移動和旋轉(zhuǎn)物體以及變化光照條件的場景中,一道突然的閃光擾亂了AOP-TD,但AOP-SD不受影響。
通過結(jié)合COP圖像與AOP-TD和AOP-SD,逐幀重建高速視頻可以恢復(fù)高速運動。
使用AOP,「天眸芯」展示出了快速的響應(yīng),可重新配置的速度范圍從757fps到10,000fps,精度從±7bit到±1bit。
這就補(bǔ)充了COP的相對較慢速度,保持了30fps和10bit分辨率的持續(xù)響應(yīng)。
評估「天眸芯」的高速能力,可以通過瞬態(tài)閃電測試來完成。
如下圖e所示,「天眸芯」能夠在50mV閾值水平下,以±1bit的精度,在10,000fps下捕捉快速閃電。
值得注意的是,由于高度的稀疏性,AOP在瞬態(tài)現(xiàn)象期間的峰值帶寬消耗僅約50MB/s,相比于具有相同時空分辨率和精度的傳統(tǒng)相機(jī)(640×320×10,000×2)減少了90%。
下圖中,是更多芯片高速響應(yīng)和時間抗鋸齒的演示。
a.高速記錄機(jī)器擊出的、不可預(yù)測、快速移動的乒乓球;b.芯片的功能,左半部分是不同模塊的分布,包括像素、模擬、數(shù)字和接口電路,展示了不同模式下的總功耗;c.車輪旋轉(zhuǎn)的坑鋸齒重建;d.芯片的AOP能夠捕獲COP錯過的閃電,并記錄紋理細(xì)節(jié)。
為了評估「天眸芯」的整體性能,研究者使用了一個綜合的優(yōu)值(FOM)。
這個FOM包含了用于開放世界傳感的關(guān)鍵性能指標(biāo),將最大采樣率(Rmax)和動態(tài)范圍整合到一個統(tǒng)一的指標(biāo)中(Rmax × 動態(tài)范圍)。
在下圖f中,F(xiàn)OM分別對比了各種傳感器的功耗和帶寬。
「天眸芯」的功耗根據(jù)操作模式變化,在典型模式下(±7位,1,515fps無閾值)平均為368mW。
可以看到,「天眸芯」達(dá)到了先進(jìn)的FOM,超越了現(xiàn)有的神經(jīng)形態(tài)傳感器和傳統(tǒng)圖像傳感器,同時仍能保持低功耗和低帶寬消耗。
在開放世界中的性能
所以,「天眸芯」在開放世界中的性能是怎樣的?
它的互補(bǔ)傳感范式,提供了廣泛的設(shè)計可能性,并為感知算法提供了卓越的數(shù)據(jù)源。
為了評估它在開放世界場景中的表現(xiàn),研究者開發(fā)了一種集成了「天眸芯」的汽車駕駛感知系統(tǒng)。
對于「天眸芯」的評估,是在開放道路上進(jìn)行的。
因此,測試中會涉及各種邊緣情況,包括閃光干擾、高動態(tài)范圍場景、領(lǐng)域轉(zhuǎn)移問題(異常物體)和包含多個邊緣情況的復(fù)雜場景。
并且,為了充分利用「天眸芯」架構(gòu)的優(yōu)勢,研究者特意設(shè)計了一種多路徑算法,專門用于利用AOP和COP的互補(bǔ)特性。
重建管線 a.整個重建網(wǎng)絡(luò)的結(jié)構(gòu) b.從SpyNet修改的輕量級光流估計器,使用多尺度殘差流計算 c.自監(jiān)督訓(xùn)練管線,使用兩個彩色圖像和這兩個圖像之間的差異數(shù)據(jù)來提供兩個訓(xùn)練樣本 d.在推理階段,調(diào)整輸入數(shù)據(jù)量以獲得任意時間點的高速彩色圖像。
在傳感層面,原始信息的完整性讓它能夠重建原始場景,并適應(yīng)極端光照條件。
同時在感知層面,AOP提供了對變化、紋理和運動的即時感知,而COP提供了精細(xì)的語義細(xì)節(jié)。通過同步這些結(jié)果,就實現(xiàn)了對場景的全面理解。
用于開放世界汽車駕駛?cè)蝿?wù)的流感知管線
下圖b顯示了第一個場景。在這個場景中,涉及了突然閃光的傳感能力,這種閃光會導(dǎo)致照明快速變化,從而可能影響傳感器的魯棒性。
而「天眸芯」,對此類閃光表現(xiàn)出了非凡的適應(yīng)能力,而且在正常情況下,它也能保持高感知性能。
對于實時的高動態(tài)范圍感知,兩條路徑的互補(bǔ)靈敏度,能使「天眸芯」在不犧牲速度的情況下,感知高亮度對比。
在感知層面,異常檢測能力可以通過AOP上的異常光流檢測器得到補(bǔ)充。
其中,AOP-TD和AOP-SD的協(xié)作,能夠精確計算出運動方向和速度,從而識別出異常。
而在下圖e中,展示了一個相當(dāng)復(fù)雜的場景。
這個場景中有昏暗的自然光照、混亂的交通環(huán)境,甚至是來自人造光的突然干擾。
這就需要在采樣速度、分辨率和動態(tài)范圍方面,具備多樣的傳感能力。
好在,CVP上的算法提供了互補(bǔ)和多樣的結(jié)果,為這些場景中的進(jìn)一步?jīng)Q策,提供了充足的空間。
下面的柱狀圖顯示,相比僅使用單一路徑,CVP在測試的所有案例中,都表現(xiàn)出了更優(yōu)越的性能。
尤其值得注意的是,它是在不到80MB/s和平均功耗為328mW的情況下,達(dá)到這種性能的!
實驗表明,「天眸芯」能夠高效適應(yīng)極端光照環(huán)境,并提供領(lǐng)域不變的多層次感知能力。
總之,「天眸芯」與傳統(tǒng)的傳感范式不同,清華施教授團(tuán)隊的新方法,克服了同質(zhì)表征造成的低效率,可以適應(yīng)開放世界中的各種極端情況。
在極端環(huán)境中,比如經(jīng)過隧道,閃光燈干擾,以及汽車前方有人走過,依然能保持快速和魯棒的響應(yīng)。
這種視覺感知的突破,將為自動駕駛、具身智能等重要應(yīng)用,翻開全新的篇章。
本文轉(zhuǎn)自 新智元 ,作者:新智元
