首次解密小紅書“種草”機(jī)制:大規(guī)模深度學(xué)習(xí)系統(tǒng)技術(shù)是如何應(yīng)用的
AI 引領(lǐng)的新一代信息技術(shù),正驅(qū)動(dòng)新一輪科技浪潮席卷而來(lái)。作為近年來(lái)國(guó)內(nèi)發(fā)展最為迅速的移動(dòng)互聯(lián)網(wǎng)平臺(tái)之一,小紅書乘勢(shì)而上,目前已經(jīng)形成了以圖文和短視頻內(nèi)容為主的超大型 UGC 社區(qū)。在這個(gè)獨(dú)特而活躍的社區(qū)里,每天都會(huì)產(chǎn)生海量多模態(tài)數(shù)據(jù)及用戶行為反饋,催生出兼具價(jià)值與挑戰(zhàn)的新問(wèn)題。
當(dāng)前,大規(guī)模深度學(xué)習(xí)系統(tǒng)正發(fā)生著許多令人興奮的進(jìn)展。10 月 15 日“小紅書 REDtech 青年技術(shù)沙龍”活動(dòng)中,小紅書技術(shù)副總裁凱奇進(jìn)行了《大規(guī)模深度學(xué)習(xí)系統(tǒng)技術(shù)及其在小紅書的應(yīng)用》分享,為我們揭開 LarC 的“神秘面紗”。
凱奇:小紅書技術(shù)副總裁,畢業(yè)于上海交通大學(xué),曾擔(dān)任歡聚時(shí)代技術(shù)副總裁和百度鳳巢首席架構(gòu)師,負(fù)責(zé)百度搜索廣告 CTR 機(jī)器學(xué)習(xí)算法工作。曾任 IBM 深度問(wèn)答(DeepQA)項(xiàng)目中國(guó)技術(shù)負(fù)責(zé)人。
以下內(nèi)容根據(jù)凱奇現(xiàn)場(chǎng)報(bào)告整理
1、小紅書業(yè)務(wù)概覽
普通人的真實(shí)生活體驗(yàn)分享
小紅書是一個(gè)蓬勃發(fā)展的內(nèi)容社區(qū),大量懂生活、愛(ài)分享的人在這里交換著彼此的生活體驗(yàn)和生活態(tài)度,并不斷吸引著越來(lái)越多的用戶加入?,F(xiàn)在,小紅書已經(jīng)有 2 億的月度活躍用戶,90 后占比 70% 以上,50% 的用戶來(lái)自于一、二線城市,也有一半來(lái)自于三、四線城市,用戶構(gòu)成非常豐富和年輕化。
“普通人”在分享他們“真實(shí)”的“生活體驗(yàn)”,是小紅書與其他內(nèi)容平臺(tái)和社區(qū)非常大的一個(gè)不同點(diǎn)。首先,分享者都是“普通人”,其次,“真誠(chéng)分享,友好互動(dòng)”是小紅書社區(qū)公約,“真誠(chéng)”是很重要的一點(diǎn)。這些社區(qū)中的分享和我們的線下生活消費(fèi)有著緊密的聯(lián)系,比如寶藏書店、或是怎么穿衣搭配、怎么裝修、怎么做菜等內(nèi)容,都是大家的日?!吧铙w驗(yàn)”。
我們用一些數(shù)字也可以去衡量小紅書社區(qū)這些年的發(fā)展,我們看到,筆記發(fā)布量從 2018 年到 2021 年是每年都以非??斓乃俣仍谠鲩L(zhǎng),2020 到 2021 年,小紅書用戶筆記發(fā)布量同比增長(zhǎng)超 150%。
三大主要業(yè)務(wù):社區(qū)、商業(yè)化、電商
在這樣一個(gè)高速發(fā)展的內(nèi)容社區(qū)里,最主要的三大業(yè)務(wù)就是社區(qū)、商業(yè)化和電商。
首先,我們的內(nèi)容社區(qū)和內(nèi)容平臺(tái)是一個(gè)覆蓋全生活品類,以 UGC 為主的生活方式內(nèi)容社區(qū)。也因?yàn)檫@種貼合生活和日常消費(fèi)的“真誠(chéng)分享”,用戶對(duì)我們的社區(qū)內(nèi)容有很高的信任度,大家在看到好的生活方式、消費(fèi)內(nèi)容、服務(wù)和產(chǎn)品等時(shí)會(huì)被“種草”,我們通過(guò)獨(dú)特的“種草”商業(yè)模式帶來(lái)品牌和效果的轉(zhuǎn)化。
“種草后是不是順便可以拔個(gè)草”,在消費(fèi)內(nèi)容的同時(shí),大家也希望能夠自然、方便地買到自己心儀的物品,這是我們高效的閉環(huán)消費(fèi)場(chǎng)域,也就是電商這一部分。
2、小紅書技術(shù)挑戰(zhàn)
多模態(tài)技術(shù)是當(dāng)前整個(gè) AI 領(lǐng)域廣受關(guān)注、發(fā)展迅速的技術(shù)方向之一,UGC 社區(qū)和內(nèi)容生態(tài)中包含大量的圖文、視頻、文字和用戶行為信息,產(chǎn)生了海量高質(zhì)量的多模態(tài)數(shù)據(jù),因此成為了極佳的實(shí)踐場(chǎng)景。用戶看到好的內(nèi)容點(diǎn)贊、做的各種搜索行為、對(duì)某個(gè)視頻的觀看等等,構(gòu)成了大量用戶實(shí)際的反饋。
現(xiàn)在每一天實(shí)際通過(guò)用戶行為產(chǎn)生的反饋樣本量都有幾百億的級(jí)別。如何在海量的多模態(tài)數(shù)據(jù)中挖掘用戶感興趣的內(nèi)容和好的商業(yè)內(nèi)容,從這個(gè)目標(biāo)出發(fā),衍生出很多有價(jià)值同時(shí)也具備挑戰(zhàn)性的問(wèn)題.
我們是怎么去解決這些技術(shù)的:
千人千面的實(shí)時(shí)推薦系統(tǒng)
打開小紅書,首先映入眼簾的就是列的瀑布流或者內(nèi)容流,這些都是推薦系統(tǒng)給大家推薦的內(nèi)容。據(jù)統(tǒng)計(jì),小紅書每天產(chǎn)生的用戶行為達(dá)到幾百億級(jí)別的規(guī)模。對(duì)于這些數(shù)據(jù),小紅書技術(shù)團(tuán)隊(duì)使用基于 LarC 的機(jī)器學(xué)習(xí)框架對(duì)模型進(jìn)行訓(xùn)練,根據(jù)用戶行為中的規(guī)律,找出用戶感興趣的內(nèi)容并推薦給用戶。
下圖為小紅書推薦模型的大概結(jié)構(gòu)。這是一個(gè)多任務(wù)的機(jī)器學(xué)習(xí)模型,它能夠預(yù)估用戶的點(diǎn)擊、停留時(shí)長(zhǎng)、是否點(diǎn)贊收藏等行為。針對(duì)小紅書平臺(tái)產(chǎn)生的海量的系數(shù)參數(shù),小紅書通過(guò)超大規(guī)模無(wú)沖突的參數(shù)服務(wù)器,對(duì)這些參數(shù)進(jìn)行更新和捕捉。
推薦系統(tǒng)的 Online Training 如下。當(dāng)用戶在瀏覽信息流的時(shí)候,推薦系統(tǒng)會(huì)實(shí)時(shí)捕捉用戶的瀏覽、點(diǎn)擊、點(diǎn)贊等行為,這些行為會(huì)基于 Flink 實(shí)時(shí)處理的計(jì)算引擎對(duì)這些數(shù)據(jù)進(jìn)行拼接,從而產(chǎn)生高性能的樣本,然后這些樣本會(huì)被實(shí)時(shí)送到模型中去做預(yù)估。同時(shí),這些短暫累積的樣本也會(huì)用來(lái)做一次非常短暫的 Online Training 以更新模型參數(shù)。這些更新后的模型參數(shù)會(huì)立刻發(fā)布到線上,去服務(wù)下一次的請(qǐng)求。整個(gè)過(guò)程是保持在分鐘級(jí)別的。
業(yè)界還有一個(gè)經(jīng)典問(wèn)題,比如大家瀏覽推薦內(nèi)容時(shí)經(jīng)常會(huì)發(fā)現(xiàn):為什么密集地推送我以前看過(guò)的東西?我看的東西新鮮感不夠了怎么辦?
在推薦場(chǎng)景中,關(guān)注較短的時(shí)間周期會(huì)使得追打和信息繭房問(wèn)題嚴(yán)重,小紅書技術(shù)團(tuán)隊(duì)對(duì)用戶的多元化長(zhǎng)短期行為設(shè)計(jì)了不同的序列建模方式,在多個(gè)維度帶來(lái)了顯著提升。此外,關(guān)于內(nèi)容推薦的多樣性問(wèn)題,小紅書技術(shù)團(tuán)隊(duì)將傳統(tǒng)的多樣性做法從 DPP 改進(jìn)到 SSD 算法,在信息流推薦的場(chǎng)景中高效地滑窗計(jì)算,從而將單篇模型的價(jià)值排序轉(zhuǎn)化為整個(gè)瀏覽周期的建模。這背后依賴的是孿生神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)長(zhǎng)尾內(nèi)容的相似性。
相關(guān)工作成果我們已經(jīng)發(fā)表在 KDD 2021 會(huì)議上,它從單篇價(jià)值的預(yù)估轉(zhuǎn)變成一個(gè)序列價(jià)值的預(yù)估,從單篇的多樣性轉(zhuǎn)變成多篇的多樣性,背后也是基于 SSD 算法,以及基于這個(gè)孿生神經(jīng)網(wǎng)絡(luò)對(duì)內(nèi)容相似性的評(píng)估。
多模態(tài)泛化的生活搜索引擎
由于小紅書社區(qū)包含了的大量實(shí)際生活當(dāng)中非常有用的信息,很多用戶都會(huì)把小紅書當(dāng)作搜索引擎來(lái)用。這其中包含一些挑戰(zhàn),比如多種數(shù)據(jù)形態(tài)的搜索、長(zhǎng)尾現(xiàn)象嚴(yán)重、意圖理解問(wèn)題等。
現(xiàn)有的圖文搜索引擎,通過(guò)文字可以搜索圖片,但做法都相對(duì)簡(jiǎn)單,通常都是給圖片打上文字的標(biāo)簽,然后再做文字的匹配。小紅書團(tuán)隊(duì)構(gòu)建的下一代多模態(tài)泛生活搜索引擎,它基于對(duì)多模態(tài)內(nèi)容深入的理解,通過(guò)圖文、文字真正搜索視覺(jué)的內(nèi)容,也能夠根據(jù)用戶的特點(diǎn)去做更加個(gè)性化的搜索。
什么叫做泛生活知識(shí)搜索引擎?比如我們?cè)谛〖t書上看到了一件好看的的衣服或鞋子,想搜一搜它的搭配有哪些,以及在不同場(chǎng)合下它分別展現(xiàn)出怎樣的感覺(jué)。這是關(guān)于生活知識(shí)的搜索,同時(shí)它又是一個(gè)多模態(tài)的搜索。
這其中顯示的是小紅書技術(shù)團(tuán)隊(duì)規(guī)劃的多模態(tài),特別是對(duì)于搜圖片這樣的技術(shù)架構(gòu),其中非常關(guān)鍵的一個(gè)依賴是特征多模塊,需要依賴大規(guī)模的神經(jīng)網(wǎng)絡(luò)去做表征學(xué)習(xí),對(duì)圖片中包含的內(nèi)容,無(wú)論是衣服、鞋或是其他商品商品,都能有一個(gè)很好的表征。很好的從大量的多模態(tài)內(nèi)容當(dāng)中檢索出相同的商品或者相似的商品,這是我們?cè)谒阉魃蠈?duì)大規(guī)模神經(jīng)網(wǎng)絡(luò)的一個(gè)應(yīng)用。
AI 生成更原生的商業(yè)內(nèi)容
與其他平臺(tái)相比,小紅書的商業(yè)內(nèi)容有一個(gè)很大的不同點(diǎn)——原生化。所謂原生化,就是從點(diǎn)贊、評(píng)論等行為去看,用戶對(duì)這個(gè)內(nèi)容非常欣賞,可能完全感覺(jué)不到它是一個(gè)商業(yè)內(nèi)容。但是對(duì)于平臺(tái)上的商家來(lái)說(shuō),制作這樣的商業(yè)內(nèi)容的門檻很高。如何很好地平衡商家的商業(yè)意圖與生產(chǎn)內(nèi)容的用戶價(jià)值,是一個(gè)很關(guān)鍵的問(wèn)題。
為此,小紅書技術(shù)團(tuán)隊(duì)使用了基于大規(guī)模神經(jīng)網(wǎng)絡(luò)的生成式技術(shù),來(lái)幫助商家根據(jù)內(nèi)容去生成更好的標(biāo)題和內(nèi)容。比如商家可以選擇進(jìn)行多個(gè)賣點(diǎn)表達(dá),也可以選擇突出目標(biāo)客戶群體,或者是喜歡的小紅書風(fēng)格,機(jī)器會(huì)自動(dòng)給出建議的標(biāo)題,在引用機(jī)器創(chuàng)作的標(biāo)題后,無(wú)論業(yè)務(wù)效果、點(diǎn)擊或者是停留時(shí)長(zhǎng)都得到了很好的提升,用戶也是非常喜歡這樣的內(nèi)容,所以它做到商業(yè)和用戶價(jià)值很好的平衡。
這背后其實(shí)是基于大規(guī)模的預(yù)訓(xùn)練模型,包括業(yè)界較為領(lǐng)先的 T5、BERT、GPT 等模型架構(gòu),這些模型架構(gòu)都在小紅書海量的多模態(tài)數(shù)據(jù)上進(jìn)行了訓(xùn)練。一部分的預(yù)訓(xùn)練模型用來(lái)去做筆記內(nèi)容理解,一部分預(yù)訓(xùn)練模型會(huì)被用來(lái)去指導(dǎo)生成式模型去生成標(biāo)題,這些都是相關(guān)技術(shù)在商業(yè)領(lǐng)域的應(yīng)用方式。
大規(guī)模機(jī)器學(xué)習(xí)平臺(tái)
上述所有的機(jī)器學(xué)習(xí)內(nèi)容,其實(shí)都是基于小紅書技術(shù)團(tuán)隊(duì)自研的 LarC 機(jī)器學(xué)習(xí)平臺(tái)。它啟動(dòng)于 2019 年,到了 2020 年和 2021 年,相關(guān)的機(jī)器學(xué)習(xí)框架和平臺(tái)推廣到了搜索、推薦、廣告等所有領(lǐng)域。2022 年,LarC 實(shí)現(xiàn)了平臺(tái)化。
目前,LarC 機(jī)器學(xué)習(xí)平臺(tái)的能力已經(jīng)相當(dāng)完整,涵蓋從底層基礎(chǔ)設(shè)施到計(jì)算框架、資源調(diào)度、離線應(yīng)用以及在線部署多個(gè)層面(其中標(biāo)黃部分代表已經(jīng)實(shí)現(xiàn))。
借助 LarC 機(jī)器學(xué)習(xí)平臺(tái),小紅書技術(shù)團(tuán)隊(duì)希望能夠幫所有算法同學(xué)迅速、高效地處理海量數(shù)據(jù),訓(xùn)練大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型。
3、Summary
小紅書是高速發(fā)展的內(nèi)容社區(qū),“普通人”、“真實(shí)分享”、“生活體驗(yàn)”是它的關(guān)鍵詞。
在這樣一個(gè)具有海量的多模態(tài)數(shù)據(jù)及用戶反饋數(shù)據(jù)場(chǎng)景下,催生出很多前沿技術(shù)探索。以上是從大量技術(shù)工作當(dāng)中挑了一些點(diǎn)出來(lái)跟大家做分享,其實(shí)還有很多內(nèi)容,希望大家能夠從當(dāng)中對(duì)小紅書的技術(shù)和大規(guī)模的深度學(xué)習(xí)有所了解。