Shopee 多語(yǔ)言商品知識(shí)圖譜技術(shù)構(gòu)建方法和應(yīng)用
Shopee 是一家服務(wù)于全球多個(gè)市場(chǎng)的電商平臺(tái),致力于為消費(fèi)者提供更加便捷,安全,快速良好的消費(fèi)體驗(yàn)。Shopee 深耕多種不同的語(yǔ)言和市場(chǎng),在這種國(guó)際化的服務(wù)平臺(tái)上,需要處理多語(yǔ)言和混合語(yǔ)言的復(fù)雜語(yǔ)料。我個(gè)人的工作主要聚焦于電商平臺(tái)商品有關(guān)的圖譜以及圖譜算法的構(gòu)建,也希望通過(guò)本次分享能給大家?guī)?lái)一些收獲。其中就包含了:商品知識(shí)圖譜在多元市場(chǎng)的構(gòu)建經(jīng)驗(yàn),商品知識(shí)圖譜最新的進(jìn)展以及新的應(yīng)用,以及如何構(gòu)建技術(shù)模型和技術(shù)框架來(lái)實(shí)現(xiàn)滿(mǎn)足電商復(fù)雜應(yīng)用的訴求。
一、知識(shí)建模
首先分享一下知識(shí)建模相關(guān)的內(nèi)容。
1、Knowledge Ontology
從上圖中可以看到,消費(fèi)者使用 Shopee 電商 App,可以通過(guò)分類(lèi)選項(xiàng),找到具體分類(lèi)下的商品,進(jìn)行瀏覽和購(gòu)買(mǎi)。分類(lèi)體系是商品圖譜中用來(lái)管理商品信息的非常重要的本體層。商品圖譜的本體層,主要包含商品的分類(lèi)和每個(gè)分類(lèi)下具體的屬性,通過(guò)這樣的分類(lèi)和屬性的組合,來(lái)表示整個(gè)商品圖譜中每一個(gè)商品實(shí)體的具體信息。
電商分類(lèi)是一個(gè)樹(shù)狀的結(jié)構(gòu),從最粗的粒度到最細(xì)的粒度,不同的分類(lèi)中有不同的深度。以移動(dòng)電子類(lèi)為例,在其下面又可以細(xì)分出可穿戴類(lèi)的電子產(chǎn)品,在可穿戴類(lèi)中又包括了移動(dòng)手表等等。對(duì)于細(xì)分品類(lèi),我們會(huì)梳理出大家關(guān)心的屬性項(xiàng)和屬性值。以 T-shirt 為例,消費(fèi)者和平臺(tái)可能會(huì)比較關(guān)注 T-shirt 的品牌、材質(zhì)等信息,這里的品牌、材質(zhì)是屬性項(xiàng)(Attribute Type)。我們會(huì)梳理出品牌、材質(zhì)這些屬性項(xiàng)對(duì)應(yīng)的具體屬性值(Attribute Value),比如材質(zhì)里面包含純棉 Cotten、真絲 Silk 等。
通過(guò)類(lèi)目(category),屬性項(xiàng)(Attribute Type),屬性值(Attribute Value)這樣一個(gè)組合體,就可以構(gòu)建出商品知識(shí)圖譜的本體層。用這樣的本體來(lái)表達(dá)所有具體商品實(shí)體的信息。
2、Knowledge Ontology - Ontology and Entity
在這個(gè)圖中,上面是本體,下面是每個(gè)商品的實(shí)體。當(dāng)然在商品實(shí)體里,也會(huì)有不同的粒度。比如我們?nèi)粘T谫I(mǎi)東西的時(shí)候看到的一個(gè)頁(yè)面,其實(shí)是一個(gè) item,這是商品維度。當(dāng)我們選擇了一個(gè)具體的型號(hào)去購(gòu)買(mǎi),就是選擇了一個(gè) SKU Model,這是最細(xì)粒度的商品信息。這樣一個(gè)本體體系和商品實(shí)體的組合,就可以實(shí)現(xiàn)大規(guī)模商品信息的結(jié)構(gòu)化管理和表示。
3、Knowledge Ontology - Uplift All in One
隨著經(jīng)濟(jì)的發(fā)展,電商為了滿(mǎn)足迅速變化的市場(chǎng)需求也在不斷地演變,電商平臺(tái)的本體層也不是一成不變的。
Shopee 建設(shè)初期,在各個(gè)語(yǔ)言市場(chǎng)有著自己的本體分類(lèi)和設(shè)計(jì)。后來(lái)我們發(fā)現(xiàn),統(tǒng)一的一套更加有利于多語(yǔ)言語(yǔ)料和多語(yǔ)言市場(chǎng)之間商品的互通,和商品信息在不同語(yǔ)言之間高效的轉(zhuǎn)化,所以我們把不同語(yǔ)言之間的本體匯總成了 Global-Category-Tree 這樣全球統(tǒng)一的體系。就可以在同樣的分類(lèi)體系,同樣的屬性體系下面,用不同版本的語(yǔ)言去管理所有市場(chǎng)的商品實(shí)體信息。
4、Knowledge Ontology - Uplift Continuously
在圖譜本體方面,我們遇到的核心痛點(diǎn)是,本體如何與時(shí)俱進(jìn)的去迭代變更。隨著市場(chǎng)的發(fā)展,會(huì)不斷涌現(xiàn)出新的品類(lèi)、新的項(xiàng)和值。但是新品、新項(xiàng)和新值對(duì)于存量的語(yǔ)料來(lái)說(shuō)是比較少的,那么如何能及時(shí)的捕捉到它們呢?這個(gè)技術(shù)的思想就要從 New Phrase Mining 開(kāi)始。普通 NER 模型在 OOV 問(wèn)題的表現(xiàn)上,并不能很好地滿(mǎn)足我們的應(yīng)用訴求,我們的核心思想是引入 MINER 模型,去緩解和改善 OOV 的問(wèn)題。主要思想是:以 SpanNER 為基礎(chǔ)模型,引入 information bottleneck 層,借助互信息的形式改造目標(biāo)函數(shù),幫助模型去優(yōu)化對(duì)上下文的捕捉能力。從而提升模型的泛化能力。通過(guò)這樣不斷去挖掘新的品類(lèi)詞、屬性項(xiàng)、屬性值的技術(shù),實(shí)現(xiàn)了 Span level accuracy 提升 4.5%+,Value level recall 提升 7.4%+,效果還是比較可觀的?;谶@樣一套不斷挖掘的思路,就可以幫助智能推薦本體層的調(diào)整建議,結(jié)合線(xiàn)上效果評(píng)估,基于新的語(yǔ)料去不斷進(jìn)行挖掘的迭代和循環(huán)。
二、知識(shí)獲取
1、Challenges
在日常的知識(shí)獲取工作中,我們也遇到了比較多的挑戰(zhàn),比如在處理商品語(yǔ)料的時(shí)候,會(huì)遇到各種各樣的語(yǔ)言,甚至是各種復(fù)雜語(yǔ)言的混合體。同時(shí)還要處理細(xì)粒度的分類(lèi),分類(lèi)體系可以達(dá)到上千類(lèi)。在這樣的細(xì)粒度分類(lèi)之下,不同的分類(lèi)有不同的語(yǔ)料特征,分類(lèi)結(jié)合屬性項(xiàng)維度能夠達(dá)到 10K+ 的不同組合。再結(jié)合每個(gè)項(xiàng)下面不同的屬性值,整體能夠達(dá)到 260K+ 量級(jí)的規(guī)模。在這樣的規(guī)模下,整體服務(wù)的精度還要維持在 90% 之上。
面對(duì)這樣的挑戰(zhàn),我們需要更好的技術(shù)思路,基于有限的開(kāi)發(fā)人員和研發(fā)時(shí)間,能夠快速響應(yīng)線(xiàn)上服務(wù)迭代的訴求,保證線(xiàn)上服務(wù)的效果,所以我們需要有一套 Scalable Technique Structure 來(lái)響應(yīng)我們的應(yīng)用訴求。
2、Item Category Classification
首先介紹下商品分類(lèi)相關(guān)的 task 和解決方案。商品分類(lèi)問(wèn)題的核心目標(biāo)就是理解商品的分類(lèi)信息,并且提升和保障其準(zhǔn)確性。同時(shí)還需要把分類(lèi)的服務(wù)提供給商家商品發(fā)布的系統(tǒng),保證系統(tǒng)的效率及穩(wěn)定性。具體的問(wèn)題可以拆分為幾個(gè) task:
① 如何對(duì)新發(fā)的商品做精準(zhǔn)的推薦。
② 存量的商品牽引到新的分類(lèi)體系下。
③ 及時(shí)捕捉和修正存量商品信息中的錯(cuò)誤。
隨著電商平臺(tái)的發(fā)展,商品信息的表達(dá)也在不斷變化來(lái)吸引用戶(hù)的關(guān)注,這對(duì)于模型而言就是一個(gè)挑戰(zhàn),不僅要構(gòu)建一個(gè)精準(zhǔn)的模型,還要不斷地迭代更新保持它的效果。
為了應(yīng)對(duì)信息分類(lèi),需要設(shè)計(jì)一套模型的架構(gòu)。這樣的模型架構(gòu)我們有好多種,比如說(shuō)第一種就是把每個(gè)商品做一個(gè)粗粒度的分類(lèi),可能分到最粗的幾十大類(lèi),在每個(gè)大類(lèi)下有更細(xì)粒度的分類(lèi),這樣每個(gè)子模型需要去分類(lèi)的類(lèi)別量是比較小的,分類(lèi)效果也會(huì)比較精細(xì)。第二種是更加 end-to-end 的框架,我們直接把商品信息輸入,去找到它使用的最細(xì)粒度的分類(lèi)。
這兩種架構(gòu)各有其優(yōu)缺點(diǎn)。第一種的缺點(diǎn)就是需要管理的模型是很多的,以一個(gè)語(yǔ)言市場(chǎng)為例,需要管理的模型就有幾十個(gè)。再結(jié)合十多個(gè)語(yǔ)言市場(chǎng),管理的模型量就達(dá)到上百量級(jí)。第二種模型更加端到端,但是在一些細(xì)分品類(lèi)上的效果就可能各有參差,并且在細(xì)粒度品類(lèi)的優(yōu)化上也會(huì)同時(shí)影響其他品類(lèi)的效果。這兩種體系我們會(huì)根據(jù)實(shí)際效果做更科學(xué)的選擇。
無(wú)論哪種體系,底層都依賴(lài)了文本類(lèi)的分類(lèi)方法和圖文結(jié)合多模態(tài)的方法。常見(jiàn)的文本類(lèi)模型有 Fasttext 和 BERT 等等。多模態(tài)部分我們?cè)趯?duì)比各種模型后,選擇基于 Align-before-fuse 做商品類(lèi)圖文信息的綜合識(shí)別,最終找到適合的分類(lèi)。Align-before-fuse 模型的核心思想是先通過(guò) Image-Text Contrastive Learning,Image-Text Matching 和 Masked Language Modelling 做預(yù)訓(xùn)練,再通過(guò) Momentum Distillation 減輕臟數(shù)據(jù)的影響,從而實(shí)現(xiàn)比較好的分類(lèi)效果。
隨著模型的開(kāi)發(fā)上線(xiàn)和應(yīng)用,我們?cè)诟鱾€(gè)市場(chǎng)的主要品類(lèi)下面的精度可以維持在 85%~90%+。同時(shí)也能支持不同的發(fā)布體系的高頻率調(diào)用。
第二個(gè)任務(wù)就是對(duì)類(lèi)目體系做變更之后如何快速的響應(yīng),把商品轉(zhuǎn)化到新的品類(lèi)上。這里的業(yè)務(wù)背景是隨著市場(chǎng)的發(fā)展,很多新品的涌現(xiàn)以及品類(lèi)的壯大。如果一直用比較粗的分類(lèi)方式,是不利于下游電商系統(tǒng)分發(fā)和客戶(hù)消費(fèi)體驗(yàn)的,需要進(jìn)行細(xì)化的拆分。對(duì)技術(shù)就比較有挑戰(zhàn),因?yàn)樾碌姆诸?lèi)是不能直接拿到天然的訓(xùn)練語(yǔ)料的,所以工作的重點(diǎn)就是如何能夠智能化地構(gòu)建訓(xùn)練語(yǔ)料,升級(jí)并且響應(yīng)新的分類(lèi)體系的要求。
上圖展示了數(shù)據(jù)挖掘的流程和思路,核心思想是基于 Keywords-Mining 和 OOD-Detection 的方法,去挖掘有變化的或者新興品類(lèi)的關(guān)鍵詞,基于關(guān)鍵詞去做自動(dòng)化樣本的構(gòu)建。比如挖掘出新興品類(lèi)的關(guān)鍵詞之后,存量的商品或者市場(chǎng)上的商品能夠被這樣的關(guān)鍵詞命中,且具備較高的執(zhí)行度,那么就可以添加到訓(xùn)練語(yǔ)料當(dāng)中,成為新品類(lèi)的訓(xùn)練樣本。對(duì)于低執(zhí)行度或者有多種可能的數(shù)據(jù)語(yǔ)料,再進(jìn)行簡(jiǎn)單的人工核驗(yàn),就可以快速的構(gòu)建訓(xùn)練樣本,幫助模型高效地迭代。
以上圖的案例為例,原始的 Global Category Tree 有兩個(gè)分類(lèi),在拓展到 20+ 的細(xì)粒度的分類(lèi)之后,無(wú)論文本模型還是多模態(tài)模型在多個(gè)不同的市場(chǎng)都可以達(dá)到 90%+ 的精度,可以高效地響應(yīng)分類(lèi)調(diào)整問(wèn)題。
第三個(gè)任務(wù)是如何對(duì)分類(lèi)錯(cuò)誤的商品去捕捉和修正。這里的業(yè)務(wù)背景是錯(cuò)放的商品信息無(wú)論是對(duì)消費(fèi)者還是平臺(tái)都帶來(lái)了各種各樣的負(fù)面影響。比如增加額外的物流成本,影響商家的銷(xiāo)量,增加對(duì)商品管控的難度。技術(shù)上的難點(diǎn)是,這類(lèi)錯(cuò)放商品,對(duì)于模型本來(lái)也是較為困難的案例,分類(lèi)模型對(duì)這些數(shù)據(jù)較難精準(zhǔn)地捕捉。
為了解決這個(gè)問(wèn)題,我們構(gòu)建了識(shí)別錯(cuò)放商品的模型 Detection,再結(jié)合識(shí)別出來(lái)的錯(cuò)放的商品做修正 Correction 的工作,找到一個(gè)更適合的分類(lèi)。在 Detection 這個(gè)模型中,核心思想是基于 CrossEncoder with multi-task learning,對(duì) Shopee 語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,然后做分類(lèi)。通過(guò)對(duì)商品信息和分類(lèi)信息做拼接,識(shí)別出在各個(gè)分類(lèi)層上是否屬于錯(cuò)誤的分類(lèi)。對(duì)于錯(cuò)放的商品,通過(guò)召回和排序的方式,找到最接近或者執(zhí)行度最高的分類(lèi)。核心思想是基于 Sentence-BERT using Siamese Network Structures 和 Triplet Contrastive Learning 優(yōu)選出可信度最高的一個(gè)或多個(gè)分類(lèi),并進(jìn)行修正。
這里面需要去處理或標(biāo)注的存疑語(yǔ)料的規(guī)模是非常大的,那么如何通過(guò)只標(biāo)識(shí)少量的數(shù)據(jù)就實(shí)現(xiàn)模型的提升呢?在這個(gè)問(wèn)題之上,我們進(jìn)行了數(shù)據(jù)語(yǔ)料優(yōu)選的工作,可以理解為通過(guò)主動(dòng)學(xué)習(xí)的方式,去學(xué)習(xí)語(yǔ)料的置信度,在經(jīng)過(guò)三到四種模型,通過(guò)投票和優(yōu)選的方法,學(xué)到哪些數(shù)據(jù)預(yù)料是異常值。在采樣的時(shí)候?qū)?centorid data、outlier data、random data 都進(jìn)行采樣,通過(guò)這樣的方式縮小語(yǔ)料的標(biāo)注量,從而實(shí)現(xiàn)模型的提升。
結(jié)合以上這些工作,識(shí)別商品是否類(lèi)目錯(cuò)放的服務(wù)能夠達(dá)到 98% 以上的精度。搜索查詢(xún)相關(guān)的 badcase 在重點(diǎn)品類(lèi)上減少了 50% 左右。
3、Item Attribute Recognition
接下來(lái)介紹商品屬性新增的識(shí)別。從上圖可以看出,輸入商品的信息之后,屬性識(shí)別基于四種不同的思想:第一種是基于 String-match Model;第二種是基于 Rule-based Model,比如 Warranty Duration: 1 year,這種是符合語(yǔ)料的特征和規(guī)則;第三種是基于 NER model 去做屬性的識(shí)別;第四種是基于Image model,視覺(jué)和多模態(tài)相關(guān)的模型。
基于這四種不同的識(shí)別思路,從商品信息中獲取到多種可能的屬性項(xiàng)和值。對(duì)于這些識(shí)別到的屬性項(xiàng)和值,去做一層屬性值整合,結(jié)合各種信息優(yōu)選出置信度較高的項(xiàng)和值。比如學(xué)習(xí)來(lái)源的置信度等等。在學(xué)習(xí)出了置信度較高的屬性值之后,還需要結(jié)合屬性值之間的關(guān)系,補(bǔ)充出商品信息之外推理出的商品知識(shí)。
開(kāi)放集屬性值通常會(huì)有很多不同的表達(dá),NER 模型比較適合去捕捉商品信息表達(dá)中已有的值。所以我們把商品信息屬性的識(shí)別做了從 NER 模型到 MRC 模型的轉(zhuǎn)換。通過(guò) MRC 的解決思路,我們希望能夠使用 Wordpiece tokenizer 去緩解 OOV 的問(wèn)題,并且通過(guò) LaBse PLM 去解決 multi-lingual 的一些問(wèn)題,通過(guò) MRC+CRF 完成文本屬性和商品屬性的識(shí)別抽取任務(wù)。
識(shí)別和抽取出了大量的屬性值之后,會(huì)發(fā)現(xiàn)它的表達(dá)各種各樣,會(huì)存在拼寫(xiě)錯(cuò)誤或同義詞的現(xiàn)象。就像三星這個(gè)案例,都是藍(lán)色,但是會(huì)有 “blue” 和 “biru” 不同的表達(dá),我們需要對(duì)這些詞做歸一,這樣才能更好地響應(yīng)下游的應(yīng)用,并把所有的商品信息轉(zhuǎn)化到標(biāo)準(zhǔn)的信息層,方便下游系統(tǒng)更高效地理解。
接下來(lái)我們還需要對(duì)這些信息做一層歧義的理解,因?yàn)槲覀儼l(fā)現(xiàn)從商品中抽出的信息會(huì)有沖突。比如商品標(biāo)題信息里面顏色是 “red”,在詳情信息里顏色是 “yellow”,“silver” 既可以標(biāo)識(shí)顏色又可以表示材質(zhì),“red” 有可能是紅色也有可能是紅米品牌信息。受到 promat approach 的啟發(fā),我們把這一問(wèn)題轉(zhuǎn)化成了一個(gè) generation task。基于 T5 的模型,上圖是整體的流程圖,重點(diǎn)是將數(shù)據(jù)轉(zhuǎn)換成 Template 的格式,做 Encoder 和 Decoder,最終輸出想要識(shí)別項(xiàng)對(duì)應(yīng)的值。通過(guò)對(duì)比使用發(fā)現(xiàn) T5 的表現(xiàn)還是不錯(cuò)的,相較于其他的模型有比較大的提升。
當(dāng)識(shí)別出商品的信息之后,還可以利用這些信息做一些推理。比如保修類(lèi)型是不保修,那保修時(shí)間這一項(xiàng)自然就是 None 了。這種推理可以通過(guò)挖掘知識(shí)圖譜的關(guān)聯(lián)屬性去實(shí)現(xiàn)。
以此類(lèi)推,不僅可以通過(guò)關(guān)聯(lián)屬性去補(bǔ)全商品信息,商品圖譜包含商品和商品間的關(guān)系,商品和屬性之間的關(guān)系,這些關(guān)系之間也可以去做一系列的信息的補(bǔ)全,我們也在此基礎(chǔ)之上構(gòu)建了圖譜這樣一個(gè)體系。
三、知識(shí)融合
接下來(lái)介紹知識(shí)融合的部分,分為本體融合,實(shí)體融合和信息融合。
1、Ontology Fusion
本體層融合可以理解為商品本體,比如 Shopee 的商品分類(lèi)體系和市場(chǎng)上其它分類(lèi)體系,它們之間可以做映射和關(guān)聯(lián),包含類(lèi)目的映射、屬性項(xiàng)的映射、屬性值的映射。核心思想是有很多原子化的技術(shù)模塊做支撐,比如在類(lèi)目的映射關(guān)聯(lián)上,可以基于商品的分類(lèi)信息匯總到分類(lèi)體系的映射關(guān)系。屬性項(xiàng)可以結(jié)合相近詞,同義詞等等,在分類(lèi)下面再去構(gòu)建項(xiàng)和值的關(guān)聯(lián)映射關(guān)系,這樣的關(guān)聯(lián)關(guān)系也會(huì)結(jié)合實(shí)際的條件做精度和條件上的限制。
2、Entity Fusion
重點(diǎn)介紹下實(shí)體層的融合,在電商層面可以理解為商品之間關(guān)系的識(shí)別和理解。比如同款商品、相似商品或相關(guān)商品。
在不同關(guān)系的基礎(chǔ)算法上,有一些經(jīng)典的思路,常見(jiàn)的是基于圖文相似度的匹配來(lái)找到它們的關(guān)系。更進(jìn)一步的是基于商品圖譜做商品信息屬性項(xiàng)更細(xì)粒度的匹配,可以更加業(yè)務(wù)可解釋地去拆解出來(lái)商品之間匹配關(guān)系的具體要求。比如我們想要知道兩個(gè)商品是否滿(mǎn)足品牌一致、材質(zhì)一致、顏色一致,還是想要更細(xì)粒度或者更粗粒度,這樣就更方便業(yè)務(wù)去定制化使用。
在基于圖文相似的匹配上,主要是構(gòu)建了基于召回排序的框架和方法。結(jié)合商品信息做 Embedding 構(gòu)建,基于圖文的 Embedding 去做檢索召回和精排,來(lái)實(shí)現(xiàn)基于相似度的同款關(guān)系構(gòu)建。
在這個(gè)基礎(chǔ)之上,還希望構(gòu)建更加精準(zhǔn)的基于圖譜的屬性維度的同款關(guān)系,那么就誕生了一個(gè)概念:Standard Product Unit(spu) ,就是標(biāo)準(zhǔn)產(chǎn)品節(jié)點(diǎn)。從上圖可以看出,在每個(gè)產(chǎn)品的細(xì)粒度分類(lèi)之下,可以定義商品關(guān)系最關(guān)注的那些項(xiàng)和值。比如圖上的 Apple iPhone 13 Pro 代表了一系列的產(chǎn)品節(jié)點(diǎn),無(wú)論任何商家在任何地點(diǎn)售賣(mài)的 Apple iPhone 13 Pro 都是同一款產(chǎn)品。當(dāng)然,這個(gè)產(chǎn)品節(jié)點(diǎn)還刻有更細(xì)粒度。當(dāng)我們沉淀出這樣的產(chǎn)品節(jié)點(diǎn)之后,就可以連接所有符合這個(gè)產(chǎn)品定義的商品,來(lái)實(shí)現(xiàn)一個(gè)產(chǎn)品粒度的商品聚合。
這樣的優(yōu)勢(shì)是更加可解釋?zhuān)奖阌脩?hù)和平臺(tái)內(nèi)部運(yùn)營(yíng)的使用,以及定制不同粒度的聚合體。
整體的框架如上圖所示,涉及到定義的細(xì)化以及基于定義的分類(lèi),屬性的抽取,在基于定義的要求結(jié)合抽取出來(lái)的屬性做商品維度的聚合。我們把所有的模塊連接起來(lái),就可以實(shí)現(xiàn) SPU 數(shù)據(jù)資產(chǎn)的生產(chǎn)。最終不僅生產(chǎn)出所有的產(chǎn)品節(jié)點(diǎn)而且去連接好所有的商品信息,并且還可以把商品的信息匯到產(chǎn)品維度去實(shí)現(xiàn)最終信息層的知識(shí)融合。
所以我們就構(gòu)建出了如上圖所示的知識(shí)圖譜,會(huì)有各種各樣的產(chǎn)品節(jié)點(diǎn)以及對(duì)應(yīng)的分類(lèi)信息、屬性信息,以及各個(gè)商品實(shí)體的連接。
四、知識(shí)應(yīng)用
接下來(lái)再簡(jiǎn)單介紹下我們一系列的知識(shí)應(yīng)用。
知識(shí)應(yīng)用的服務(wù)比較廣泛,比如幫助運(yùn)營(yíng)理解市場(chǎng),做商品篩選,商品質(zhì)量校驗(yàn);幫助商家在發(fā)布的時(shí)候做類(lèi)目的智能化識(shí)別,價(jià)格推薦,物流信息補(bǔ)全;幫助消費(fèi)者推薦高性?xún)r(jià)比的活動(dòng)會(huì)場(chǎng),以及對(duì)搜索推薦做各種智能化支撐。
五、知識(shí)圖譜展望
最后介紹下對(duì)未來(lái)知識(shí)圖譜工作的展望。
從之前的圖譜的圖可以看出來(lái),我們的商品圖譜不只是可以連接到商品和商品屬性分類(lèi)等等這樣的信息,還可以進(jìn)一步拓展和用戶(hù)、商家以及各個(gè)市場(chǎng)平臺(tái)更高維度的信息的關(guān)聯(lián),并且實(shí)現(xiàn)信息之間精準(zhǔn)的互通和推理,基于這樣的補(bǔ)全去做更廣泛的業(yè)務(wù)應(yīng)用。
在當(dāng)前的 AIGC 時(shí)代,大量新技術(shù)的誕生沖擊著大家的思想,不斷有各種各樣的大規(guī)模語(yǔ)言模型誕生。隨著 chatGPT 大模型的突破,AI 的發(fā)展已經(jīng)到達(dá)了一定的階段。chatGPT 的成功證實(shí)了,我們?nèi)绻凶銐蛄康臄?shù)據(jù)和足夠大的模型是能夠?qū)崿F(xiàn)較好的知識(shí)推理的。在這樣的背景之下,做圖譜相關(guān)工作的人和我們的工作又面臨著怎樣的發(fā)展機(jī)遇和挑戰(zhàn)呢?
對(duì)于大模型而言,它能給圖譜提供的幫助效果并不是特別好,并不能達(dá)到端到端的需求。特別是在垂直領(lǐng)域,各個(gè)公司都有自己的運(yùn)轉(zhuǎn)模式和業(yè)務(wù)標(biāo)準(zhǔn)。如上圖所示,我們做一個(gè)商品細(xì)粒度識(shí)別,在這個(gè)例子中,準(zhǔn)確率大概達(dá)到 50%,還沒(méi)有達(dá)到 end-to-end 的商業(yè)應(yīng)用的訴求,還需要去做細(xì)粒度的子模型的構(gòu)建。并且大模型的計(jì)算在現(xiàn)有的算力消耗上也并不是高性?xún)r(jià)比的選擇,垂直領(lǐng)域的模型依然存在優(yōu)勢(shì)。但是大模型可以輔助我們對(duì)垂直領(lǐng)域模型的優(yōu)化,比如對(duì)于訓(xùn)練數(shù)據(jù)的增強(qiáng)、樣本生成,能夠幫助垂直領(lǐng)域模型快速提升。
在大模型的潮流下,我們也需要思考知識(shí)圖譜能起到什么樣的作用。其實(shí)當(dāng)前的大模型仍然存在著一些問(wèn)題,比如大模型可能會(huì)提供非實(shí)時(shí)但看似合理的預(yù)測(cè),以及在推理能力上對(duì)較為復(fù)雜的邏輯推理和數(shù)學(xué)推理還存在進(jìn)步的空間。知識(shí)圖譜其實(shí)是在推理能力上具備一些優(yōu)勢(shì)的,所以未來(lái)我們可以去探索,是否可以將知識(shí)圖譜的結(jié)構(gòu)與現(xiàn)有的方法論做結(jié)合,并且與大模型的訓(xùn)練方法做結(jié)合。
從當(dāng)前的應(yīng)用上來(lái)看,New Bing 已經(jīng)在用搜索引擎去補(bǔ)充和增強(qiáng) chatGPT-4 的效果了,在一定程度上也減少了知識(shí)型的錯(cuò)誤。舉個(gè)例子,對(duì)于獨(dú)特的業(yè)務(wù)知識(shí),我們是不是可以借助零微調(diào)的技術(shù)將知識(shí)圖譜的知識(shí)表達(dá)作為 prompt 去提示 GPT 大模型,來(lái)生成更符合業(yè)務(wù)場(chǎng)景的答案。當(dāng)然這只是一些淺層的思路和應(yīng)用,我相信隨著對(duì)于模型理解的不斷深入,還會(huì)有更好的結(jié)合方法。