知識(shí)圖譜是機(jī)器理解世界的基礎(chǔ),看這三位專(zhuān)家如何玩轉(zhuǎn)知識(shí)圖譜技術(shù)!
原創(chuàng)【51CTO.com原創(chuàng)稿件】6月21日, WOT2019全球人工智能技術(shù)峰會(huì)在北京粵財(cái)JW萬(wàn)豪酒店準(zhǔn)時(shí)拉開(kāi)序幕。作為2019年度全球技術(shù)人員線下交流的知名峰會(huì),本次大會(huì)緊緊圍繞著通用技術(shù)、應(yīng)用領(lǐng)域、企業(yè)賦能三大核心章節(jié)展開(kāi)。來(lái)自全球的60余位一線AI大咖們齊聚一堂,與千余名參會(huì)群眾共同分享了深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、視覺(jué)技術(shù)、無(wú)人駕駛、機(jī)器學(xué)習(xí)、算法模型、知識(shí)圖譜等主題技術(shù)內(nèi)容。
6月21日下午,在通用技術(shù)章節(jié)中C會(huì)場(chǎng)知識(shí)圖譜技術(shù)分論壇,瑞士再保險(xiǎn)數(shù)據(jù)科學(xué)家王冠、美團(tuán)點(diǎn)評(píng)資深算法專(zhuān)家潘路、中國(guó)科學(xué)院自動(dòng)化研究所副研究員何世柱三位資深專(zhuān)家受邀出席發(fā)表精彩演講。會(huì)后51CTO將專(zhuān)家發(fā)言整理成文,希望他們的演講內(nèi)容精華對(duì)大家有所幫助。
瑞士再保險(xiǎn)數(shù)據(jù)科學(xué)家王冠
知識(shí)圖譜構(gòu)建:數(shù)據(jù)、算法和架構(gòu)
知識(shí)圖譜在保險(xiǎn)行業(yè)有很多應(yīng)用,王冠列舉了四大應(yīng)用場(chǎng)景:一是智能交互,在客戶理賠時(shí),想知道自己的保險(xiǎn)能不能獲賠,這背后不是羅列保單上的條款就能答復(fù)的,更多的是需要將保險(xiǎn)產(chǎn)品、客戶數(shù)據(jù)、對(duì)話記錄、醫(yī)療票據(jù)各種信息整合成知識(shí)圖譜,然后通過(guò)智能客服快速反饋給客戶。二是精準(zhǔn)推薦,通過(guò)知識(shí)圖譜掌握客戶的數(shù)據(jù),就可以精準(zhǔn)推薦給客戶匹配的產(chǎn)品。三是自動(dòng)理賠,現(xiàn)在理賠大多是人工操作,尤其是大額保單需要人工做調(diào)查,但是通過(guò)知識(shí)圖譜技術(shù),可以查到一些歷史數(shù)據(jù)得出結(jié)論,從而實(shí)現(xiàn)自動(dòng)化理賠。四是反欺詐,面對(duì)詐?,F(xiàn)象,用知識(shí)圖譜就可以方便地找到詐保人的詐騙軌跡,寫(xiě)一些相應(yīng)的查詢(xún)語(yǔ)句,就可以找出常見(jiàn)的欺詐模式。
那么如何建立一個(gè)保險(xiǎn)行業(yè)的知識(shí)圖譜呢?這是一個(gè)非常復(fù)雜的流程,涉及到知識(shí)體系構(gòu)建、知識(shí)庫(kù)獲取、融合、存儲(chǔ)、推理、應(yīng)用等多個(gè)環(huán)節(jié)。王冠在現(xiàn)場(chǎng)重點(diǎn)講述了實(shí)體與關(guān)系的抽取算法,從非結(jié)構(gòu)化、半結(jié)構(gòu)化的文本數(shù)據(jù)中,通過(guò)抽取實(shí)體和抽取實(shí)體之間關(guān)系的方法構(gòu)建知識(shí)圖譜。王冠強(qiáng)調(diào),在抽取算法中,詞嵌入非常重要,實(shí)現(xiàn)了文本到向量的轉(zhuǎn)化,只要訓(xùn)練出了一個(gè)向量就可以非常好地表現(xiàn)出中文的語(yǔ)義,并自動(dòng)抓取到相關(guān)的詞語(yǔ)。
信息提取工具架構(gòu)
文本標(biāo)準(zhǔn)工具架構(gòu)
實(shí)體識(shí)別和關(guān)系提取都是自然語(yǔ)言處理中非常重要的任務(wù),王冠沒(méi)有多加贅述。他表示,根據(jù)不同的場(chǎng)景有不少構(gòu)建知識(shí)圖譜的方法,實(shí)體就是節(jié)點(diǎn),關(guān)系就是邊,通過(guò)最短路徑挖掘找到背后的關(guān)系。“目前知識(shí)圖譜的應(yīng)用主要集中在三大方面,分別是可視化/探索、圖算法、圖數(shù)據(jù)庫(kù) (關(guān)系型和NoSQL)。”演講中他還給出了非常實(shí)用的信息提取工具和文本標(biāo)注工具的架構(gòu)。他特別強(qiáng)調(diào)有了這些設(shè)計(jì)之后,人機(jī)交互將變得更加智能,知識(shí)圖譜成為數(shù)據(jù)管家,成為全流程的機(jī)器學(xué)習(xí)工具。
美團(tuán)點(diǎn)評(píng)資深算法專(zhuān)家潘路
基于知識(shí)圖譜的問(wèn)答在O2O智能交互場(chǎng)景中的應(yīng)用和演進(jìn)
潘路首先回顧了人機(jī)交互的演進(jìn)歷程、智能交互的種類(lèi),然后他重點(diǎn)談到,在美團(tuán)實(shí)際生活場(chǎng)景中,如果要進(jìn)行信息獲取、資源查詢(xún),甚至任務(wù)型交互,那么問(wèn)答系統(tǒng)必然離不開(kāi)知識(shí)圖譜。本文摘取了受限場(chǎng)景下的問(wèn)答內(nèi)容。
潘路表示,傳統(tǒng)KBQA(基于知識(shí)圖譜的問(wèn)答)主要分為兩大技術(shù)流派:semantic parsing和information retrieval。Semantic parsing就是將原始問(wèn)句轉(zhuǎn)換為機(jī)器可以理解的邏輯形式,這種形式更貼近知識(shí)圖譜的存儲(chǔ)結(jié)構(gòu),可以直接或間接進(jìn)行查詢(xún)。而Information retrieval則直接通過(guò)有效信息的抽取,定位候選答案,之后又有兩種做法,一是利用三元組生成自然語(yǔ)言,和原始問(wèn)句比較實(shí)現(xiàn)查詢(xún);一是把候選答案以及周?chē)穆窂竭M(jìn)行編碼,和原始問(wèn)句編碼后進(jìn)行比較得出答案。
在美團(tuán)的受限場(chǎng)景下(以點(diǎn)餐為例,菜品范圍是限定的,供餐地點(diǎn)和時(shí)間也是限定的),應(yīng)該選擇怎樣的技術(shù)路徑呢?潘路表示,美團(tuán)涉及的領(lǐng)域較多,領(lǐng)域之間關(guān)聯(lián)較弱,并且沒(méi)有足夠的標(biāo)注數(shù)據(jù),還必須滿足快速的領(lǐng)域遷移需求。是否可以借鑒information retrieval的思路,但同時(shí)又可以構(gòu)造查詢(xún)語(yǔ)句來(lái)查詢(xún)圖譜呢?于是美團(tuán)提出了information retrieval+semantic parsing的方案,通過(guò)實(shí)體鏈接確定子圖,之后是關(guān)系識(shí)別、槽位識(shí)別、最終生成SparQL來(lái)執(zhí)行查詢(xún),每一步都可以用簡(jiǎn)單的規(guī)則冷啟動(dòng),也可以上無(wú)監(jiān)督或者有監(jiān)督模型。
潘路強(qiáng)調(diào),在受限場(chǎng)景中,美團(tuán)面臨的問(wèn)題特征主要是意圖空間有限、資源有限、交互輪數(shù)有限、知識(shí)外延有限。因此在這個(gè)基礎(chǔ)上,他們提出的KBQA具備四大能力:基礎(chǔ)屬性問(wèn)答、帶約束的資源查詢(xún)、資源信息比較以及動(dòng)態(tài)屬性值計(jì)算。
中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室副研究員何世柱
基于知識(shí)圖譜的問(wèn)答關(guān)鍵技術(shù)
何世柱從信息表示發(fā)展歷程開(kāi)始講起,他表示知識(shí)圖譜是機(jī)器理解世界的基礎(chǔ),語(yǔ)言系統(tǒng)&知識(shí)圖譜也是知識(shí)應(yīng)用的奠基石,問(wèn)答系統(tǒng)將是下一代搜索引擎的基本形態(tài)。
他介紹到,知識(shí)問(wèn)答通常有兩類(lèi)方法:一是語(yǔ)義解析方法,這種方法準(zhǔn)確率高,召回率低,能解決復(fù)雜問(wèn)題,適合限定領(lǐng)域、限定語(yǔ)言表達(dá),而且可以經(jīng)驗(yàn)性地解決,不需要訓(xùn)練機(jī)器學(xué)習(xí)方法,更便于控制,便于干預(yù)。二是自然問(wèn)答方法,它有更友好的交互接口,可以實(shí)現(xiàn)知識(shí)驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)的融合,但是需要較高質(zhì)量原始數(shù)據(jù)和配套知識(shí)資源。
在何世柱看來(lái),自然語(yǔ)言問(wèn)答與精準(zhǔn)知識(shí)問(wèn)答、聊天機(jī)器人的區(qū)別在于——精準(zhǔn)知識(shí)問(wèn)答主要回答知識(shí)性問(wèn)題,首先答案要準(zhǔn)確,其次在準(zhǔn)確的基礎(chǔ)之上才能夠滿足情感的需求,能夠用自然語(yǔ)言的方式去回復(fù)。
“對(duì)于問(wèn)答任務(wù)而言,關(guān)鍵是資源和已有模型能否滿足需求,事實(shí)上目前的內(nèi)容缺失嚴(yán)重,資源遠(yuǎn)遠(yuǎn)不夠,模型數(shù)量也較少。 目前開(kāi)放域的問(wèn)答系統(tǒng)其性能還遠(yuǎn)沒(méi)有達(dá)到使用的程度,但在限定領(lǐng)域還有很大應(yīng)用空間。” 何世柱總結(jié)道。
以上內(nèi)容是51CTO記者根據(jù)WOT2019全球人工智能技術(shù)峰會(huì)的《知識(shí)圖譜》分論壇演講內(nèi)容整理,更完整WOT內(nèi)容請(qǐng)關(guān)注51cto.com。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】