PaRT:小紅書(shū)團(tuán)隊(duì)讓AI平均對(duì)話時(shí)長(zhǎng)顯著提升21.77%
1. 為什么要提出PaRT框架
大型語(yǔ)言模型(LLMs)的突破性進(jìn)展,正推動(dòng)社交聊天機(jī)器人向更智能、更擬人的方向飛速發(fā)展。然而現(xiàn)有系統(tǒng)大多聚焦于情感化應(yīng)答,卻忽視了主動(dòng)對(duì)話的藝術(shù)——那些僅采用被動(dòng)應(yīng)答策略的傳統(tǒng)機(jī)器人,往往讓用戶陷入單方面推動(dòng)對(duì)話的困境,最終導(dǎo)致互動(dòng)索然無(wú)味。
主動(dòng)對(duì)話技術(shù)為此提供了破局之道。這類(lèi)系統(tǒng)能像人類(lèi)般主動(dòng)開(kāi)啟話題(如"您最向往哪個(gè)旅游勝地?"),或在察覺(jué)用戶興趣減退時(shí)巧妙轉(zhuǎn)場(chǎng)。但當(dāng)前直接調(diào)用LLMs生成話題的方式存在明顯缺陷:既容易產(chǎn)出千篇一律的泛泛之談,又受限于模型的知識(shí)時(shí)效性,難以維持專(zhuān)業(yè)領(lǐng)域的深度交流。
為此,創(chuàng)新性地提出PaRT(which enhances Proactive social chatbots with personalized real-time ReTrieval)框架,通過(guò)個(gè)性化實(shí)時(shí)檢索賦能主動(dòng)對(duì)話。如圖1所示,該系統(tǒng)包含三大核心模塊:
- 首先,用戶畫(huà)像模塊通過(guò)智能提問(wèn)構(gòu)建精準(zhǔn)的用戶畫(huà)像;
- 其次,意圖分析器能敏銳捕捉對(duì)話中的顯性需求與潛在興趣,將原始查詢轉(zhuǎn)化為個(gè)性化指令;
- 最后,檢索增強(qiáng)模塊從RedNote(小紅書(shū))獲取最新資料,經(jīng)去蕪存菁后指導(dǎo)LLMs生成精準(zhǔn)回應(yīng)。
實(shí)驗(yàn)證明,該方案不僅能顯著提升對(duì)話質(zhì)量,更將平均會(huì)話時(shí)長(zhǎng)提升了21.77%。
2. PaRT方案詳解
上圖展示了PaRT的整體架構(gòu)。完整工作流包括三大核心模塊:用戶畫(huà)像分析、意圖驅(qū)動(dòng)的查詢優(yōu)化和檢索增強(qiáng)生成。
2.1 用戶畫(huà)像
為提升聊天機(jī)器人對(duì)用戶偏好的理解,引入用戶畫(huà)像模塊。
借助記憶機(jī)制,系統(tǒng)能提煉對(duì)話歷史中的關(guān)鍵信息并存入用戶畫(huà)像。
主動(dòng)問(wèn)候是構(gòu)建畫(huà)像的有效方式——靜態(tài)問(wèn)題庫(kù)支持隨機(jī)提問(wèn)開(kāi)啟對(duì)話。結(jié)合現(xiàn)有畫(huà)像與檢索增強(qiáng)生成技術(shù)的個(gè)性化問(wèn)候,能進(jìn)一步完善用戶畫(huà)像。
2.2 智能意圖驅(qū)動(dòng)的查詢優(yōu)化器
對(duì)話過(guò)程中,優(yōu)秀的聊天機(jī)器人應(yīng)當(dāng)主動(dòng)感知用戶需求,在互動(dòng)降溫時(shí)巧妙切換話題。
傳統(tǒng)聊天機(jī)器人常因執(zhí)著當(dāng)前話題導(dǎo)致交互質(zhì)量下滑,而真正提升對(duì)話質(zhì)量的關(guān)鍵在于精準(zhǔn)捕捉用戶潛在意圖。
將用戶意圖劃分為三類(lèi):
- 自然延續(xù):自然延續(xù)場(chǎng)景下,聊天機(jī)器人需在陪伴中保持對(duì)話流暢;
- 主動(dòng)求知:面對(duì)主動(dòng)求知類(lèi)提問(wèn)(如"《沙丘2》新片評(píng)價(jià)如何?"),則需啟動(dòng)實(shí)時(shí)檢索獲取最新資訊。
- 隱性探索:當(dāng)對(duì)話中出現(xiàn)興趣衰減信號(hào)或話題轉(zhuǎn)移傾向時(shí),則暗示著隱性探索需求——此時(shí)系統(tǒng)需結(jié)合對(duì)話歷史和用戶畫(huà)像,智能生成個(gè)性化話題來(lái)重燃互動(dòng)熱情。
2.3 檢索增強(qiáng)生成
在開(kāi)放域生活對(duì)話等主動(dòng)式聊天場(chǎng)景中,實(shí)時(shí)信息的整合能帶來(lái)顯著增益。由于靜態(tài)知識(shí)庫(kù)存在天然局限且易過(guò)時(shí),網(wǎng)絡(luò)搜索成為檢索增強(qiáng)生成(RAG)的核心支撐。
采用經(jīng)典的三階段RAG框架:檢索→摘要→網(wǎng)絡(luò)資源生成。具體實(shí)現(xiàn)時(shí),通過(guò)RedNote(小紅書(shū))搜索引擎確保檢索質(zhì)量。
PaRT系統(tǒng)為不同對(duì)話場(chǎng)景定制專(zhuān)屬提示:
- 問(wèn)候場(chǎng)景:隨機(jī)選取用戶畫(huà)像特征,由LLM提煉核心興趣作為搜索詞;
- 對(duì)話場(chǎng)景:采用智能查詢優(yōu)化器生成搜索詞。
兩種場(chǎng)景均觸發(fā)檢索后,LLM對(duì)Top k結(jié)果智能摘要過(guò)濾噪聲,最終融合上下文生成自然流暢的信息響應(yīng)。
3 效果評(píng)估
3.1 評(píng)估方法
基于11,455個(gè)高質(zhì)量樣本構(gòu)建數(shù)據(jù)集,采用全參數(shù)監(jiān)督微調(diào)(SFT)對(duì)Qwen2系列模型進(jìn)行優(yōu)化。為兼顧效率與成本,對(duì)話生成選用Qwen2-72B-Instruct,其余模塊則采用Qwen2-7B-Instruct。
訓(xùn)練配置如下:上下文窗口2048,學(xué)習(xí)率5e-6;單卡批量大小為2,4步梯度累積確保穩(wěn)定;
全程使用24張NVIDIA A100 80GB顯卡,3輪訓(xùn)練耗時(shí)約4小時(shí)。推理時(shí)通過(guò)0.9溫度系數(shù)調(diào)節(jié)生成結(jié)果的創(chuàng)新性與穩(wěn)定性。
3.2 評(píng)估指標(biāo)
為全面檢驗(yàn)PaRT的性能,分別從檢索和生成兩個(gè)維度進(jìn)行評(píng)估。針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)方法在主觀任務(wù)評(píng)估上的局限性,采用基于大語(yǔ)言模型(LLM)的評(píng)估體系。
在每個(gè)任務(wù)中隨機(jī)選取50個(gè)樣本,通過(guò)kappa系數(shù)衡量LLM與人工評(píng)分的一致性。鑒于檢索數(shù)據(jù)庫(kù)規(guī)模龐大且動(dòng)態(tài)更新,檢索性能僅采用Top-k精確率(P@k)指標(biāo)。通過(guò)設(shè)計(jì)特定提示詞,由LLM判斷檢索結(jié)果是否同時(shí)滿足:內(nèi)容相關(guān)性、實(shí)用價(jià)值和對(duì)話流暢性三項(xiàng)要求,并給出0/1二值判定。
在生成質(zhì)量評(píng)估方面,借鑒的研究框架,針對(duì)問(wèn)候和對(duì)話場(chǎng)景設(shè)置了三個(gè)評(píng)價(jià)維度:
- 個(gè)性化程度:考察回復(fù)對(duì)用戶偏好的適配能力
- 信息密度:衡量?jī)?nèi)容的知識(shí)含量
- 溝通技巧:則評(píng)估回復(fù)在促進(jìn)自然對(duì)話時(shí)表現(xiàn)出的邏輯連貫性、情感共鳴度和互動(dòng)吸引力
每個(gè)維度均要求LLM給出0-3分的量化評(píng)分,分值越高代表質(zhì)量越優(yōu)。
3.3 離線實(shí)驗(yàn)成果
3.3.1 檢索效能對(duì)比
通過(guò)對(duì)比原始用戶查詢與LLM優(yōu)化查詢的檢索效果,如上表所示:優(yōu)化查詢使整體檢索性能提升31.71%。
優(yōu)化查詢的P@k指標(biāo)隨檢索量增加衰減更緩,證明了PaRT方案的穩(wěn)健性。經(jīng)權(quán)衡信息量與準(zhǔn)確率,最終設(shè)定檢索段落數(shù)為5。
3.3.2 文本生成質(zhì)量
系統(tǒng)對(duì)比了兩種生成模式:
- 直接調(diào)用LLM的常規(guī)方案
- 基于用戶畫(huà)像的個(gè)性化生成方案
如上表所示,PaRT創(chuàng)新性地融合用戶畫(huà)像與檢索筆記,在所有指標(biāo)上均表現(xiàn)最優(yōu):個(gè)性化生成回復(fù)更符合用戶預(yù)期,而結(jié)合檢索信息的PaRT方案能提供更精準(zhǔn)的交互體驗(yàn)。
3.3.3 檢索量?jī)?yōu)化研究
針對(duì)問(wèn)候/對(duì)話兩種場(chǎng)景,測(cè)試了k=1/3/5/10四種檢索量配置。如上表所示,k=5時(shí)系統(tǒng)達(dá)到最佳平衡——檢索量不足導(dǎo)致信息缺失,過(guò)量則引入噪聲干擾,再次驗(yàn)證了RAG系統(tǒng)需精準(zhǔn)把控檢索規(guī)模與精度的黃金比例。
3.4 在線實(shí)測(cè)效果
為量化系統(tǒng)對(duì)用戶粘性的提升,開(kāi)展了在線A/B對(duì)照實(shí)驗(yàn)。選取"平均對(duì)話時(shí)長(zhǎng)"作為核心指標(biāo)——該數(shù)據(jù)能直觀體現(xiàn)用戶投入程度。
對(duì)照組采用被動(dòng)應(yīng)答式聊天機(jī)器人,實(shí)驗(yàn)周期為7天,樣本均分至對(duì)照組與實(shí)驗(yàn)組。
上表數(shù)據(jù)顯示,PaRT方案使平均對(duì)話時(shí)長(zhǎng)顯著提升21.77%,驗(yàn)證了其有效激發(fā)用戶深度交互的能力。
本文轉(zhuǎn)載自????大語(yǔ)言模型論文跟蹤????,作者:HuggingAGI
