Google、Bing、抖音、淘寶等巨頭如何做AB實(shí)驗(yàn)的?
2000年,Google首次將傳統(tǒng)AB實(shí)驗(yàn)引入到互聯(lián)網(wǎng)產(chǎn)品改進(jìn)評估中,用于測試搜索結(jié)果頁展示多少搜索結(jié)果更合適。雖然這次AB實(shí)驗(yàn)因?yàn)樗阉鹘Y(jié)果加載速度的問題失敗了,但是這次AB實(shí)驗(yàn)是一個里程碑,標(biāo)志著在線AB實(shí)驗(yàn)的誕生。從那以后,AB實(shí)驗(yàn)被廣泛應(yīng)用于互聯(lián)網(wǎng)公司的優(yōu)化迭代。
據(jù)統(tǒng)計(jì),Airbnb(市值1000億美元)每周有超過1000個實(shí)驗(yàn),F(xiàn)acebook(市值10000億美元)每天在線的實(shí)驗(yàn)超過10000個。一個公司在線AB實(shí)驗(yàn)的數(shù)量也在一定程度上反映了這個公司的規(guī)模、數(shù)據(jù)驅(qū)動文化的成熟度。本文將介紹AB實(shí)驗(yàn)的典型應(yīng)用場景和一些經(jīng)典的案例,通過案例幫助讀者更加直觀地認(rèn)識和理解AB實(shí)驗(yàn)原理和價(jià)值。
01 AB實(shí)驗(yàn)應(yīng)用場景
AB實(shí)驗(yàn)被運(yùn)用到了產(chǎn)品優(yōu)化的方方面面。在眾多應(yīng)用場景中,有三類非常典型。
1. 推薦類場景
信息流推薦、電商購物推薦、音樂推薦、視頻推薦等都屬于推薦類場景。推薦系統(tǒng)中的推薦算法,特別是現(xiàn)在廣泛應(yīng)用的深度學(xué)習(xí)等模型,本身就具有很強(qiáng)的黑盒屬性。優(yōu)化一個特征、一個模型、一路算法、一個參數(shù)之后,用戶體驗(yàn)如何,是不是向著期望的目標(biāo)方向移動,都是無法簡單通過經(jīng)驗(yàn)來判斷的,通過AB實(shí)驗(yàn)才能知道。如果不使用AB實(shí)驗(yàn)進(jìn)行評估,很難有其他手段驗(yàn)證新推薦策略的效果。這個場景中,AB實(shí)驗(yàn)和推薦系統(tǒng)是相生相伴的,有推薦系統(tǒng)就必須有AB實(shí)驗(yàn)。
2. 運(yùn)營類場景
運(yùn)營活動包括場景的拉新促活(吸引新用戶,活躍老用戶),各種運(yùn)營活動中投放的紅包、優(yōu)惠券、短信等。一般這類活動都能帶來立竿見影的用戶增長或者成交量增長。更為重要的是,從長期來評估,這些投入是否帶來了總的正向RIO。在實(shí)際中,很多活動帶來的增量是短暫的,用戶的長期留存效果往往低于自然流量的長期留存。如果沒有AB實(shí)驗(yàn)的量化,很難說清楚這些活動真實(shí)的長期收益。
3. UI設(shè)計(jì)和交互類場景
在UI設(shè)計(jì)和交互類場景中,由于按鈕、顏色、款式、字體等有太多的選擇,而每個人的偏好不同,以至于在產(chǎn)品內(nèi)部很難達(dá)成一致,更不用說面對不同的使用人群。究竟哪個方案是最優(yōu)的,也只有通過實(shí)驗(yàn)的方式進(jìn)行量化才最具說服力。
在沒有使用AB實(shí)驗(yàn)之前,UI設(shè)計(jì)師經(jīng)常面對各種挑戰(zhàn),有人說字體太大,有人說字體太小,往往誰都很難拿出有說服力的證據(jù)。而且有的時(shí)候由于變化過于細(xì)微,肉眼都難以分辨,比如Bing的標(biāo)題色彩的UI實(shí)驗(yàn)。采用AB實(shí)驗(yàn)以后,大家就不會因?yàn)樽约旱膶徝蓝鵂巿?zhí)不下了,簡單地把AB實(shí)驗(yàn)的數(shù)據(jù)結(jié)果呈現(xiàn)出來就可以做出決策。
這三類場景非常有代表性,分別代表了算法優(yōu)化黑盒屬性、長短期綜合收益ROI、感性決策眾口難調(diào)這3個在產(chǎn)品優(yōu)化過程中的典型問題。當(dāng)然,AB實(shí)驗(yàn)適用的場景并不局限在這三類,滿足實(shí)驗(yàn)基本條件的產(chǎn)品問題基本都可以采用AB實(shí)驗(yàn)來解決。表1中總結(jié)了常見的實(shí)驗(yàn)類型,以及實(shí)施AB實(shí)驗(yàn)的建議程度。注意,這只是常規(guī)情況下,結(jié)合實(shí)際應(yīng)用中考慮各種實(shí)際情況的一個相對建議程度,僅供參考。
表1 不同實(shí)驗(yàn)類型的AB實(shí)驗(yàn)建議程度
從產(chǎn)品研發(fā)流程來看,基于AB實(shí)驗(yàn)的研發(fā)流程相比傳統(tǒng)產(chǎn)品的研發(fā)流程,其優(yōu)勢是全方位的,如表2所示。
表2 基于AB實(shí)驗(yàn)的產(chǎn)品研發(fā)流程的優(yōu)勢
02 AB實(shí)驗(yàn)應(yīng)用案例
本節(jié)通過幾個案例來介紹AB實(shí)驗(yàn)在實(shí)際應(yīng)用中發(fā)揮的作用和價(jià)值。
1. Bing案例
2012年,Bing的一個員工建議改進(jìn)廣告顯示方式,將標(biāo)題下的第一行文字合并到標(biāo)題行,形成一個長標(biāo)題行。由于這個方案開始并不被看好,因此優(yōu)先級較低,被擱置了6個月,之后因其代碼難度較低而被實(shí)施,并投放給真實(shí)用戶進(jìn)行評估:隨機(jī)向一部分用戶展示新的標(biāo)題布局,將用戶與網(wǎng)站的互動記錄下來,包括廣告點(diǎn)擊和由此產(chǎn)生的收入。
實(shí)驗(yàn)開始幾小時(shí)后,一個“收入過高”的警報(bào)被觸發(fā),表示新標(biāo)題布局的廣告產(chǎn)生了太多的收益。這樣“好得難以置信”的警報(bào)非常有用,因?yàn)檫@通常表明出現(xiàn)嚴(yán)重的漏洞,比如收入情況被記錄了兩次,或網(wǎng)頁只有一個廣告顯示,而其余部分被破壞了。然而,對于這個實(shí)驗(yàn)來說,其增加的收入是有效的,Bing的廣告收入增長了驚人的12%。在沒有損害關(guān)鍵用戶體驗(yàn)指標(biāo)的情況下,當(dāng)時(shí)僅在美國就轉(zhuǎn)化為每年超過1億美元的收入增長。這個實(shí)驗(yàn)因?yàn)樾Ч枚钊穗y以置信,所以在很長一段時(shí)間里被重復(fù)做了多次,結(jié)果都是大幅的收入提升。
這個實(shí)驗(yàn)的價(jià)值不僅在于獲得了實(shí)驗(yàn)本身的成功,同時(shí)展示了在線AB實(shí)驗(yàn)的幾個關(guān)鍵問題。
- 直覺和經(jīng)驗(yàn)通常難以評估一個創(chuàng)意的價(jià)值。一個可以創(chuàng)造超過1億美元的簡單改變,卻被推遲了半年。
- 微小改變也可能帶來巨大影響。對于一個程序員來說,幾天的工作就能帶來1億美元的ROI是極其罕見的。
- 極少有能夠帶來巨大效果的實(shí)驗(yàn)。Bing每年有超過一萬個實(shí)驗(yàn),像這樣通過簡單改變帶來巨額收益的情況,近年來僅此一次。
- 友好、強(qiáng)大、易得的實(shí)驗(yàn)工具是低成本實(shí)驗(yàn)的基礎(chǔ)。Bing的工程師可以訪問微軟的實(shí)驗(yàn)系統(tǒng)EXP,這使得科學(xué)評估變得很容易。
- 整體評估標(biāo)準(zhǔn)十分清晰。在這個實(shí)驗(yàn)中,營收就是OEC的關(guān)鍵點(diǎn)。只關(guān)注營收是不夠的,有可能導(dǎo)致網(wǎng)站上廣告橫飛,這無疑會影響用戶體驗(yàn)。Bing使用OEC來衡量收益和用戶體驗(yàn)指標(biāo),包括每個用戶的會話次數(shù)(用戶流失還是用戶黏性增加)和其他幾個組成部分。關(guān)鍵在于,營收大幅增長的同時(shí),用戶體驗(yàn)指標(biāo)沒有明顯下降。
Bing的實(shí)驗(yàn)相關(guān)團(tuán)隊(duì)由數(shù)百人組成,負(fù)責(zé)每年將單個OEC指標(biāo)提高2%。這2%是每年做的所有實(shí)驗(yàn)效果的總和。大多數(shù)改進(jìn)都是逐個實(shí)驗(yàn)進(jìn)行的,而且大多數(shù)改進(jìn)程度輕微,甚至有些迭代的版本的效果是負(fù)的。
對于產(chǎn)品來說,重要的不僅是業(yè)務(wù)指標(biāo),還有產(chǎn)品性能。2012年,Bing的一名工程師改變了JavaScript的生成方式,大大縮短了發(fā)送給客戶端的HTML代碼的長度,從而提高了性能,AB實(shí)驗(yàn)也顯示了驚人的指標(biāo)改進(jìn)效果。Bing做了一個跟蹤實(shí)驗(yàn)以評估對服務(wù)器性能的影響,結(jié)果表明,性能改進(jìn)還顯著改善了關(guān)鍵用戶指標(biāo),比如服務(wù)器加載服務(wù)的時(shí)間減少了10ms,此項(xiàng)性能改進(jìn)帶來的收入提升的部分就足以承擔(dān)工程師全年的成本。
2015年,隨著Bing搜索性能的提高,當(dāng)服務(wù)器在不到一秒的時(shí)間內(nèi)返回第95個百分位數(shù)的結(jié)果(即95%的查詢結(jié)果)時(shí),有人質(zhì)疑性能提高是否還有價(jià)值。Bing的團(tuán)隊(duì)進(jìn)行了后續(xù)研究,關(guān)鍵用戶指標(biāo)仍有顯著提高。雖然對收益的相對影響有所降低,但Bing的收益在這段時(shí)間里得到大幅提升,每1ms的性能提升都比過去更有價(jià)值,每4ms的改進(jìn)所帶來的收入可以支付一位工程師一年的工資。多個公司都進(jìn)行了性能實(shí)驗(yàn),結(jié)果都表明性能提升非常關(guān)鍵。在亞馬遜,100ms的減速實(shí)驗(yàn)使銷售額下降了1%。Bing和Google的發(fā)言人在2009年聯(lián)合發(fā)表的一篇演講揭示了性能對關(guān)鍵指標(biāo)的顯著影響,這些關(guān)鍵指標(biāo)包括不同的查詢、收益、點(diǎn)擊、滿意度和點(diǎn)擊時(shí)間。
減少惡意插件也能提升產(chǎn)品體驗(yàn)。雖然廣告是一項(xiàng)利潤豐厚的業(yè)務(wù),但如果用戶安裝的免費(fèi)軟件包含惡意插件,這些惡意插件就會污染網(wǎng)頁上的廣告。使用惡意插件的用戶不僅頁面上被添加了多個廣告,而且通常是低質(zhì)量、不相關(guān)的廣告,產(chǎn)生了糟糕的用戶體驗(yàn)。微軟對380萬潛在受影響的用戶進(jìn)行了AB實(shí)驗(yàn),結(jié)果顯示當(dāng)實(shí)驗(yàn)組通過控制權(quán)限減少了惡意插件的使用后,實(shí)驗(yàn)組用戶的所有關(guān)鍵指標(biāo)都得到了改善,包括每個用戶的訪問量。此外,用戶搜索能更成功、更快捷地點(diǎn)擊有用的鏈接,年收入也提高了數(shù)百萬美元。
2. Google案例
Google在2011年啟動了改進(jìn)廣告排名機(jī)制的實(shí)驗(yàn)。開發(fā)工程師測試了改進(jìn)后的模型,他們進(jìn)行了數(shù)百項(xiàng)AB實(shí)驗(yàn),并且進(jìn)行了多次迭代。有些實(shí)驗(yàn)橫跨所有市場,有些用于特定市場,以便更深入地了解對廣告客戶的影響。功能的巨大改動,加上AB實(shí)驗(yàn)的幫助,最終使得Google巧妙地將多個功能進(jìn)行組合,提升了廣告用戶的用戶體驗(yàn)。Google以更低的單個廣告費(fèi)用獲得了更好的廣告效果。
2016年,Google對搜索頁面的鏈接顏色進(jìn)行了測試。當(dāng)時(shí)許多用戶反映,當(dāng)自己輸入詞匯或短語時(shí),大部分用戶會看到10條鏈接,鏈接名為藍(lán)色,網(wǎng)址為綠色,有一部分用戶看到的鏈接名是黑色。這已經(jīng)不是Google第一次對鏈接顏色做AB實(shí)驗(yàn)了,重視搜索結(jié)果頁面顏色的Google經(jīng)常面向數(shù)億網(wǎng)絡(luò)用戶實(shí)時(shí)測試多種顏色的效果。在更早的時(shí)候,Google就開始測試不同深淺的藍(lán)色,整整測試了41種藍(lán)色,最終篩選出了指標(biāo)表現(xiàn)最好的,而選用這種藍(lán)色要比其他藍(lán)色每年多為Google帶來兩億美元的收入。
3. 奧巴馬競選案例
2012年,奧巴馬數(shù)字團(tuán)隊(duì)對其競選籌款策略進(jìn)行了全方位的優(yōu)化,從網(wǎng)頁到電子郵件,無一例外。在20個月的時(shí)間里,團(tuán)隊(duì)進(jìn)行了約500個實(shí)驗(yàn),最終將捐贈轉(zhuǎn)換率增加49%、注冊轉(zhuǎn)換率增加161%。他們曾策劃過一次推廣活動,為支持者贏得與總統(tǒng)共進(jìn)晚餐的機(jī)會。在在線表單的設(shè)計(jì)方案上,研究小組實(shí)驗(yàn)了一種流線型文本格式的表單和一種帶有總統(tǒng)圖像的表單。AB實(shí)驗(yàn)結(jié)果顯示,后者讓參加抽獎的捐款人數(shù)增加了6.9%。
4. 亞馬遜案例
2004年,亞馬遜在主頁上發(fā)布了一個信用卡優(yōu)惠活動。這項(xiàng)業(yè)務(wù)雖然單次點(diǎn)擊收入很高,但點(diǎn)擊率很低。該團(tuán)隊(duì)進(jìn)行了一個AB實(shí)驗(yàn),將這項(xiàng)優(yōu)惠報(bào)價(jià)移動到用戶添加商品后看到的購物車頁面,頁面上顯示了簡單的數(shù)學(xué)計(jì)算,突出顯示用戶如果使用優(yōu)惠將節(jié)省多少費(fèi)用。因?yàn)橄蛸徫镘囂砑由唐返挠脩粲忻鞔_的購買意圖,所以該報(bào)價(jià)顯示在了正確的時(shí)間點(diǎn)。AB實(shí)驗(yàn)表明,這個簡單的改變使亞馬遜的年利潤增加了數(shù)千萬美元。亞馬遜的Greg Linden創(chuàng)造了一個基于用戶購物車中的商品展示個性化推薦的模型。當(dāng)用戶添加某個商品時(shí),系統(tǒng)會出現(xiàn)類似商品的推薦。Linden覺得測試模型看起來很有潛力,而一位營銷高級副總裁堅(jiān)決反對,聲稱它會分散人們的注意力,讓他們不愿意下單支付。Linden因此被禁止繼續(xù)研究這個問題。盡管如此,他還是進(jìn)行了一項(xiàng)AB實(shí)驗(yàn),結(jié)果是這一功能以巨大的優(yōu)勢勝出,最終購物車推薦功能上線,目前國內(nèi)的主流電商平臺都復(fù)用了這一功能。
5. 抖音案例
抖音是字節(jié)跳動公司旗下一款創(chuàng)意短視頻社交軟件。字節(jié)跳動非常重視AB實(shí)驗(yàn),其實(shí)驗(yàn)平臺每天新增約1500個實(shí)驗(yàn),服務(wù)400多項(xiàng)業(yè)務(wù),目前累計(jì)做了70萬次實(shí)驗(yàn)。從產(chǎn)品命名到交互設(shè)計(jì),從改變字體、彈窗效果、界面大小,到推薦算法、廣告優(yōu)化、用戶增長,抖音把AB實(shí)驗(yàn)應(yīng)用到了每一個業(yè)務(wù)和每一項(xiàng)決策中。
外界很關(guān)心“抖音”名字的由來,這其實(shí)就是AB實(shí)驗(yàn)的結(jié)果。當(dāng)年字節(jié)跳動做短視頻產(chǎn)品時(shí),有很多候選名字,字節(jié)跳動將產(chǎn)品原型起成不同的名字、使用不同的Logo,在應(yīng)用商店做AB實(shí)驗(yàn),在預(yù)算、位置等條件保持一致的情況下,測算用戶對產(chǎn)品名字的關(guān)注度、下載轉(zhuǎn)化率等指標(biāo)表現(xiàn)。AB實(shí)驗(yàn)幫助字節(jié)得到了名字的排名,當(dāng)時(shí)“抖音”排到了第一。后來結(jié)合其更符合長期認(rèn)知、更能體現(xiàn)Logo形態(tài)的特點(diǎn),“抖音”之名就此確定。充分地進(jìn)行AB實(shí)驗(yàn),是一個能夠在很大程度上補(bǔ)充信息的過程,能夠消除很多偏見,反映客觀的事實(shí)。
進(jìn)入抖音App時(shí),可以看到3個視頻推薦流,一個是基于位置的“同城”標(biāo)簽欄,一個是基于關(guān)注關(guān)系的“關(guān)注”標(biāo)簽欄,另一個是基于興趣推薦的“推薦”標(biāo)簽欄。把哪個標(biāo)簽欄作為用戶進(jìn)入時(shí)的默認(rèn)內(nèi)容,用戶體驗(yàn)更好,產(chǎn)品的核心指標(biāo)表現(xiàn)更好呢?通過AB實(shí)驗(yàn)的方式,對照組用戶默認(rèn)進(jìn)入“關(guān)注”、實(shí)驗(yàn)組1的用戶默認(rèn)進(jìn)入“同城”、實(shí)驗(yàn)組2的用戶默認(rèn)進(jìn)入“推薦”,最后對比各組的實(shí)驗(yàn)數(shù)據(jù),選出用戶在哪個組的指標(biāo)表現(xiàn)更好。
通過實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),有一些用戶喜歡默認(rèn)關(guān)注,有一些用戶喜歡默認(rèn)推薦,有一些用戶喜歡同城推薦,如何才能達(dá)到最優(yōu)效果呢?這個問題也可以通過AB實(shí)驗(yàn)的方式進(jìn)行驗(yàn)證。實(shí)驗(yàn)可以這樣設(shè)計(jì),首先根據(jù)用戶的特征以及歷史偏好,分別計(jì)算出進(jìn)入“關(guān)注”和“推薦”這兩個標(biāo)簽欄的權(quán)重值,比如有的用戶的關(guān)注量比較大,關(guān)注的內(nèi)容也比較豐富,歷史數(shù)據(jù)表明他們也更喜歡觀看自己關(guān)注過的內(nèi)容,這個情況下,“關(guān)注”標(biāo)簽欄就會獲得較高的權(quán)重,成為默認(rèn)的標(biāo)簽欄。如果用戶關(guān)注的對象比較少,更愿意通過平臺推薦發(fā)現(xiàn)一些新鮮的事物,這種情況下,“推薦”標(biāo)簽欄就會獲得較高的權(quán)重。實(shí)驗(yàn)可以設(shè)計(jì)為如下幾組。
- 實(shí)驗(yàn)組1:默認(rèn)進(jìn)入“推薦”標(biāo)簽欄。
- 實(shí)驗(yàn)組2:默認(rèn)進(jìn)入“同城”標(biāo)簽欄。
- 實(shí)驗(yàn)組3:根據(jù)用戶各個標(biāo)簽欄的權(quán)重決定進(jìn)入策略。
- 對照組:默認(rèn)進(jìn)入“關(guān)注”標(biāo)簽欄。
6. 淘寶案例
電商網(wǎng)站淘寶網(wǎng)每天也在進(jìn)行著各種各樣的實(shí)驗(yàn),一般情況下,我們都感知不到正在被實(shí)驗(yàn)。就像鏈接
https://detail.tmall.com/item.htm?spm=a230r.1.14.14.498e4a519c23Vi&id=610851809895&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&abbucket=2一樣,字段abbucket是分配給實(shí)驗(yàn)組用戶的,abbucket=2是分配給對照組的。
移動互聯(lián)網(wǎng)時(shí)代,每天我們都使用著各種各樣的網(wǎng)絡(luò)軟件產(chǎn)品,進(jìn)入產(chǎn)品各種各樣的實(shí)驗(yàn)中。其實(shí)每一位產(chǎn)品用戶每天都在幫所使用的產(chǎn)品做著AB實(shí)驗(yàn),只不過用戶在一項(xiàng)實(shí)驗(yàn)中只會獲得一個特征,無法同時(shí)獲得其對照的特征,而且用戶被分到什么組是完全隨機(jī)的,用戶對實(shí)驗(yàn)是無感知的。這種隨機(jī)性、無感知性也在一定程度上保證了AB實(shí)驗(yàn)的客觀性和可信度。
?