根據GroupM的報告在2020年全球數字廣告投放總額6,280億美元,而2021年,預估將會超越原先預期的數字,達到7,490億美元(約20兆元台幣) 。由此可見,數位行銷市場越來越龐大。

隨著市場上廣告的需求增加,行銷的費用也隨之上漲,同時也讓品牌主的預算也跟著增加。而如何讓經濟效益最大化,使廣告獲得最佳效果?卻是廣告主不得不思考的問題。

其實,市面上有很多方法可以透過實驗來衡量廣告效果,進而通過分析效果來避免錯誤的廣告投放,讓每次的投放得更有價值,而A/B效果也是大部分企業操作的方式。



那你知道A/B測試是什麼嗎?

A/B測試

A/B測試,又可以稱為拆分測試。主要為同一個目標製定兩個或多個方案(比如同維度不同樣的廣告)。

例如:讓一部分用戶使用 A 方案的廣告,同時另一部分用戶使用 B 廣告,統計並對比不同方案的轉化率、點擊量、留存率等指標,以判斷不同方案的效果、優劣程度,最後根據結果來選擇合適的方案。







在投放廣告中,要如何做A/B測試呢?

1.確立廣告目標 

廣告目標是業務目標有不可分割的一部分,因此在投放之前應該優先思考投放要達成的目標,才能進行測試。

2.收集廣告數據

收集過往的目標數據及分析報告,有益於對於測試預設情況,添加想法。

3.預設廣告情況

有目的性的預設投放後的效果,而根據效果進行接下來的一步。

4.製作廣告版本

根據目標製作出不同版本的廣告,並且根據選擇要測試的元素,製作出不同元素的廣告。如:圖片A跟圖片B的廣告。另外,建議這則廣告的其他元素跟設定是無異的,為什麼呢?由於廣告測試如果參雜其他的變數,很難通過 A/B 測試的方法來找出各個變量對結果的影響程度。

5.進行廣告測試

必須採用相同的方式進行測試,這樣測試後的結果才能準確。

6.分析廣告結果

分析結果是否有顯著差異,如果沒有將繼續測試,或者直到取得滿意的效果。


A/B測試有什麼需要注意的?

01、過早停止A/B 測試

統計顯著性是在樣本量足夠大的前提下,A版是否優於B版的判斷標準。50%的統計顯著性即指結果隨機。如果你對顯著性的要求只有50%,那就該轉行了。

統計置信度即便達到75%也不夠好。經驗豐富的測試人員都有許多這樣的經驗,即使80%置信度下的「勝出」的版本,在投放市場後也以失敗告終。90%的置信度怎麽樣?

應該可以了吧!不,還不夠好。你是在做科學實驗。

是的,你希望證實實驗假設,希望置信度達到90%的版本勝出,但比「宣布勝出者」更重要的,是找到真相。

作為「優化者」,你的職責是找出真相。真相高於一切,否則一切都失去意義。

即使經常進行A/B測試的公司也常見此種情況:一年裏一個接一個地運行測試,在測試後將勝出者推出。但一年後再看,轉化率竟然與最初版本差不多!

這種打臉的情況總是發生。為什麽?要麽是測試結束得太早,要麽是樣本量太小,或者兼而有之。

簡而言之,在宣布測試完成之前,你需要滿足3個指標

  1. 有足夠的樣本量:實驗有足夠的人參與,以便有足夠的數據來獲得科學的結論。需要使用A/B測試樣本量計算器預先計算所需樣本量。
  2. 測試需要運行多個周期,2到4周左右。如果你只做了幾天就停止測試(即使達到了所需的樣本量),也只是取了便利樣本,而不是有代表性的樣本。
  3. 顯著性達到95%(P≤ 0.05)或以上

PS.記住P值並不能告訴我們方案B比方案A好,這一點非常重要。(譯者註:P值指的是對比事物間的差別是由機遇所致的可能性大小。P值越小,越有理由認為對比事物間存在差異。例如,P<0.05,就是說結果顯示的差別是由隨機因素所致的可能性不足5%,或者說,別人在同樣的條件下重復同樣的研究,得出相反結論的可能性不足5%。P>0.05稱「不顯著」;P≤  0.05稱「顯著」,P≤ 0.01稱「非常顯著」。)


02、測試未以整周為單位

運行假設你有一個高流量的網站,A/B測試開始後3天就有98%的置信度,並且每個版本都有250次轉換數據。

那這個測試算完成了嗎?還沒有。

我們需要排除周期性因素,以整周為周期進行測試。如果你星期一開始進行測試,那麽也需要在下星期一結束。

為什麽?因為在一周裏轉化率會變化會非常大。所以如果你的測試周期沒覆蓋一個完整周,結果又會出現偏差。按周輸出你網站的每日轉換率報告,看看每天的轉化率有多大的波動。

另外,外部因素肯定會影響測試結果。如果有疑問,那就再做測試。


03、沒有流量(或轉換數據),也進行A/B測試

如果你每月只能賣出一到兩件商品,測試顯示,B方案比A方案轉換率高15%。

可以得出這樣的結論嗎?不可以!

所有人都喜歡A/B測試,但在流量極小的情況下,它不應該作為轉換率的優化工具。

原因是,即使B方案好得多,也可能需要很長時間才能達到統計顯著性。所以,如果你花了5個月的時間進行測試,會白白浪費大量財力。

相反,你應該進行大規模的徹底的改版——直接切換到B版本。不需要對比測試,只需切換——並關註銀行賬戶的收入。

這種做法,是大範圍改進,比如50%或100%。而且應該能馬上觀察到對收入(或者潛在客戶數量)的影響。時間就是金錢。不要浪費時間等待需要很長時間的測試結果。 



04、測試不是基於假設

我喜歡吃意大利面。但是不太喜歡」意面測試「(把它扔到墻上,看它是否粘在墻上)。

意大利面測試是指測試隨意的想法,觀察哪一個想法有效。

隨意的測試會付出巨大的代價,浪費寶貴的時間和流量。

千萬別這樣做。

測試之前需要有假設。什麽是假設?假設是基於有限證據提出的陳述,它可以被驗證或證偽,並作為進一步研究的起點。

假設「(隨意陳述)。你需要完成適當的轉化研究以發現問題出在哪裏,通過分析以找出問題可能是什麽,最終提出解決當前問題的假設。

如果在沒有明確假設的情況下,開展A/B測試,B相對A優化了15%,那很好,但是你從中了解到什麽?什麽都沒有。

增進對用戶的了解才是我們更重要的工作。這有助於我們改進對用戶的理解,提出更好的假設進行測試。


05、測試數據不發送到谷歌分析(Google Analytics)

平均值會撒謊,永遠記住這一點。

如果你得到了版本A比版本B優勝10%的結論,這還不是全部。你需要切分開各個測試指標再進行分析,這些細節裏才洞察所在。雖然許多測試工具都內置了指標分割的功能,但都無法與谷歌分析(Google Analytics)媲美。

你可以將測試數據發送到谷歌分析系統,並按你期望的方式進行細分。實際的情況是,人們會自定義維度或或事件。你可以進行高級細分,自定義報告。

這些功能非常有用,並讓你真正從A/B測試(包括失敗的測試和未得出差異的測試)有所收獲。底線:每次都把你的測試數據發送到谷歌分析,並把那些無效數據從結果中剔除。


06、將寶貴的時間和流量浪費在愚蠢的測試上

你是在測試用戶喜歡什麽顏色嗎?別。

沒有最好的顏色,它只和視覺層級結構相關。當然,你可以在網上找到一些測試,有人通過測試顏色來獲得收益,但這些都是顯而易見的。不要浪費時間測試那些顯而易見的選擇,直接實現它就行了。

你沒有足夠的流量,誰也沒有。把你的流量用在高影響的指標上,測試那些數據驅動型假設。


07、第一次測試失敗就放棄你設計了一項測試,但沒有提高轉化率。

那好吧,我們嘗試在另一個頁面運行測試?不要這麽快就放棄!

大多數測試第一次都會失敗。我知道你很不耐煩,我也和你一樣,但叠代測試不可避免。

你可以運行一項測試,從中有所收獲,改進對用戶的理解,優化假設。進行叠代測試,又有所收獲,再優化假設。

再運行叠代測試,如此反復。

我們曾經做過案例研究,其中包含了6次測試(測試同一頁),以實現我們期望的提升。這才是真實的測試。那些批準測試預算的人—你的老板和客戶—需要知道這一點。如果期望一次測試就可以得出想要的結果,這樣的想法會白白浪費金錢,導致很多人失去工作。其實不必一定是這個結果。測試的花費對每個人來說都是一大筆數字。運行叠代測試,才是資金的合理運用方式。


08、不懂虛報的顯著性

統計顯著性並不是唯一需要註意的因素。

還需要理解錯誤的測試結果。沒什麽耐心的測試人員希望跳過A/B測試,直接進行A/B/C/D/E/F/G/H測試。這,就是我們要討論的誤區。或者,為什麽不繼續再測呢?谷歌就曾經測試過41種藍色陰影效果!但這並非好主意。測試的版本越多,虛報顯著性的幾率就越高。

同時測試41種藍色陰影的實驗設置下,即使置信度達到95%,錯報概率也高達88%。

主要結論:不要一次測試太多的版本。不管怎樣,最好做簡單的A/B測試,會更快得到結果,並且會更快地了解用戶,從而更多優化假設。


09、用重復的流量同時進行多個測試

你發現了一種同時運行多個測試的捷徑:一個測試在產品頁面,一個測試在購物車頁面,還有一個在主頁(同時測量相同的指標)。

這樣的設置很省時間,對吧?但,如果設置不小心的話,這樣可能會扭曲結果。

除非你預估這多個測試之間有很強的交互性,且測試之間的流量有很大的重疊(即同一批人),這樣做才是OK的。

如果測試間存在交互性且流量重疊,情況也會比較復雜。如果你想在同一任務流中同時測試多個布局樣式的新版本,例如結帳的3個步驟,那麽最好使用多頁實驗或MVT(MassVerification Test,量產驗證)來測量交互作用,並恰當地進行歸因。

如果你決定使用重疊的流量運行A/B測試,請記住讓流量均勻分布。

流量應始終平均分配。如果測試產品頁A和B,以及結算頁C和D,則需要確保B頁的流量是對半分進入C和D頁,而不是其他。


10、忽略細微的成果

你提出的新版本對對照組勝出了4%。

我曾聽到有人說:「哎呀,這點效果簡直是小菜一碟!我都懶得費心去實現它。」事實上,如果你的網站已經體驗很好,流量不會一直有大幅的提升。

實際上,流量大幅上升的情況是非常罕見的。如果現有網站很垃圾,每次測試後很容易發現提升幅度達到50%。但即使這樣情況也不會是無止境的。

大多數測試中勝出的方案可能只有很小的提升—1%,5%,8%。

如果你每個月都能把轉化率提高5%,那麽12個月內就會提升80%。

這叫復利,通過數學計算出來。80%可不低。

所以,繼續取得這些微小的成果吧。最後它們就是累計的效果,千萬別小看它。


11、沒有一直運行測試

每一個沒有測試的日子都是一種浪費。測試就是了解。

了解你的用戶,了解什麽有效,以及為什麽有效。你所有的洞察,都可以用於所有的營銷活動,比如PPC廣告(PayPerClick廣告,點擊付費廣告)等等。不測試,就不知道什麽有效。測試需要時間和流量(而且需要很多流量)。

雖然要進行測試並一直運行,但這不意味著要做垃圾測試。

絕對不要!

你仍然要做適當的研究,提出恰當的假設等等。

測試要持續不斷地運行。學習如何製定製勝的A/B測試計劃。不斷優化你的計劃。


12、對效度威脅一無所知

即使具備了合適的樣本量、適宜的置信水平和持續的監測,還無法保證你的測試結果有效。

影響測試效度的因素有以下幾個方面。

  • 工具性誤差這是最常見的問題。當測試工具(或儀器)存在問題時,就會導致測試收集到的數據有缺陷。這通常是網站上的錯誤代碼造成的,這將扭曲所有的測試結果。需要加倍小心這種誤差。設置測試時,要像鷹眼一樣盯緊。確認記錄下了每個設定跟蹤的目標和指標。
  • 如果某些指標沒有發送數據(例如,「添加到購物車」的點擊數據),馬上停止測試,查找並解決問題,重置數據後再重新開始。
  • 歷史效應外界的變化可能導致測試數據不準確。可能是你的企業或某位高管的醜聞,也可能是某個特殊的節假日(聖誕節、母親節等),又或許是媒體的報道導致人們對你測試的某個方案有偏見。無論哪種情況,都要注意外界的變化。
  • 選擇偏差當我們錯誤地假設某部分的流量代表整個流量時,就會發生這種情況。例如,你利用電子郵件列表將促銷流量分發給正在測試的頁面。較之於普通訪客,訂閱了電子郵件的用戶會對該頁面喜愛得多。於是,你根據忠實用戶的反饋來優化頁面(例如著陸頁、產品頁等),以為它們代表總體用戶的情況。但事實往往並非如此!

  • 錯碼效應某個版本的代碼有漏洞,導致測試數據出現缺陷。於是你提出了解決方案,讓這個版本回歸正常!然而,這個版本並沒有勝出或帶來差異。殊不知,你的解決方案在某些瀏覽器或設備上的顯示並不佳。

每當你提出新的解決方案,請確保運行質量一致性測試,以確保它們在所有瀏覽器和設備中正確顯示。

從這12個誤區中汲取教訓,你就可以在測試中避開它們,取得真正的進步。

內容參考引用Peep Laja12 A/B Testing Mistakes I See All the Time》


A/B測試有哪些工具?

Google Optimize

VWO

除此之外,Facebook在廣告投放平台中,也針對廣告提供A/B測試工具。

-----------------------------------------------------


最後,你如果對於數位行銷相關內容很感興趣,可以看看我針對Google與Facebook整理的行銷文章,希望可以幫助到你。

延伸閱讀《【數位行銷】花15分鐘,讓你了解Google分析報告

延伸閱讀《【數位行銷】10個小技巧,優化你的Google搜索廣告》

延伸閱讀《六步教你如何建立Facebook廣告》

以上是我對於A/B測試做的總結整理分享,希望在這部分能幫助到大家。

祝福各位每次投放都能達到理想的效果~💖💖💖