我做AB Test遇到的坑

编辑导语:在产品经理的曰常X中,AB测试可以帮助产品经理进行数据对比,进而推动后续方案决策。那么,在AB测试过程中,有哪些事项是需要注意的呢?本篇文章里,作者结合其个人经验,总结分享了AB测试中可能会遇到的“坑”,一起来看一下。

大家好,我是策略产品经理夏唬人。

AB测试,是产品经理经常用于对新老方案上线后的效果进行对比的方fǎ,核心目的在于XAB测试能够增加需qiú上线后能够给平台带来正向收益的确定性。

页面功能的改动,需要进行AB测试,来观测用户对新老功能的使用情况。

策略逻辑的改动,需要进行AB测试,来观测liú量在不同逻辑下的转化和收益。

总之,AB测试目前已经成为了一种大家公认的X数据对比,来决策新方案是否上线的一个标准。

但是,我看到一种现象就是,大多数产品经理都是为了做AB 、而做AB。其中涉及到几个非常重要的环节,稍有不慎就会入坑。

一、随意进行liú量设置

AB实验liú量的X是很多产品经理会忽视的一个环节。先看一个我经历过的案例。

我记得刚去搜索团队的时候,有个产品经理在线上跑了一个搜索策略优化的AB实验,按照预期,新策略肯定要比老策略好。

但是她X的问题是,一个AB实验做了半年了,因为AB结果数据经常波动,导致实验结果很难敲定下来。

也就是有的时候是实验组比对照组好,有的时候是实验组比对照组差,很难体现出趋势性。

后来,我看了看他们做的AB方案,发现了问题所在。

他们给这个AB Test分了两个组,实验组和对照组。因为担心新策略的影响面太大,因此给新策略,也就是实验组分了10%的liú量,然后直接用这10%的liú量,与剩下90%的liú量来进行AB实验。

此时,问题在哪,我估计大家也看出来了。

AB Test,为了尽量保证结果的可信,最基本的给到每个BUCKET(桶、组的概念)的liú量是一样大小的。

就拿这个实验来说,考虑降低新策略的影响范围没错,但是拿一个10%liú量的实验数据和一个90%liú量的实验数据进行对比,很明显难以得出可信的结论。

所以我后来把AB Test的方案进行了调整,整个AB Test分了三个组:实验、对照和空白。其中实验和对照分别设置了20%的liú量,用于进行实验数据对比,空白组60%的liú量。

最终收集了4周的数据之后,成功把新策略全量上线。

这就是AB Test中大家首先要避免的一个坑,就是要保证外界变量的一致性,最基础的就是实验组和对照组liú量是对等的,然后才有可能得到可信的结论。

二、持续时间越长越好

AB测试的时间越长越好么?

理论上来说确实是这样。

但是大家需要考虑一个情况是,对于AB实验来说,每增加一个实验组实际相当于线上新开发一套方案,所以持续时间比较长的AB实验会给开发、测试、运维等相关方带来不少的资源消耗。

所以AB实验并不是持续时间越长越好,实际cāo作过程中还是要结合我们的需qiú类型和影响范围来决定。

按照目前我们实施的方式:对于策略逻辑类的改动,通常AB Test的持续时间在2周左右,即可进行决策。

但是,对于涉及到用户交互xí惯改动的需qiú,AB Test的时间会拉长,比如持续1~2个月。

以上大家可以参考。

三、所有需qiú都做AB测试

常说,酒虽好,可不要tān杯。

AB Test一个道理。

虽说AB Test是一种科学的检验不同方案效果的手段,但是,大家不要忘了大前提,也就是当你对当前需qiú收益不确定,所以才需要做AB Test。

如果一个需qiú从收益的角度来说是十分确定的,那么很明显此时是无需进行AB Test的。我们上面已经聊过了AB Test的成本投入还是很大的。

通常对于如下几类需qiú是不需要进行AB Test的。比如:

1)X基础能力搭建需qiú

也就是你当前做的事情是X基础能力范畴,用户没有这个能力就无fǎ完成一个完整的Xliú程。

比如在电商中的黄金liú程:首页——列表——商品详情页——购物车——提交订单——支付完成,在你刚开始搭这些liú程功能的时候,是完全无需进行ABTest的。

2)X战略类需qiú

这类需qiú通常都是X从长期战略方向需要支持的产品迭代,因此无论它是否能够给当前X带来收益,都需要进行支持和上线。

所以,并不是所有需qiú都需要进行AB Test,更不要以为只有做AB Test的需qiú才是科学的。

总之一句话,不要为了做AB,而做AB。

四、有数据即做决策

当你拿到AB数据的时候,是不是就觉得万事大吉了呢?

很多产品经理在拿到AB Test数据之后,接下来就是对比实验组和对照组的相关指标数据。如果实验组在核心指标上优于对照组,那么就认为可以全量实验组,否则,就不可全量。

但是这种做fǎ实际上是忽视了AB Test背后的实际hán义。

AB Test的本质上是一个标准的X双样本检验(具体概念百度一下),最终基于大量用户的行为数据上的统计指标,得出对原假设的判断。

因此,A/B测试实际上对一个假设进行检验的过程。具体大家可以网上搜寻一下AB测试与数理统计的一些介绍文章。

所以,当我们拿到AB Test的数据时,首先应该做的事情就是看一下这些数据是否能够支持我们得出可信的结论。

这里给大家一个常用的方fǎ:P值。

具体概念我也不解释了,总之P值是检验不同结果之间是否具有显著性差异的一个统计学指标。因此我们可以用它来检测实验组和对照组之间的指标差异是否具有显著性。

常用的判断标准:

  1. P<0.01 极具显著性差异;
  2. 0.01<P<0.05 有显著性差异;
  3. P>0.05 无显著性差异。

前两种表明当前ABTest实验组和对照组的之间的差异是显著的,也就是我们可以用当前实验结果来进行决策;否则就需要重新进行AB Test。

关于P值这个指标如何计算,这里就不讲了。

那么大家知道,如果一次AB Test中,所有指标的P值均大于0.05,那么如何解决这个问题,我下篇文章公布。

以上几个就是我做AB测试遇到的坑,希望能帮到你。

#专栏作家#

夏唬人,微信X号:夏唬人,人人都是产品经理专栏作家,2019年年度作者。京东、美团、X策略产品X,《策略产品经理,数据赋能X》作者,夏唬人策略产品经理训练营主理人。

本文原创发布于人人都是产品经理,未经许可,jìn止转载。

题图来自 Unsplash,基于 CC0 协议。

给作者打赏,鼓励TA抓紧创作!

收藏 (0) 打赏

以上内容不错,打赏支持一下!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

声明:本站所有教程资源,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

雄发创业网 自媒体是如何赚钱的 我做AB Test遇到的坑 https://www.xiongfawang.com/726.html

常见问题

相关文章

我做AB Test遇到的坑-海报

分享本文封面