用户增长实验三部曲(2):如何准确评估「产品和运营策略」的效果?

在采用一套新的产品、运营策略后,我们势必要对策略效果进行调研分析,并准确评估出效果如何、比以往好了多少等。那么除了保证评估结果的客观与科学,有没有一套准确的、有说服力的评估办fǎ呢?

如何准确评估产品和运营策略的效果,几乎是所有产品经理、产品运营、数据分析、市场营销等同学曰常工作中都会碰到的问题。大到一个新产品上线、一次产品方向调整;小到一次运营活动、一个文案修改,我们都付出了成本,按理说我们都需要知道有没有效果(定性),效果比之前好了多少(定量),对KPI贡献了多少(归因)

数据总是有的,通常我们会不自觉的挑选利于结论的数据来说明效果。那么,有没有一套准确的、有说服力的评估办fǎ呢?有的,那就是实验(对了,这就是实验三部曲之二——准确量化效果,从之前的数据看如果不改标题X率会很低)。

01 两个常见错误

我们最常见的、也最容易想到的效果分析方fǎ是前后对比

前后对比非常直观,比如,上线了一个新功能,配置了一个App闪屏,做了一场线下活动(便于描述我们统称策略),带来了多少效果?很多同学会直接拿这个策略“做之后”对比“做之前”得到增量,即

效果 =策略后 – 策略前

这样对比的问题非常明显:

活动前后一段时间,用户的活跃度是不同的。比如,某打车APP在清明期间做了一个运营活动,用清明节三天对比清明前三天,可以看到订单量猛增。这个效果可以归因于这个策略吗?

另外一种常见的效果分析,是jú部对比整体或者说对比大盘。对比大盘也非常直观,我们往往会拿需要观察的人X(或者被策略命中的人X),来对比大盘得到增量,即:

效果 =观察人X-大盘人X

这样对比的问题也非常明显:观察人X往往是大盘中一个子集,只要不是随机从所有用户中抽取的,就有极大概率与大盘均值存在偏差。

比如,电商App运营活动,给进入X详情页的用户发100元折扣红包,最后发现发了红包以后,用户XXX的的比例是同时间段大盘的两倍。这个效果可以归因于这个策略吗?

以上两个错误,在我经历过的大厂,并且就在今天,依然有同学经常会犯,只不过没有这么明显。错误的根源是用于对比分析的两组样本,本身不具备“可比性”。

判断可比性的原则:对比的人X间,是否仅存在“要评估的策略”这一个差异。一旦两个人X本身存在差异(非随机分组),或者其中一个人X中叠加了多个策略(非单一变量),都无fǎX对比直接得到该策略的效果。

上面两个例子,大家都能看出来是不可比的,因为很明显存在样本偏差。

反推其原因,我觉得除了分析时不够谨慎外,还有就是存在惰性:前后对比、对比大盘,之前的数据和大盘数据往往都是现成的,拿来就比。

而科学的评估效果,则往往需要设计随机对照实验,成本、时间都增加了不少。而想要准确的评估策略效果,实验尽管有些麻烦,但是绕不开。

02 正确的评估方fǎ

正确的评估方fǎ是随机对照实验。实验的设计和下发,我们在《以抖音为案例,讲清楚“用户增长实验”在做什么》已经大概讲过,涉及到随机分组的方fǎ,以及置信度等问题,不是本篇重点。本篇不妨先假设随机分组完美,实验下发理想,实验结果置信,仅讨论分析方fǎ(这些问题可以交给实验工具)。

接上一部分,正确的效果评估,需要拿实验组-对照组获得增量,即

效果= 实验组- 对照组

假设我们已经拿到了数据,分析前需要确定分析方fǎ。这里的分析方fǎ包hán三个要素:样本、指标、维度。

  • 样本:通常是实验期间被实验命中的用户,hán实验组和对照组
  • 指标:根据实验目的来定,通常包hán整个人X的总体指标和人均指标两类(如实验组总时长、实验组人X时长)
  • 维度:时间维度,看一天、还是完整的用户周期;人X维度,仅看当曰命中,还是累计命中 等

不同的实验场景,需要我们组合不同的分析方fǎ,下面我X3个典型案例来具体介绍。

1. liú量型

liú量型实验最为常见,也最为理想。它指从整个liú量(活跃用户X)中以某些条件筛选一部分,随机分组下发不同策略。

之所以理想,是因为整个样本可以看着是一段时间内状态稳定的X,即实验前也是活跃的,可以进行理想的空跑期(即分好实验组和对照组后,并不立刻下发策略,而是观察一段时间以验证分组的均匀性,并且可以在实验分析时消除空跑期的差异;而拉新实验,新用户就没有空跑期数据)。

liú量型实验,我们可以轻易对比实验组和对照组需要看的指标,例如:

  • 样本:每天命中的实验组和对照组用户
  • 指标:根据实验目的来定,人均值通常X义
  • 维度:时间维度,完整的周期;人X维度,一般仅看当曰即可,也可关注累积

常见的liú量型实验场景:短XApp的feedsliú推荐算fǎ实验、App首页底部入口实验、电商详情页样式实验等。

2. X型

X型实验也比较常见,比如我们圈定某App的沉默人X(不妨定义为14天内不活跃用户),实验组XApp下发Push,而对照组不下发。实验的目的是评估下发Push对用户活跃度的影响。

  • 样本:所有沉默用户,实验组和对照组
  • 指标:根据实验目的来定,处理人均值通常要小心
  • 维度:时间维度,完整的一周;人X维度,需要看累积用户

为什么这类实验处理人均值要小心?

人均时长为例,人均值指标通常会拿总时长/活跃用户数。实验组XPushX用户后,其活跃用户数增多,但是由于唤回了部分沉默用户,其总体时长增加,人均时长可能反而会减少,最终可能造成“push降低了人均时长”的误判。

为什么需要看累积用户?(过于细节,可以跳过)
这个问题很容易被忽略,相对复杂,后续可以单独展开一篇文章,先简单介绍:

类似Push这样的X实验,有经验的同学会知道,随着Push下发次数增多,一部分用户会转化为主动打开用户、而一部分用户可能就会关掉Push甚至卸载

当我们在分析“持续发了一段时间的Push”对今天用户活跃度的影响时,需要看这一段时间以来所有命中过Push策略的用户,而不仅仅看今天命中Push的用户,否则我们会漏掉Push可能造成的X影响(很多关闭Push用户和卸载用户不在今天命中Push的用户之中了)。

常见的X型实验,除了对沉默用户发Push,还有App的图标红点实验,以及某些AppX短信下发优惠券实验等。

3. 分享型

分享型实验,由于涉及到分享者和接受者,会更加复杂。例如,我们想看不同的分享文案,对分享X率的影响,我们可以将对分享者随机分成AB两组,对应分享文案分别为A文案和B文案。

这里会有一个问题:A组和B组中的用户(分享者),很可能存在共同好友(接受者);这些共同好友,有可能会在朋友圈先后看到A文案和B文案的分享链接。而这些用户X分享链接,很大程度上取决于先看到哪一条,而不是文案。所以,从看A、B两组分享链接的X率,很可能无fǎ发映出文案的影响。

设计实验时,我们无fǎ保证用户分享给谁,也就无fǎ预先设置“分享者-接受者”这样的用户对对于这个case,我们应该设计成所有分享者随机出A、B两个文案,最终我们只需要分析的是A文案和B文案的X率,而此时共同好友的影响就被抹平了。

现在分享裂变做的很多,裂变的文案、卡片样式、红包金额,等等都是关键的实验变量,由于其复杂性,我们后面可以zhēn对具体案例来做专门的分析。

03 尾巴

上面介绍了正确评估产品和运营策略效果的方fǎ,就是实验,以及zhēn对不同类型实验的分析要点。限于篇幅,只列出三类比较有X性的实验类型,这些是我长期工作实战中的总结,应该在任何书籍、文章中都没见过,如有疑问还请指出~~

准确的效果,才能够帮助我们判断策略是否真正值得去做放大,进一步去争取更大的资源。虽然有些复杂的地方,但是相信大家都值得一试。

最后请记住:有条件,快上实验;没条件,创造条件做低成本的实验,用户ID包随机下发也是可以的,后端需要简单的支持。

真的不能实验怎么办?——还有一招,X因果推断方fǎ,近似构造实验组和对照组,后面我们详细介绍。

预告:实验三部曲-3 准确量化进阶版,我们将讨论更多可能导致分析结论错误的要点,比如SRM问题(Sample Ratio Mismatch)。当然,需要看下这一篇的反馈排优先级了~

相关阅读

《用户增长实验三部曲(1):生活中需要实验思维》

《以抖音为案例,讲清楚“用户增长实验”在做什么》

 

作者:jinlei886;5年+用户增长的一手经验,前X、滴X行用户增长产品经理,专注增长策略挖掘、增长工具搭建、实验设计分析。本硕博均就读于浙jiāng大学高X系。微信X号:用户增长实战笔记

本文由 @jinlei886 原创发布于人人都是产品经理。未经许可,jìn止转载

题图来自Unsplash,基于CC0协议

给作者打赏,鼓励TA抓紧创作!

收藏 (0) 打赏

以上内容不错,打赏支持一下!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

声明:本站所有教程资源,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

雄发创业网 自媒体是如何赚钱的 用户增长实验三部曲(2):如何准确评估「产品和运营策略」的效果? https://www.xiongfawang.com/2787.html

常见问题

相关文章

用户增长实验三部曲(2):如何准确评估「产品和运营策略」的效果?-海报

分享本文封面