【阿里妈妈数据科学系列】第五篇：实验指标设定方法与指标体系构建

原创于 2021-10-20 19:00:00 发布 · 1.4k 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #人工智能 #大数据 #数据分析 #python

▐ 前言

在【阿里妈妈数据科学系列】前四期内容中，我们介绍了 AB TEST 的基础知识与框架及每个部分的方法论与技术，本期我们主要介绍实验指标设定方法与指标体系构建。

指标体系构建在 AB Test 中是不可或缺的重要环节，量化的指标体系是衡量一个 AB Test 实验成功与否、能否扩量以及是否达到预期必不可少的条件，同时，一套科学的指标体系可以在抽样环节和同质性角度对实验组的可信度起到巨大的帮助。

▐ 实验评价指标设计

针对一个实验，如何设计评价指标来评估监控？一个关键点是从实验的目的去自顶向下设计指标，例如高层次的指标可以是用户活跃率和采纳率，在这个顶点上，需要向下定义什么算用户活跃？什么又算完成采纳？依照这个逻辑给到每一个关注指标一个明确的定义。同时，可以将一系列的指标进行聚合，通过构造一个目标函数或者简单的加权指标，组成一个单一指标，例如总体评价指标（OEC）。最后在指标设计中，还需要考虑指标的普适性有多少，如果你在运用 AB Test 测试，那么最好能有一个指标能够贯穿整个体系。

指标特性

敏感性：敏感性是指指标对所关系的事物是否足够敏感。
鲁棒性：鲁棒性性是指对不关心的事物是否足够不敏感。
指标分布：通过对指标的历史数据的分析得到指标分布，反映指标的分布特征和结构状况，有助于进一步研究指标的构成、平均水平及其变动规律。

敏感性和鲁棒性都可以通过预先小规模实验，来验证指标是否符合直觉。另一个方法是使用 A/A 测试，也就是什么都不改变，以此来排除一些伪关系。

▐ 指标分类及选取

指标分类

AB Test 测试的指标通常可以分为核心指标、质量指标以及观测指标。1. 核心指标通常是指比较敏感的，有很强的可操作性，同时能够受实验干预措施带来较为直接的影响，主要用来决定实验是否成功的指标。例如人均消耗、点击率、转化率、人均使用时长等，其特性包括可归因性，可测量性，在实验干预前，通常采用A/A测试来测量鲁棒性，用回溯性分析来测量敏感性；2. 质量指标在AB Test中起到的是兜底作用，通常是作为一个约束底线而存在，帮助我们戒备核心指标给予错误信号的情况，能够帮助实验更好的确定是否需要继续进行或扩量；3. 观测指标在实验中起到辅助作用，可以更好的观测实验带来的一些其余方向的影响。这三类指标共同构建了AB Test的指标体系。

如何选取核心指标

首先要清楚业务或产品所处的阶段，根据这个阶段的目标来确定核心指标。例如，在业务或产品的起步阶段，目标更多的侧重于增加用户使用，其核心指标更应该集中在使用率、点击率、转化率等指标；而在业务产品的成熟及稳定期，此时业务目标逐渐转向的是产品收益、用户的使用留存情况，核心指标则应该重点关注在ROI、留存率、使用频次、停留时长等。同时，核心指标的个数不宜太多，一般不超过三个。通过观察成功指标的差别，我们可以决定是否接受产品的改动核心指标的是否成功必须是能在短时间内被验证，并能够指示长期影响的指标。例如，如果业务的期望是为了提升平台用户粘性，日活率是一个好的核心指标，通过数据可以快速的知道平台有多少登录用户，其中又有多少有活跃动作，但是30天留存率就不是一个很好的核心指标，因为必须等待至少30天才能知道用户是否还在该产品上继续活跃，虽然日活率和长期留存率都衡量了长期商业的影响，但由于滞后性，长期留存率并不能拿来作为核心指标。但核心指标的成功度量并不需要直接测量长期商业影响，间接指示也可以，例如：Netflix 就利用用户观看时长作为用户增长的成功指标，他们的收入与订阅用户数量直接相关，由于 Netflix 提供包月业务，大部分取消业务的用户都会选在续费前取消，这就造成了订阅用户数量会存在一个月的间隔，刚开始的 AB Test 测试需要至少一个月才能知道成效。而且，Netflix 也不希望用户退订，他们希望知道用户是否已经开始不满意产品的变动，并及时做出决策，所以通过相关性分析，Netflix 发现用户每周观看时间和留存率有很大的相关性，因此，每周观看时间也能作为核心指标，因为它间接并且快速的指示长期的商业影响。

如何选取质量指标

质量指标可以是产品的性能指标。例如测试新的搜索引擎，一般也会对搜索引擎的性能进行衡量，如：多少搜索成功完成，平均耗时多少？虽然这些度量并不完全决定是否发布新的搜索引擎，但是如果我们发现它的表现非常差，即使核心指标（搜索相关性）有些许的提高，往往也不会发布新的产品。它也可以是产品不直接影响的商业价值指标，例如在做用户增长实验时，也可以将用户体验作为质量指标，虽然大部分的新产品和新功能都不应该影响用户体验，但是将它们加入质量指标可以对实验结果更有信心。

如何选取观测指标

观测指标可以从两个角度来挖掘，一方面是用来帮助我们理解核心指标为什么改变的指标，举例而言，如果想测试广告是否有效，一个很直接的核心指标就是广告的点击率，但通过对于点击率的分析，我们能够更深刻的了解到广告利润是如何来的，以及如何设计新的广告形式或者广告内容，这是观测指标可以包括广告的曝光和点击，这些指标可以更好的帮助我们理解点击率的变化发生在了哪一块。另一方面观测指标用来帮助我们监测一些其余视角的得失，同样以广告为例，除了核心的点击率，用户的15日留存这个指标可以从侧面反映广告机制的优化是否会对用户造成反感等。

▐ 综合评价指标（OEC）指标构建

根据上述内容我们得出，一个好的 AB Test 囊括的合理的核心指标、质量指标及观测指标，在这个背景下，可以发现一个实验可能同时需要监测大量的指标，一个很容易的矛盾点便产生了，我们如何衡量这个实验是否成功？如果核心指标提升但质量指标下降，我们又如何权衡这两者之间的得失、判断是否需要推全？观测指标对于实验的结论又有多大的帮助性？这些问题导致了我们在实验之后有时难以做出下一步的决定，这时除了基于经验以外，构建一个综合评价指数(OEC)便是解决这个问题的一个方法，那么如何构建一个OEC指标呢。

良好的指标体系。我们知道不同的业务目的我们观测的指标各不相同，例如对于广告平台来说，提升收益的项目更关注的是广告主的消耗，提升留存的项目更加关注的是广告主的留存率等。此时，便需要对业务进行划分，针对不同类型的业务，定义一套标准的指标体系，包括该业务场景下的核心指标、质量指标和观测指标。
对指标进行处理，包括正向化和无量纲化。a）正向化：指标一般分为正向指标（越大越好）、逆向指标（越小越好）、适度指标（不能太小也不能太大）。为了可以进行综合汇总，需要解决同方向性，一般需要将逆向指标和适度指标正向化。逆向指标正向化的方法可选择的方法包括倒数法，最小阈值法、最大阈值法。适度指标正向化包括绝对值倒数法和距离倒数法。具体方法不在此进行介绍。b）无量纲化：指标的无量纲化可以消除指标间量级不同的影响，可以使各个指标转化成可以直接加减的的数值，常用的消除定量指标无量纲化的方式如下。常用的方法包括阈值比较法、中心化、规格化、标准化、比重法。具体方法不在此进行介绍。
设置各指标的权重，权重的设置是否合理对于构建 OEC 至关重要，但什么样的权重算作合理？对此，通常来说需要将主观赋权法与客观赋权法相结合。a）主观赋权法：又分为专家赋权法和层次分析法（AHP），这两种方法都更多的依赖长期的经验及主观认知 b）客观赋权法：基本思想是利用各指标间的相互关系或提供的信息量来确定权重，实际实现是通过对原始数据经过数学公式上的处理获取权重，原始数据所包含的信息包括两种，一种是指标变异程度上的信息差异，一般通过指标的标准差或变异系数来反映，一种是指标间的相互影响程度，这种信息一般隐含在指标见相关关系矩阵中。常见的客观赋权的方法包括变异系数法、相关系数法、熵值法。
根据权重进行综合打分：将赋权后的多指标进行综合的方法主要有四大类：线性综合法、几何综合法、混合综合法和模型综合法，前三种方法较为简单，可以理解为加权求和、加权几何平均、线性加权与几何综合结合，而模型综合法较为复杂，通过各种复杂的函数和相关关系得到综合评价数值，同时该关系必须为描述对象间的关系清晰，可以用合适的数学表达式表述。

OEC的优点

综合了各方面的指标，可以把握 AB Test 总体的好坏。
可以避免多重检验问题。如果单独比较多个指标会出现多重检验的问题。
对于不同的业务场景可以合理规范出通用的指标体系，能够帮助同类型业务间进行横向的对比。
对于单一项目，同时也可以做到时间上的纵向对比，方便进行实验后的长期追踪。

▐ 总结

当前的互联网公司中，每天都有成百上千的 AB Test 正在进行，因此，指标的合理选择及构建一方面能够直接影响实验的成功判断，另一方面能够清晰的帮助分析师从各个视角看清实验，无论从产品的未来优化方向还是长期收益角度，良好的指标定义及构建都不容忽视。当然，科学的指标体系除了依赖数据上的输入以外，长期的经验积累也是一种手段，尤其是在 OEC 指标的构建上，从理论及实践的角度都依然有着巨大的挖掘空间。