1.1 数据指标概述

了解数据指标的相关知识是建立数据指标体系的基础,本节会从什么是数据指标出发,介绍数据指标的类型、好的数据指标的评价标准以及选择数据指标时需要注意的问题。

1.1.1 什么是数据指标

数据指标是从业务中抽象出来的可以描述业务现状的度量值。单看这个概念确实不好理解,如果把场景拉回现实生活中,“指标”这个概念是极好理解的。例如,学生时代衡量学习效果的指标是各科成绩或学分绩点;体脂率、BMI(身体质量指数)、BMR(基础代谢率)等是健身人群较为关心的指标;要衡量一个国家的发展水平,GDP(国内生产总值)、进出口总额等指标就会浮现在脑海中。以上都是日常生活中较为常见的指标,互联网的业务场景也是一样的,例如,要衡量某款产品的用户总量可以用“累计注册用户数”这个指标;要衡量商品销量情况可以用“商品成交单量”及“成交额”等指标;要衡量用户付费水平可以用“用户付费率”和“人均付费”等指标。

1.1.2 数据指标的分类

数据指标按照不同的分类逻辑有不同的分类方法,此处分别介绍按照业务逻辑和按照指标构成分类。

1.按照业务逻辑分类

如图1-1所示,按照业务逻辑可以将数据指标分为北极星指标、结果指标、过程指标、运营指标以及监控指标。

图1-1 数据指标按照业务逻辑分类

北极星指标、结果指标、过程指标、运营指标是业务内部可控性较好的因素。其中,北极星指标是在不同发展阶段指引业务发展的重要指标,是业务目标的指向灯。对北极星指标进行业务目标的拆分,可以得到各个指向业务结果的子目标,称为结果指标。达成业务结果的过程中涉及的数据指标称为过程指标。不同业务运营模式下的业务指标也有所差异,有些指标并不能划归到结果指标或者过程指标中,例如,商品库存是电商行业的重要指标,它并不属于结果指标或过程指标,但依然不可或缺,可以将其归入运营指标。而监控指标是业务外部不可控的因素,涉及但不限于竞品、汇率、市场等方面。

2.按照指标构成分类

如图1-2所示,按照指标构成可以将数据指标分为原子指标和派生指标,派生指标又可分为事务型指标、存量指标和复合型指标。该分类方式在数据指标开发与数据仓库建模中较为常用,第10章会对此进行详细介绍。

图1-2 数据指标按照指标构成分类

在业务场景中,有一部分数据指标是不可再拆分的,业内称这一类指标为原子指标。原子指标由统计维度、度量和汇总方式组成。还有一部分指标是由原子指标、修饰词以及汇总方式等共同构成的,业内称其为派生指标。原子指标是派生指标的最小单位,而派生指标是原子指标业务范围的圈定。

(1)原子指标

原子指标是数据指标的最小单位,包括统计维度、度量以及汇总方式三个部分,如图1-3所示。其中,统计维度是计算原子指标的最小统计单位;度量在一定程度上等同于统计维度,可以认为是统计维度的单位;汇总方式是数据指标的统计方式,包括求和、求均值、求中位数等。

图1-3 原子指标的构成

以日活跃用户数量(Daily Active User,DAU)为例,通常数据分析师在计算日活跃用户数量时会以用户全局唯一编号——account_id或者UID作为统计维度;度量就是全局唯一编号account_id的单位,即个数;而日活跃用户数量统计的是日活跃用户的总和,因此汇总方式为求和。

(2)派生指标

派生指标由原子指标、修饰词以及汇总方式共同组成,如图1-4所示。此处以用户七日留存率为例,原子指标为留存率,修饰词为七日,汇总方式为求和。

图1-4 派生指标的构成

从一定层面上来看,可以将派生指标类比英文单词的构词法进行学习,原子指标相当于英文单词的词根,修饰词和汇总方式相当于英文单词的前缀、后缀。

派生指标又可以细分为事务型指标、存量指标和复合型指标。事务型指标是对业务活动进行衡量的指标,例如新用户数量、活跃用户数量等;存量指标是对实体状态的统计,例如用户总数、商品总数等;而复合型指标是建立在事务型指标和存量指标的基础上,结合一定的运算规则形成的计算指标,例如用户从浏览商品到下单之间的转化率。

1.1.3 好的数据指标的4个评价标准

数据指标的选择与业务场景具有强相关性,最适合当前业务场景的指标就是好的指标。为了方便数据分析师选择正确的数据指标,我们在本小节总结了4个判断数据指标好坏的标准[1]

1.好的数据指标是简单易懂的

好的数据指标必须是简单易懂的,这里的简单易懂不仅指统计逻辑简单易懂,还指指标含义不具有歧义,即数据分析师、数据产品方以及业务方等多方对指标的认知是统一的。如果一个指标很难让人记住或者讨论,那么想要通过这个指标来指导业务的发展是极为困难的。例如,电商行业常用来衡量交易规模的指标商品交易总额(Gross Merchandise Volume,GMV)和常用来衡量用户增长情况的数据指标用户增长率都是好的指标。而像弹出率这样的指标,虽然在一定场景下仍然在使用,但它的定义略显复杂,在统一不同工种对它的认知上就会耗费较多的时间和精力,所以非必要不建议使用弹出率这样的指标。

2.好的数据指标是具有可比性的

好的数据指标必然是能够洞察业务实际走向的,如果能够比较某数据指标在不同时间段、用户群体、竞争产品之间的表现,那么该指标就是一个可以洞察业务方向、指导业务决策的好指标。举个例子:如果让你衡量某电商企业的市场规模,你会用什么数据指标呢?是用户规模还是GMV?事实上,虽然用户规模和GMV都能从一定程度上衡量电商企业的市场规模,但渗透率排名和同比变化这两个指标更能衡量电商企业的市场规模及竞争格局。

如图1-5所示,渗透率排名及同比变化这两个指标从时间维度、行业竞争以及用户选择3个不同的层面诠释了该电商企业的市场规模,不论是同比还是排名都体现了指标的可比性。

3.好的数据指标是一个比率

好的数据指标是一个比率,原因有三:其一,比率本身就是一个具有可比性的指标;其二,比率可以直观表现各种因素之间的正负相关性;其三,比率的可操作性强,具有行动导向。

图1-5 渗透率排名及同比变化数据指标解读

例如,在特定的场景下,数据分析师可以用渗透率代替用户量来衡量市场规模,用付费转化率代替付费人数来衡量用户付费规模,用复购率代替消费次数来衡量用户对商品的满意度。

4.好的数据指标会改变行为

好的数据指标一定能让业务方随着数据指标的变化采取相应的措施。换句话来说,先见性指标和后见性指标都很重要,但是先见性指标能够对业务起到预警作用。

其中,先见性指标是指能够在问题发生之前给到一定预警作用的指标,这类指标一般用来预测未来;而后见性指标是指能够提示数据分析师和业务方问题的指标,一般在问题发生之后起作用。

以电商行业为例,可以通过复购率、推荐率衡量用户满意度,而不是用投诉率、退货率去衡量。当用户复购率、推荐率降低时,用户的满意度必然会降低,这时业务方可以通过一系列的运营动作提升用户满意度。而当用户已经开始退货甚至投诉时,可能已经开始流失用户了,再想要通过运营动作挽留用户,难度就比较大了。

1.1.4 选择数据指标时需要注意的4个问题

了解了好的数据指标的判断标准之后,在数据指标的选择方面你肯定已经游刃有余了。但是除了上述4条评判标准之外,在数据指标的选择方面还有以下4个需要注意的问题[2]

1.定性指标和定量指标都很重要

定性指标通常是非结构化的、经验性的、揭示性的、难以归类的,吸纳了部分主观因素,主要回答“为什么”的问题;而定量指标涉及很多数值和统计数据,能够提供可靠的量化结果,主要回答“什么”以及“多少”的问题。

定性指标通过计数、排名等操作进行数据分箱之后也能转化为定量指标。以某电商平台上某本书籍的销售为例:该书籍的销售数量和销售额就是一个定量指标,可用于评估该书籍的受欢迎程度;而用户评价就是一个定性指标,因为其中加入了用户的主观评价,但它给出了销售量以及销售额变化的原因,将用户评价的分数进行汇总排名也可以将这个定性指标转化为定量指标。

2.警惕虚荣指标,选择可执行的指标

虚荣指标是指那些使业务看似发展良好,但却不能为业务带来丝毫改变的数据指标。要判断一个数据指标是不是虚荣指标,只要思考一个问题即可:依据这个指标,能够辅助业务做出什么样的决策和改变?如果回答不了这个问题,那么这个数据指标大概率就是一个虚荣指标。

举例来说,总注册用户数量就是一个虚荣指标。该指标是一个单调递增函数,随着时间推移该指标会不断变大,但这个指标却不能衡量新用户的价值,对业务目标的实现也没有太大帮助。如图1-6所示,活跃用户占比和新用户增速这两个数据指标可以代替总用户注册量衡量新用户的价值。前者是活跃用户数量占总用户数量的百分比,衡量的是用户的参与度,当产品做出调整时,该指标会迅速变化:产品调整思路正确,那么该指标会上升;反之下降。而后者是单位时间内的新增用户数量,描述的是用户增长的情况:如果用户增长运营策略正确,那么该指标会增长;反之下降。

图1-6 虚荣指标与可执行指标的示例

点击量、页面浏览量、阅读量、访问量、独立访客数(UV)、粉丝量、好友量、点赞量、页面停留时间、网站浏览页量以及下载量是比较常见的虚荣指标,如图1-7所示。

图1-7 几个比较常见的虚荣指标

指标是否为虚荣指标跟商业模式以及业务场景是具有强相关性的,但并不是绝对的,例如,与广告相关的业务的商业模式与页面浏览量、点击量这两个指标强相关,在此业务场景下这两个指标就不是虚荣指标。

3.先见性指标与后见性指标都很重要

毫无疑问,无论对于数据分析师还是对于业务方来说,都更喜欢先见性指标,这类指标能够辅助业务方提前部署运营活动,未雨绸缪。

如图1-8所示,流失率、退货率以及满意度这三个指标都是后见性指标,与之对应的先见性指标分别是活跃率、投诉率以及复购率或推荐率。例如,用户流失率提示数据分析师和业务方用户流失情况的严重程度,但此时用户流失已经发生了。事实上,如果在观察到用户活跃率下降的时候就采取运营活动,则有机会避免用户流失。

4.区分相关性指标和因果性指标

区分指标之间的相关性和因果性也是较为重要的。如果两个指标总是一同变化,则说明它们是相关的;如果一个指标可以导致另一个指标变化,则说明它们之间具有因果关系。但需要注意的是,具有相关关系的两个指标之间不一定具有因果关系。例如,据美国疾病控制预防管理中心数据统计显示,美国的自杀人数与财政在自然科学领域的投入资金呈正相关关系。但两者并不存在因果关系——显然美国政府不可能通过减少在自然科学领域的投入资金来降低民众自杀率。由此可见,相关关系不等于因果关系,但因果关系首先是相关的。

图1-8 先见性指标与后见性指标

因此,想要证明因果性,首先要找到相关性,可以通过控制变量的方法进行实验,尽管在实际工作中很难实现,但有一个较为简单的方法,就是多问一个“为什么”。例如,作为数据分析师,我们发现最近活跃用户的次日留存率提升了,业务部门想要知道留存率提升的原因。经过数据分析发现,新活跃用户的留存数量比前一段时间增多了。此时就可以继续提问,“为什么新活跃用户的留存数量增加,而老用户的没有呢?”最后问题回归到业务本身,数据分析师发现最近产品新上了次日登录送优惠券的活动,从而增加了新用户的留存率。所以数据分析师可以通过不断地发问找到最终影响指标变动的原因。