1.3 识别网站数据具有欺骗性的3种形态

辨别数据欺骗性是避免数据决策失误的重要环节。在很多情况下我们看到的都是经过加工的数据,数据一定是“眼见为实”吗?数据是如何“说谎”的呢?

1.数据展示的欺骗性

数据可视化通常可以帮助读者更好地理解数据,常见的载体是图表或图形。数据展示的欺骗性是指利用数据可视化的方法,对特定图表或图形的展示进行特殊处理,从而使数据解读者产生视觉上的错误认识。

(1)图表拉伸

图表拉伸是指图表的高和宽不符合正常比例,通过刻意拉伸高或宽等途径人为形成某种假象。在正常情况下,图表宽(横轴)与高(纵轴)的比例为1∶1到1∶2之间,如果在这个范围之外,数据显示结果会过于异常。如图1-1所示,在正常情况下订单量走势平缓,但缩短横轴之后的订单量走势显得更加陡峭,会让人误认为效果非常显著。

图1-1 同样数据在不同拉伸程度下的对比

(2)坐标轴的特殊处理

坐标轴的特殊处理是指数据排列非正常展示,包括数据单位设置、取对数,甚至是逆序排序等,这些操作直接影响了数据的正常展示,甚至会带来相反的错觉。如图1-2所示,在正常情况下不同省份的数据差异非常大,但在取对数处理之后由于数据都落在相对较小的区间内,导致各省份差异非常小,这就是同样的数据,不同的结论。

(3)数据标准化

数据标准化的本质是对绝对值较大的数据进行处理,使其在保持自身数据相对性的前提下,将不同的数据落到相同的数据区间,以便更好地进行不同数据间趋势、相关性等结果分析。常用的数据标准化方法包括Z标准化和0-1标准化。如果数据从业者不提前告知,可能会让业务人员误以为两种数据的结果值异常,不符合实际业务场景。

图1-2 数据经坐标轴处理后的展示对比

对于如表1-1所示的数据,如果直接在此基础上进行展示订单量和跳出率关系,则很难发现数据价值。为了更好地说明问题,通常我们会把两个数据经数据标准化后放到一个数据区间内,在表1-1中使用0-1标准化来对订单量和跳出率进行处理。

表1-1 某周期内订单量和跳出率的数据

处理之后的数据会更具备展示和解读性,如图1-3所示。

图1-3 订单量与跳出率关系图

提示

数据标准化是分析不同量级数据间关系的常用方法,掌握标准化不仅有利于数据从业者进行数据分析,更容易让业务人员从感性的角度直接发现两种数据间的相互关系,对理解数据有很大的帮助。

对于该类数据展现的欺骗性,需要数据从业者在进行数据分享和沟通时先介绍图形展示时进行的数据处理步骤、方法和目的,以避免业务人员误解数据。同时,作为业务人员需要掌握以下基本的数据理解常识和图表理解步骤。

步骤1 看标题,了解图表要表达的基本含义。

步骤2 看坐标轴,包括横轴和纵轴,看图表是否存在使用双坐标轴、纵轴特殊处理和排序等问题。

步骤3 看示例,如果图表中有多个数据,需要了解每个数据的含义。

步骤4 看注释,通常分析师会将图表的样本、时间、处理方法等一并写到注释中。

2.数据处理的欺骗性

数据处理过程中的欺骗性是较难被察觉的一类欺骗方法,由于数据在进行结论展现前会经过取样、清洗、模型和分析方法选择以及应用等过程,每个过程都有可能存在问题。

(1)数据样本问题

在进行数据分析之前可能存在需要抽样的问题,并且在数据量越大的情况下出现抽样的概率越大。合理的抽样有助于提高数据分析和挖掘的效率,能在保证数据质量的前提下减少人力和时间成本,因此抽样是大数据分析和挖掘的必要步骤。

数据抽样的方法因人而异,只要能代表全部样本特征的抽样方法都可用,因此不存在最好的抽样方法,只有最适合的抽样方法。如果抽样过程中出现问题,会直接影响后期所有的数据工作,恶意的抽样方法甚至会直接导致数据结论的错误。常见的数据抽样问题是抽样主体不同和抽样样本量不同。

抽样主体不同。相同的样本,在所有条件都相同的情况下,哪怕只有一个抽取逻辑不同,就可能导致后期的结果更符合或不符合“预期”。比如要执行用户挽回业务的动作,需要提炼出更具备挽回可能性的用户,假如抽样样本分别是最近6个月未访问和最近6个月未购物但有访问行为的用户,几乎可以不用做业务测试和效果分析,最终的结果必然是最近6个月有过访问行为的用户具备更高的挽回概率。

抽样样本量不同。严格来说样本量不同并不一定是故意欺骗,因为受客观环境的影响确实存在具备某些特征的用户样本很少,比如有年龄信息的用户在互联网公司的CRM系统中的比例占比很低,这是无法改变的。但即使是这样的客观情况,基于较大差异的样本量分析和挖掘的数据结果也很可能具备一定的偶然性,可信度较低。

提示

当某种数据因为客观环境导致样本量较少时,可以采用数据欠抽样和过抽样的方法进行平衡。

(2)数据处理问题

数据处理指的是在开始分析数据之前的清洗工作,通常需要对样本进行整体数据观察,以确认样本数量、均值、极值、方差、标准差及数据范围等。数据在应对异常情况的处理时也会存在故意“说谎”的问题,最常见的异常情况包括极大值和极小值、缺失值、错误值等。每种异常值的处理方法都不同会对数据处理结果产生直接影响,并且异常值的样本数量越多,对数据处理结果的影响就越大。

举例:某公司一天的销售数据显示,当天的销售额异常高。在对数据进行整体观察后发现当天存在异常离群值——极大值,该值直接将当天的整体数据拉升到一个不可信的高度。该异常值可能是恶意下单、行单、测试订单,甚至是系统问题引起的,无论是哪种原因,都直接导致了销售额异常。如果忽视该异常值的处理,直接对包含异常值的数据样本进行分析与挖掘,结论就是利好的,但并不符合实际。

(3)数据分析问题

在数据分析和挖掘的过程中,同一种目标下都存在多种可供选择的分析方法与挖掘模型。不同的方法和模型产生的结果未必相同,尤其是具有定性分析的对比类分析,所对照的样本不同,结果就不一样。

举例:某公司一天的销售额是1000万元,该销售额是多是少?对比昨日、上周同期、上月同期、去年同期,甚至是随便选择一天的销售数据,结果可能都会存在很大的差异。这就意味着不同的对比对象决定了数据解读的方向。

对于该类数据取样、处理和分析的欺骗识别,在业务人员与数据分析师沟通的过程中,双方都要把基本的数据选取规则、处理方法沟通清楚,对其中明显的错误或失误进行及时纠正。

3.数据意识欺骗

数据意识欺骗是隐藏等级最高、最严重的欺骗和错误,通常在数据从业者进行数据分析和挖掘之前就已经有了结论,在数据抽取、分析处理、后期展现等环节中只选取有利于证明其论断的方法和材料,因此会产生严重的误导行为,如果是辅助高层作出决策,甚至会带来严重的决策失误!因此,数据从业者一定要保持中立的立场、客观的态度。

在与数据从业者沟通的过程中,如果发现确实存在某种固定的倾向性,就需要引起注意。另外,对于以下相关情形,也需要引起警惕:

·在数据报告中刻意隐藏数据提取细节。从来不注明数据出处、数据取样时间、数据取样规则、数据处理和分析挖掘方法等,这通常意味着该报告刻意隐藏数据提取细节,需要引起重视。

·数据报告样本过少的问题。比如样本共1000个,其中北京提供的可能只有100个,其余900个是其他省份提供的,基于100个样本分析出与北京相关的数据结论显然可信度较低。

·数据报告存在明显的倾向性。任何事物都有正反两方面,对事物进行分析,如果只分析其优势或劣势,结果必然不全面、不客观。