1.1.3 数据分析的流程

数据是客观的事实,但是数据本身并不会告诉人们它的价值,其蕴涵的信息需要分析师进行挖掘。数据分析的流程分为8个步骤,如图1-5所示。

图1-5 数据分析的流程

1.明确目标

数据分析是一种有目的的行为,比如,你想要了解销售情况,或者想找到数据之间的某种规律,一切行为操作都针对某个目标展开。因此进行数据分析的基础是目标明确,没有明确的目标,任何分析操作都可能是做无用功。

2.明确分析维度和指标

围绕目标选定进行数据分析的维度和指标,只有选定了范围才可以有目的地收集数据,并进行分析。明确的分析范围能避免分析报告内容太多、不深入。

例1-3:分析目标是了解新上线的详情页的效果,为此选定分析的维度和指标。

解:分析的维度有日期、页面,指标有停留时间、转化率。

3.数据采集

数据是数据分析的基础,没有数据就无法开展数据分析工作,数据采集是将目标数据收集到计算机硬盘等存储空间中。基础的数据采集可采用Excel、八爪鱼、火车采集器、码栈等软件,进阶的数据采集可使用Python。

4.数据清洗

采集到的数据一般会有一部分“脏数据”,所以不能直接用于数据分析,如果不处理它们将会影响分析结果。所以在进行分析前需要对数据进行检查,如果发现“脏数据”就必须进行清洗。

例1-4:表1-1所示为从淘宝生意参谋下载的店铺经营数据,其中第三行观测值中存在以“—”为标记的缺失值,如果不处理此类缺失值将无法进行下一步操作,因此需将数据中的“—”替换为数字“0”。

表1-1 店铺经营数据

数据清洗可使用Excel、Python等工具,亦可使用专业的ETL(Extract Transform Load,抽取、转换、装载)工具。利用Excel中的Power Query组件(Office 2016及以上版本自带该组件),可实现大量数据的清洗。

5.数据整理

因为收集到的数据一般都是零散或者杂乱的,直接观察数据难以洞察出有效信息,所以只有对其进行整理,才能保证后续流程顺利进行。

按照某个维度汇总数据才能对其进行有效的观察。比如,要观察新的详情页上线后用户行为的变化,可以按照上线前和上线后的用户行为数据进行分类汇总,然后通过这两份数据的对比来得出结论。

例1-5:表1-2所示为淘宝网女装T恤和衬衫两个品类在2023年1~3月的成交金额数据,将数据整理成表1-3所示的形式,更便于分析。

表1-2 未经整理的成交金额数据

表1-3 整理后的成交金额数据   单位:千万元

6.数据分析

数据分析的目的是将数据转变成有效的信息。前面的步骤都是为这一步做准备,信息的提炼可以采用对比法、拆分法、分组法等分析方法。

例1-6:表1-4所示为商品标题中的关键词词根分析结果。观察表1-4中的支付买家数,可以发现“收纳箱”和“大号”这两个词根的支付买家数为0,表示没有用户通过这两个词根产生交易,因此得到的信息是“收纳箱”和“大号”这两个词根可以优化。

表1-4 关键词词根分析结果   单位:个

7.数据可视化

数据可视化旨在借助图形化手段,清晰、有效地传达信息。

例1-7:将表1-5中的数据直观地展现出来。

表1-5 多个产品的对比数据

根据表1-5中的数据画出雷达图,如图1-6所示,各个产品间的差异清晰可见。

图1-6 雷达图

8.数据报告撰写

数据报告是对分析结果进行逻辑性的集中展现并阐述分析的文档,可以采用PPT、Word文档等形式。图1-7所示为一份数据报告示例。

图1-7 数据报告示例