4.2 数据清洗

在数据集中存在大量错误数据,我们将这些数据称为“脏”数据。这些“脏”数据包括缺失值、不一致的数据、重复数据、噪声数据等,一般的处理方式是丢弃或者替换。