二、清洗数据的基本要求

(一)完整性 主要问题:缺失值。针对缺失值的处理,基本的操作是删除或者填充等。 删除:删除数据缺失的记录;其优点在于简单易行,但缺点是删除缺失记录丢弃了隐藏在缺失值中的信息。删除缺失值,适用于缺失样本较少、总样本量足够大、被删除的样本量在总样本中占比极小的情况。填充:可使用均值、众数、特殊值、机器学习算法(KNN、聚类……)等。至于是删除缺失值,还是填充缺失值,用哪种方法填充,要根据实际应用场景确定。 (二)全面性 在有的数据中,计量尺度存在差异。比如有的单位是千克(kg),有的单位是磅(bs)。 这里使用千克作为统一的度量单位,将磅转化为千克。 (三)合理性 比如,人的年龄超过 150 岁,并不合理。有很多一般性指标都会存在上限的问题,数据要符合正常逻辑,因此,要进行删除或者填充处理。 (四)唯一性 数据重复会干扰分析结果,数据清洗要确定没有重复计数的情况。 因此,没有高质量的数据,就没有高质量的数据分析、数据挖掘,而数据清洗是高质量数据的一道保障,在数据分析工作中养成数据审核的习惯尤为重要。