数据清洗
数据预处理
指在主要的处理以前对数据进行的一些处理。
主要针对数据的质量问题和数量问题
质量问题是指数据太乱、质量差,影响后期数据挖掘结果的准确性。
包括不完整、不正确或含噪声、不一致(通常需人工检测)、时效性差、可信度不高、不可解释(使用其他特殊编码)
数量问题包括:存储类型太多、属性太多、条码太多、分类变量的类别多、关键属性缺少、数据层次太少
####数据预处理技术
数据清洗:解决数据质量太乱问题
数据压缩:解决数据数量太多问题
数据构造:解决数据数量太少问题
噪声数据
原因:硬件故障、编程错误或光学字符识别程序中的乱码、拼写错误、行业简称、俚语
处理原则:不是所有的噪声数据都处理掉,根据是否阻碍后面的数据挖掘任务决定,部分情况下是需要保留的重要信息。
处理方法:分箱、回归、聚类等