大数据预处理过程包括:数据清洗: 填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来“清理数据”;数据集成:使用多个数据库,数据立方体或文件;数据归约: 用替代的,较小的数据表示形式替换元数据,得到信息内容的损失最小化,方法包括维规约,数量规约和数据压缩;数据变换:将数据变换成使用挖掘的形式。数据清洗是指在数据集中发现不准确、不完整或不合理数据,并对这些数据进行修补或移除以提高数据质量的过程。一个通用的数据清洗框架由5个步骤构成:定义错误类型,搜索并标识错误实例,改正错误,文档记录错误实例和错误类型,修改数据录入程序以减少未来的错误。此外,格式检查、完整性检查、合理性检查和极限检查也在数据清洗过程中完成。数据清洗对保持数据的一致和更新起着重要的作用,因此被用于如银行、保险、零售、电信和交通的多个行业。