AI制胜:机器学习极简入门
上QQ阅读APP看书,第一时间看更新

2.1 数据预处理的重要性和原则

机器学习人工智能的爱好者,往往在获得数据后,就开始疯狂地想套用一个算法模型,迫不及待地把数据往里面“喂”。当你信心满满地开始运行后,你会看到下面显示一行一行的红色字体,大体意思是这里数字无效,这时候心态就崩溃了。数据科学家在他们的工作中有50%到80%的时间花费在收集和准备不规则数据的这种更为平凡的任务中,然后才能探索有用的价值。

在机器学习中数据是王道,较好的数据经过不同的模型训练后,其预测结果差距不是太大。在真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误(如医生的诊断记录)导致有异常点存在,对我们挖掘出有效信息造成了一定的困扰,所以我们需要通过一些方法,尽量提高数据的质量。在机器学习中,数据的质量关乎机器学习任务的成败、直接影响着预测的结果。

那么对于数据的预处理,有如下常用的处理原则和方法。

(1)针对数据缺失的问题,我们虽然可以将存在缺失的行直接删除,但这不是一个好办法,还很容易引发问题。因此需要一个更好的解决方案。最常用的方法是,用其所在列的均值来填充缺失。

(2)不属于同一量纲,即数据的规格不一样,不能够放在一起比较。

(3)对于某些定量数据,其包含的有效信息为区间划分,例如学习成绩,假如只关心“及格”或“不及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和不及格。二值化可以解决这一问题。

(4)大部分机器学习算法要求输入的数据必须是数字,不能是字符串。需要将描述变量转化为数字型变量,因为大部分算法无法直接处理描述变量。

(5)某些算法对数据归一化敏感,标准化可大大提高模型的精度。标准化即将样本缩放到指定的范围,标准化可消除样本间不同量级带来的影响(大数量级的特征占据主导地位;量级的差异将导致迭代收敛速度减慢;所有依赖于样本距离的算法对于数据的量级都非常敏感)。

(6)在数据集中,样本往往会有很多特征,并不是所有特征都有用,只有一些关键的特征对预测结果起决定性作用。