回归方程填补缺失值的操作方法(附python代码)\n1. 背景描述:\n数据清洗过程中经常会遇到异常值和缺失值等问题,有时候,会把异常值看作缺失值来处理。一般的缺失值处理方法包括:删除、统计值充填(均值、中位数等)、回归方程预测充填等。\n使用直接删除这种方法简单易行,但缺点是,在记录数据较少的情况下,会造成样本量的进一步减少,可能会改变响应变量的原有分布,造成分析结果不准确。因此,将异常值视为缺失值来处理的益处在于可以利用现有变量的信息进行建模挖掘,对异常值(缺失值)进行填补。(本文旨在探索如何使用回归方程进行预测估算,对异常值、缺失值进行充填的操作方法)\n\n2. 应用场景:\n回归方程充填法,是选择若干能预测缺失值的自变量,通过建立回归方程估算缺失值。该方法能尽可能地利用原数据集中的信息,但也存在一些不足之处:1. 虽然这是一个无偏估计,但会忽视随机误差,低估标准差和其他未知性质的测量值。2.使用前,必须假设存在缺失值所在的变量与其他变量是存在线性关系的,但现实它们不一定存在这样的线性关系,这可以借助统计工具来辨析,但往往更需要建模人员的实践经验和业务知识来进行分析和判断。\n\n3. 方法步骤:\na. 确定充填缺失值的变量(特征列)\nb. 拆分原始数据集:\n根据需要充填缺失值的变量,把原始数据集拆分为2个子集(1. 不含有缺失值:dataset_train; 2. 只含有缺失值dataset_pred)\n\nc. 辨析并检验相关变量的相关性:\n经验分析判定与充填缺失值的变量相关的属性列有哪些,应用统计分析工具,在dataset_train数据集上查看验证所选择的属性列之间的相关性。\n\nd. 建模并预测:\n使用dataset_train数据集建立线性回归模型,并应用建好的模型对dataset_pred数据集中的缺失变量进行预测估计\n\ne. 合并还原数据集:\n将两个子集合并还原为一个数据集,为后续建模准备好数据。