Python数据科学:正则化方法
发布时间:2019-01-29 22:16:29 所属栏目:教程 来源:小F
导读:副标题#e# 本文主要介绍,Python数据科学:正则化方法。正则化方法的出现,通过收缩方法(正则化方法)进行回归。 正则化方法主要包括岭回归与LASSO回归。 一、岭回归 岭回归通过人为加入的惩罚项(约束项),对回归系数进行估计,为有偏估计。 有偏估计,允许
所以正则化系数只要小于40或50,模型的拟合效果应该都不错。
RidgeCV通过交叉验证,可以快速返回“最优”的正则化系数。 当这只是基于数值计算的,可能最终结果并不符合业务逻辑。 比如本次模型的变量系数。
发现收入的系数为负值,这肯定是不合理的。 下面通过岭迹图进行进一步分析。 岭迹图是在不同正则化系数下变量系数的轨迹。
输出结果。
综合模型均方误差和岭迹图的情况,选取正则化系数为40。
那么就来看看,当正则化系数为40时,模型变量系数的情况。
发现变量系数都为正值,符合业务直觉。 收入和当地人均收入这两个变量可以保留,另外两个删除。 二、LASSO回归 LASSO回归,在令回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化。 从而能够产生某些严格等于0的回归系数,得到解释力较强的模型。 相比岭回归,LASSO回归还可以进行变量筛选。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |