缺失数据别怕！这里有份强大的初学者指南

发布时间：2019-08-16 20:42:18 所属栏目：教程来源：读芯术

导读：副标题#e# 实际上，数据科学家80%到90%的工作是数据清理，而这项工作的目的是为了执行其余10%的机器学习任务。没有什么比完成数据集分析后的收获更让人兴奋的了。如何减少清理数据的时间?如何为至关重要的10%的工作保留精力? 根据很多专业人士的经验，对数

在Python中：

df.Column_Name.fillna（df.Column_Name.mean（），inplace = True） 
df.Column_Name.fillna（df.Column_Name.median（），inplace = True） 
df.Column_Name.fillna（df.Column_Name.mode（），inplace = True）

平均值、中位数、模式估算的缺点—它减少了估算变量的方差，也缩小了标准误差，这使大多数假设检验和置信区间的计算无效。它忽略了变量之间的相关性，可能过度表示和低估某些数据。

逻辑回归

以一个统计模型为例，它使用逻辑函数来建模因变量。因变量是二进制因变量，其中两个值标记为“0”和“1”。逻辑函数是一个S函数，其中输入是对数几率，输出是概率。(例如：Y：通过考试的概率，X：学习时间.S函数的图形如下图)

缺失数据别怕！这里有份强大的初学者指南

图片来自维基百科：逻辑回归

在Python中：

from sklearn.pipeline import Pipeline 
from sklearn.preprocessing import Imputer 
from sklearn.linear_model import LogisticRegression 
 
imp=Imputer(missing_values="NaN", strategy="mean", axis=0) 
logmodel = LogisticRegression() 
steps=[('imputation',imp),('logistic_regression',logmodel)] 
pipeline=Pipeline(steps) 
X_train, X_test, Y_train, Y_test=train_test_split(X, y, test_size=0.3,random_state=42) 
pipeline.fit(X_train, Y_train) 
y_pred=pipeline.predict(X_test) 
pipeline.score(X_test, Y_test)

逻辑回归的缺点：

由于夸大其预测准确性的事实，容易过度自信或过度拟合。
当存在多个或非线性决策边界时，往往表现不佳。
线性回归

以一个统计模型为例，它使用线性预测函数来模拟因变量。因变量y和自变量x之间的关系是线性的。在这种情况下，系数是线的斜率。点到线形成的距离标记为(绿色)是误差项。

缺失数据别怕！这里有份强大的初学者指南

图片来自维基百科：线性回归

缺失数据别怕！这里有份强大的初学者指南

图片来自维基百科：线性回归

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/5

首页

尾页