加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

缺失数据别怕!这里有份强大的初学者指南

发布时间:2019-08-16 20:42:18 所属栏目:教程 来源:读芯术
导读:副标题#e# 实际上,数据科学家80%到90%的工作是数据清理,而这项工作的目的是为了执行其余10%的机器学习任务。没有什么比完成数据集分析后的收获更让人兴奋的了。如何减少清理数据的时间?如何为至关重要的10%的工作保留精力? 根据很多专业人士的经验,对数

在Python中:

  1. from sklearn.linear_model import LinearModel 
  2. from sklearn.preprocessing import Imputer 
  3. from sklearn.pipeline import Pipeline 
  4.  
  5. imp=Imputer(missing_values="NaN", strategy="mean", axis=0) 
  6. linmodel = LinearModel() 
  7. steps=[('imputation',imp),('linear_regression',linmodel)] 
  8. pipeline=Pipeline(steps) 
  9. X_train, X_test, Y_train, Y_test=train_test_split(X, y, test_size=0.3,random_state=42) 
  10. pipeline.fit(X_train, Y_train) 
  11. y_pred=pipeline.predict(X_test) 
  12. pipeline.score(X_test, Y_test 

线性回归的缺点:

  • 标准错误缩小
  • x和y之间需具有线性关系

KNN(K-近邻算法)

这是一种广泛用于缺失数据插补的模型。它被广泛使用的原因是它可以处理连续数据和分类数据。

此模型是一种非参数方法,可将数据分类到最近的重度加权邻居。用于连续变量的距离是欧几里德,对于分类数据,它可以是汉明距离(Hamming Distance)。在下面的例子中,绿色圆圈是Y.它和红色三角形划分到一起而不是蓝色方块,因为它附近有两个红色三角形。

缺失数据别怕!这里有份强大的初学者指南

图片来自维基百科:KNN

  1. from sklearn.neighbors import KNeighborsClassifier 
  2. from sklearn.preprocessing import Imputer 
  3. from sklearn.pipeline import Pipeline 
  4.  
  5. k_range=range(1,26) 
  6.   
  7. for k in k_range: 
  8.  imp=Imputer(missing_values=”NaN”,strategy=”mean”, axis=0) 
  9.  knn=KNeighborsClassifier(n_neighbors=k) 
  10.  steps=[(‘imputation’,imp),(‘K-NearestNeighbor’,knn)] 
  11.  pipeline=Pipeline(steps) 
  12.  X_train, X_test, Y_train,Y_test=train_test_split(X, y, test_size=0.3, random_state=42) 
  13.  pipeline.fit(X_train, Y_train) 
  14.  y_pred=pipeline.predict(X_test) 
  15.  pipeline.score(X_test, Y_test) 

KNN的缺点:

  • 在较大的数据集上耗费时间长
  • 在高维数据上,精度可能会严重降低

多重插补

多个插补或MICE算法通过运行多个回归模型来工作,并且每个缺失值均根据观察到(非缺失)的值有条件地建模。多次估算的强大之处在于它可估算连续,二进制,无序分类和有序分类数据的混合。

多重插补的步骤是:

  • 用鼠标输入数据()
  • 使用with()构建模型
  • 使用pool()汇集所有模型的结果

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读